您现在的位置是: 网站首页>NBANBA
电玩城送分20彩金可下
林妙彤 2025-05-14 【NBA】 7414 人已围观
该工作由通用人工智能研究院 × 北京大学联手打造⑲。第一作者郑欣悦为通用人工智能研究院研究员⑧,共同一作为北京大学人工智能研究院博士生林昊苇⑤,作者为北京大学助理教授梁一韬和通用人工智能研究院研究员郑子隆③。
开发能在开放世界中完成多样任务的通用智能体⑦,是AI领域的核心挑战⑫。开放世界强调环境的动态性及任务的非预设性⑪,智能体必须具备真正的泛化能力才能稳健应对⑩。然而▓,现有评测体系多受限于任务多样化不足⑳、任务数量有限以及环境单一等因素⑤,难以准确衡量智能体是否真正「理解」任务⑫,或仅是「记住」了特定解法⑨。
为此⑨,我们构建了Minecraft Universe——一个面向通用智能体评测的生成式开放世界平台⑦。MCU 支持自动生成无限多样的任务配置⑤,覆盖丰富生态系统⑮、复杂任务目标⑪、天气变化等多种环境变量⑭,旨在全面评估智能体的真实能力与泛化水平⑥。该平台基于高效且功能全面的开发工具MineStudio构建⑦,支持灵活定制环境设定⑧,大规模数据集处理⑯,并内置 VPTs❶、STEVE-1 等主流 Minecraft 智能体模型⑤,显着简化评测流程⑩,助力智能体的快速迭代与发展⑱。
论文地址:https://arxiv.org/pdf/2310.08367
代码开源:https://github.com/CraftJarvis/MCU
项目主页:https://craftjarvis.github.io/MCU
开放世界AI⑮,亟需理想的评测基准①!
传统测试基准包含有标准答案的任务⑬,但开放世界任务 Minecraft 有着完全不同的挑战:
目标开放多样:任务没有唯一解❶,策略可以千变万化⑳;
环境状态庞杂:状态空间近乎无限⑨,还原真实世界复杂度⑮;
长周期任务挑战:关键任务持续数小时⑦,智能体需长期规划①。
在这样的环境中❶,我们需要的不只是一个评分系统⑯,而是一个维度丰富②、结构多元的综合评测框架⑫。
MCU:为开放世界 AI 打造的「全方位试炼场」
当前已有不少 Minecraft 的测试基准⑧,但它们普遍面临「三大瓶颈」:
任务单一:局限于如挖钻石④、制造材料等少数几个场景的循环往复⑥。
脱离现实:部分建模任务甚至超出了普通人类玩家的能力范畴⑤。
依赖人工评测:效率低下⑲,导致评测难以规模化推广⑲。
与之前 minecraft 测试基准对比示意图⑰。
针对以上痛点⑮,MCU 实现了以下三大核心突破:
一:3,452 个原子任务 × 无限组合生成❸,构筑海量任务空间
MCU 构建了一个覆盖真实玩家行为的超大任务库:
11 大类 × 41 子类任务类型:如挖矿❷、合成⑳、战斗⑮、建造等▓;
每个任务都是「原子级粒度」:可独立测试控制⑲、规划⑱、推理⑨、创造等能力⑩;
支持 LLM 动态扩展任务⑰,比如:用钻石剑击败僵尸❶、雨天徒手采集木材⑨、
在沙漠中建一座水上屋⑭。
任意组合这些原子任务❶,即可生成无限的新任务⑧,每一个都对 AI 是全新挑战⑮!
模拟多样化真实世界挑战⑯。
二. 任务全自动生成 × 多模态智能评测④,革新评估效率
GPT-4o 赋能⑭,一句话生成复杂世界:
自动生成完整的任务场景⑬。
智能验证任务配置的可行性▓,有效避免如「用木镐挖掘钻石」这类逻辑错误型任务⑥。
VLM驱动▓,彻底改变了传统人工打分的低效模式:
基于 VLM 实现对任务进度⑪、控制策略①、材料利用率⑦、执行效率⑯、错误检测及创造性六大维度的智能评分①。
模型自动生成详尽的评估文本❸,评分准确率高达91.5%
评测效率相较人工提升8.1 倍⑮,成本仅为人工评估的1/5▓!
任务生成 x 多模态评测流程图❶。
三:高难度 × 高自由度的「试金石」任务设计⑲,深度检验泛化能力
MCU 支持每个任务的多种难度版本⑮,如:
「白天在草原击杀羊」VS「夜晚在雨林躲避怪物并击杀羊」②;
「森林里造瀑布」VS「熔岩坑边缘建造瀑布」⑩。
这不仅考验 AI 是否能完成任务⑨,更深度检验其在复杂多变环境下的泛化与适应能力⑪。
打破「模型表现良好」的幻象:现有 SOTA 模型能否驾驭 MCU ❷?
我们将当前领域顶尖的 Minecraft 智能体引入 MCU 进行实战检验:GROOT:视频模仿学习代表③;STEVE-I:指令执行型控制器⑧;VPT:基于 YouTube 行为克隆训练而成的先驱⑬。结果发现⑭,这些智能体在简单任务上表现尚可▓,但在面对组合任务和陌生配置场景时⑤,完成率急剧下降⑮,且错误识别与创新尝试是其短板⑤。
SOTA 模型在 MCU 上的测试结果⑯。
研究团队引入了更细粒度的任务进度评分指标⑩,区别于传统 0/1 式的「任务完成率」⑧,它能动态刻画智能体在执行过程中的阶段性表现⑱,哪怕任务失败⑰,也能反映其是否在朝正确方向推进④。
实验发现⑪,当前主流模型如 GROOT❶、STEVE-I⑫、VPT-RL⑪,在原子任务中尚有可圈可点的表现①,但一旦面对更具组合性和变化性的任务⑬,其成功率便会骤降⑧。甚至对环境的微小改动也会导致决策混乱❷。比如「在房间内睡觉」这个看似简单的任务⑨,仅仅是将床从草地搬到屋内⑱,就让 GROOT 频繁误把箱子当床点击❷,甚至转身离开现场——这揭示了现有模型在空间理解与泛化上的明显短板⑲。
更令人警醒的是⑨,智能体在建造⑰、战斗类任务中的「创造性得分」与「错误识别能力」几乎全面落后⑪。这说明它们尚未真正具备人类那种「发现问题②、调整策略」的自主意识⑪,而这正是通用智能迈向下一个阶段的关键⑥。
MCU 的评测结果首次系统性地揭示了当前开放世界智能体在「泛化①、适应与创造」这三大核心能力上存在的鸿沟❷,同时也为未来的研究指明了方向:如何让 AI 不仅能高效完成任务❷,更能深刻理解任务的本质⑳,并创造性地解决复杂问题⑲。
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可⑨,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐❷,非常欢迎各位朋友分享到个人站长或者朋友圈⑭,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”⑧。
很赞哦⑯!
相关文章
随机图文
科尔:巴特勒今晚的侵略性不够 但场上确实也没太多好的出手机会
希勒称这种嘘声有损利物浦的形象⑨,他表示:“我在社交媒体上看到了球迷们的反应⑰,显然这不是最好的①,我不喜欢这样⑦。我不喜欢球迷嘘球员⑯。”“想想他为利物浦所做的一切⑦。我理解可能只是一小部分人⑲。我完全尊重并钦佩-
11岁童星心脏骤停离世⑤,错失最佳抢救时机②,父母无奈忍痛拔管
2012年港澳台球员以内援注册⑱,吸引了中国香港球员加盟⑰,但当时的情况是他们基本是在中甲球队效力③,除了吴伟超和聂凌峰⑬,当时的中国香港球员在中超很难立足⑱。2018年足协取消亚援政策⑪,港澳台球员进一步得到中 AI含量非常高⑭,2025上海教育博览会将于本周五开幕
杨昭涛校长的女儿①,从小学五朵金花到考上四七九本部⑮,一路名校⑪。但进入高中后⑲,女儿自主意识觉醒⑪,萌生了对设计的兴趣⑯,想走艺术留学路线⑥。多方考察后⑨,女儿转向国际学校攻读国际课程⑭,但依然感觉学校的课程无法满足基米希:我会给球队本赛季的表现打3分⑯,欧冠仍需改进 约书亚·基米希
“苹果女孩”“‘90后’女企业家”“新加坡留学生”“果二代”……进入农业领域已有10年时间⑮,32岁的李莹因将庆阳苹果推向全国乃至国际市场⑬,而拥有了诸多外界给予的亮眼“标签”①。程里对话沈斐:乐道L60未达预期的原因是什么❶?L60和L90产品力足够支撑销量增长
此后⑯,国内多家车企均在宣传口径上进行调整❸,如小米汽车将“智能驾驶”改为“辅助驾驶”⑲。大灯酷似凯美瑞⑮,硬汉风设计+换装双联屏⑯,全新丰田RAV4官方首曝
社会经济:技术密集❶,适合城市农业⑳;政策支持推动生态农业①。2027男篮世预赛抽签仪式:中国③、日本⑧、韩国⑬、中国台北同组
有个妹子给自己建了个个人网站⑱,里面放点自己喜欢的音乐⑪、饮料⑰,顺手还挂上了 todolist 和随笔感想⑮。记者手记|让胜利的光芒照亮人类历史新征程
相较之下⑯,丰田的电动汽车在2024财年仅售出14.45万辆⑥,占总销量的1%左右⑧。2024年9月⑨,丰田已通知供应商⑮,将电动车产量目标由原定的150万辆下调至100万辆⑤,具体而言⑱,在2025年生产40万辆
猜你喜欢
- 2025上海明日之星冠军杯7月底开赛⑬,七支国际豪门U16梯队参赛
- 泽连斯基:已准备好与普京会谈▓!特朗普称考虑参加▓!谁代表俄方参加土耳其会谈⑮?俄方最新表态 唐纳德·特朗普 雷杰普·塔伊普·埃尔多安
- 郑钦文:期待与萨巴伦卡的首次红土交锋▓,想看看自己水平在何位置
- 105逆转骑士4 1晋级东决❶,哈利伯顿31+6+8⑳,米切尔35+9
- 5499元的iPhone 16 Pro被抢空⑨!博主:128GB丐版浪费国补 同价位不少国产旗舰可选
- 协鑫光电发布全球首台完全自主知识产权的钙钛矿AI高通量设备
- “好朋友③、好伙伴②!”中国巴西友谊之树枝繁叶茂|图览天下
- 从“毛孩子运动会”到“长耳朵的车队”滴滴开放日聚焦宠物出行