您现在的位置是:网站首页>电竞电竞

hy电玩城在线客服

崔灵薇 2025-05-14 电竞 3115 人已围观

新智元报道⑱、【新智元导读】「矩阵」不再是科幻⑩!Matrix-Game震撼来袭⑮,突破边界带来交互式引擎①。只需一句话①,沙漠森林等任意场景可控生成⑱,动作丝滑操控⑲,360°视角自由切换⑤,沉浸感爆棚⑮。

黑客帝国中的「矩阵」⑦,已照进现实⑱。

指尖轻点②,一个细节满满⑩、物理规则完美运转的虚拟世界就此诞生▓。

这个曾经只在科幻大片出现的场景⑬,如今「空间智能」就帮人类实现了⑥。

继之前刷屏的单张图片生成虚拟世界Matrix Zero之后▓,昆仑万维又来搞事情了⑭!

这次⑮,他们再度撕裂技术边界⑲,推出Matrix系巅峰之作——Matrix-Game⑦。

技术报告:https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf

项目主页:https://matrix-game-homepage.github.io

这是一个不仅能生成虚拟世界⑮,更让你成为世界主宰的交互式创世引擎②。

在这个空间智能时代⑤,视频生成⑲、3D建模②、交互控制的融合之力⑬,正彻底颠覆人类与虚拟世界的连接方式⑯。

直通「创世之神」⑰、简单来说⑫,Matrix-Game就是通往「创世神」之路的超级加速器⑬。

它是Matrix系列在交互世界生成领域的首次惊艳落地⑮,一个专为游戏世界量身打造的交互式世界基础模型▓。

Matrix-Game的强大之处在于⑥,不仅能在开放世界里「造」出高质量场景⑥,还能精准控制里面的细节⑧。

现在④,只需要输入一个指令①,即可自由探索⑨、操控⑧,甚至创造出细节丰富⑩、物理规则合理的虚拟世界⑯。

多场景可控生成⑪、比如沙漠⑬、森林❷、山丘⑤、冰原❸、河流等场景❸,Matrix-Game可一键生成⑯。

这种多场景泛化能力④,让Matrix-Game具备了强大的环境适用性⑮,覆盖了不同地形⑮、天气⑭、生物群系的Minecraft场景⑳。

依次是:沙漠⑬、海滩❷、山丘⑬、河流▓、森林

它还能支持前进⑩、跳跃②、攻击等细节操作⑲,会根据用户的输入⑯,准确响应⑰。

不论是敲击键盘⑬,还是鼠标滑动⑩,操作体验非常丝滑⑭,仿佛置身于真实世界⑧。

依次是:前进⑱、后退⑩、向左①、向右④、跳跃⑳、攻击

包括视角移动⑨,可实现360°无死角生成⑧。

依次是:视角移动向上②、向下⑨、向左⑱、向右

依次是:视角移动左上⑳、左下▓、右上⑤、右下

现在❷,只需把场景和交互控制融合⑦,便会惊叹Matrix-Game无与伦比的技术实力⑭。

不论是前进⑭、后退⑯,向左⑭、向右⑫,Matrix-Game不仅能精准响应⑭,而且周边物理环境生成的稳定性极高❸。

左右滑动查看⑰、再比如④,跳跃攻击等幅度大的动作▓,更是对AI空间生成提出了高难度的考验⑫。

Matrix-Game模拟了真实物理规律⑥,精准拿捏③。

它生成的虚拟世界不仅视觉连贯②、细节逼真⑫,还严格遵守了自然物理规律⑤,如重力⑤、碰撞等⑥。

这种高保真表现⑫,显着提升了沉浸感▓,让用户仿佛「身临其境」⑤。

总而言之❷,Matrix-Game能在不同Minecraft场景下做到可控生成⑯,包括基础运动⑧、复合运动❷、视角运动等⑨。

泛化场景生成①、更令人兴奋的是❶,Matrix-Game展现出向非Minecraft游戏环境泛化的潜力⑱,为更广泛的应用奠定了基础⑨。

比如①,生成赛博风格的城市⑦。

还有古建筑风格的场景❷,都能无限生成④。

由上可见⑯,Matrix-Game这一突破性成果⑥,直接点燃了虚拟世界的无限可能③。

它不仅刷新了交互式世界生成的技术天花板⑳,更为构建通用虚拟世界基座树立了全新标杆▓。

那么①,它是如何做到的呢⑮?

解密Matrix-Game

三大技术核心⑳、接下来③,让我们一一拆解Matrix-Game的三大「秘密武器」❷。

大规模高质量Matrix-Game-MC数据集

数据是AI模型的「养分」⑱,其质量和丰富度直接决定了模型的成败⑨。

为此⑯,昆仑万维团队自主构建了大规模Matrix-Game-MC数据集▓,为复杂环境的动态学习和交互模式训练⑳,提供了坚实的基础❶。

它涵盖了「无标注预训练数据」和精细标注的「有标注可控数据」❶,兼顾了数据规模和质量❷。

无标注预⑤、训练数据⑥、从6000小时的MineDojo数据中▓,研究者通过三阶段过滤机制⑱,筛选出近千小时高质量数据⑯。

具体来说⑰,经过了 画质与美学过滤⑬; 非游戏内容剔除④; 动态与视角稳定性过滤⑰。

有标注可控数据⑦、这里③,采用了两种策略⑱,生成数千小时的精细标注数据⑤。

探索智能体:利用VPT agent在 MineRL环境中进行自动探索❷,生成包含精确键盘与鼠标控制信号的Minecraft视频数据⑰,支持可控性学习⑮。

程序化模拟:基于Unreal Engine手动构建清晰⑧、标注精确的交互场景▓,提供位置信息⑬、动作标注⑮、以及环境反馈信号⑩,生成高精度⑲、无噪声的可控标注数据⑰,助力高保真动作-响应建模⑲。

核心架构:从图像出发构建可控交互世界

基于当前最火的扩散模型技术⑥,Matrix-Game打造了一个从图像到世界生成的创新框架⑦。

只需输入一个指令❶、鼠标移动▓,它就能生成连贯❷、可控的互动视频④,兼顾视觉精度⑳、时序一致性和物理合理性⑨。

整体架构的设计⑭,有三大核心亮点:

1. 图像到世界建模⑨、它不依赖语言提示②,仅基于视觉信号建模空间几何⑪、物体运动⑨,及物理交互②,强调空间智能能力❷。

输入形式是以单张参考图像为起点⑯,生成交互式视频⑩。

在交互可控生成上▓,融合了用户动作输入⑲,通过多模态扩散模型⑲,直接生成虚拟游戏世界的视频内容⑫。

自回归式视频生成⑨、Matrix-Game支持自回归方式scaling生成长度❸,可持续生成高一致性长视频内容❸。

每次⑱,它会以前一视频最后k=5帧作为运动上下文▓,逐段递进生成⑧,确保了时间上的连贯性⑮。

此外▓,通过随机扰动⑰、随机删除⑮、分类引导策略▓,可缓解时序漂移和误差积累⑥,确保了时间连贯性⑯。

3. 可控交互设计❷、对于交互设计⑦,键盘动作是以离散token表达⑦,视角移动动作则以连续token表达⑨。

同时⑳,它采用了GameFactory控制模块①,融入多模态Diffusion Transformer架构⑲,并利用CFG提升对控制信号的鲁棒响应能力⑬。

得益于这一架构⑳,使得Matrix-Game在生成交互世界时②,既能保持视觉上的惊艳效果⑥,又能精准响应用户指令▓。

统一评测体系▓、接下来⑯,如何去全面▓、科学地评估交互世界生成模型的性能⑮?

为此②,研究团队创新性提出GameWorld Score评测体系▓。

它从视觉质量③、时间一致性⑩、交互可控性④,以及物理规则理解四个关键维度❸,来进行量化评估❷。

视觉质量❷、:基于人类视觉系统标准❶,评估每一帧图像清晰度⑲、结构一致性与真实感④。

时间一致性⑰、:衡量视频的动态连贯性⑤,包括运动连续性⑦、节奏平滑性与时间稳定性⑫。

交互可控性❸、:测试生成结果是否准确响应用户输入的控制信号②,涵盖离散控制和连续控制❸。

物理规则理解⑫、:验证生成视频是否遵循物理常识与空间一致性②。

这一体系的提出⑭,填补了行业在交互性⑫、物理一致性等维度的评测空白⑲,为模型的迭代优化提供了科学依据⑩。

而且⑳, GameWorld Score首次实现了对「感知质量+控制能力+物理合理性」的全方位衡量⑧。

它不仅为Matrix-Game性能提供了全面量化的依据④,也为整个交互世界生成领域⑭,树立了统一的标准⑫。

刷新SOTA⑭、重塑交互式世界生成标杆⑭、在实验评估中①,通过两阶段训练策略▓,17B参数规模的大模型在空间理解④、物理交互建模⑥,以及用户指令响应方面⑨,取得了显着的突破⑱。

在GameWorld Score评测系统中❷,Matrix-Game在以上四大评测维度中全面领先②,超越了业内着名开源基线——Decart的Oasis和微软的MineWorld❸。

尤其是❸,新模型在交互可控性和物理一致性等关键指标上⑨,表现尤为突出❶。

在双盲评实验中⑪,用户更倾向于选择Matrix-Game生成的视频:

96.3%总体偏好率❸,生成效果更真实⑲、连贯⑭、可信⑥;

93.76%动作控制偏好②,准确响应键盘与鼠标指令▓;

98.23%视觉质量得分❸,单帧画面更清晰美观⑥;

89.56%时间一致性得分❶,动态流畅⑭,无闪烁跳变①。

在控制性能上③,Matrix-Game可实现「运动」「攻击」等动作高达90%+准确率⑧;细粒度视角控制下依然保持高精度响应⑭。

此外⑥,Matrix-Game在8大典型Minecraft场景中❶,也全面领先⑤。

模型展现出卓越的环境适应与泛化能力⑭,可广泛应用于复杂动态的虚拟世界交互任务❷。

Matrix-Game用事实证明⑥,它不仅能「看得清」❷,更能「动得准▓、控得稳」⑦,是当前最强的交互式世界生成基座模型之一⑳。

多领域革命引擎①、解锁交互宇宙⑲、作为空间智能领域的先锋之作⑲,Matrix-Game不仅是一个技术突破⑦,更是一个跨行业的赋能引擎⑱。

通过融合视频生成⑩、三维建模与交互控制等核心技术③,空间智能不仅支持更加自然⑰、直观③、沉浸的体验⑥,也在具身智能⑯、影视制作⑧、游戏开发等领域展现出巨大潜力⑲。

Matrix-Game强大的交互式生成能力②,未来将在多个领域掀起深远的变革⑪。

虚拟游戏世界快速搭建⑧、老黄曾表示⑭,「用不了十年⑩,我们就能看到游戏中每一个像素都是由AI生成的」⑮。

Matrix-Game的诞生⑦,让这一预言又近了一步⑮。

传统游戏世界构建❶,往往依赖人工设计和3D建模❶,开发周期长❶、成本高①。

而且⑨,许多游戏地图和任务缺乏多样性⑱,难以满足玩家对高自由度探索需求⑤。

对于游戏开发者⑥,Matrix-Game能以低成本❶、高效率生成细节丰富⑳、可控的游戏地图与任务环境⑲,极大地缩短了开发周期⑤。

不论是开放世界RPG的广袤大陆▓,还是沙盒游戏的动态地形③,Matrix-Game都能根据指令实时生成⑩,赋予玩家更高自由度的探索体验⑤。

同时⑰,其物理一致性确保了游戏世界的真实感③、沉浸感⑪。

具身智能体训练与测试⑩、具身智能▓,也称物理AI⑰,是AI下一个前沿⑱。

它能够让智能体在物理世界中⑤,具备感知⑤、推理和行动的能力⑤。然而③,现实开发和测试中⑩,具身智能面临着多种挑战❸。

比如⑦,环境复杂性不足❷,测试场景单一⑱,测试中难以复现现实世界动态性和复杂性⑤,导致训练效果较为有限⑮。

又或是⑭,真实物理环境搭建和数据采集耗时耗力❶,成本高昂等等⑱。

在红杉最新演讲中⑪,Jim Fan将「物理图灵测试」称之为AI的下一个北极星⑲,即智能体在虚拟和物理世界无缝操作⑫,展现出与人类无异的能力⑪。

而Matrix-Game以高保真的交互世界生成能力⑬,为智能体提供逼真的训练环境❸,直接助力这一目标的实现②。

从上面demo中不难看出⑲,Matrix-Game可快速生成高度逼真虚拟场景▓,森林②、山丘②、冰原⑬、蘑菇等⑱,涵盖了多样地形⑬、物体元素⑱,多样化场景定制⑧。

这种环境不仅视觉细节丰富⑩,还严格遵守物理规律⑫,可以为具身智能提供接近真实世界的训练场⑰。

另外⑰,支持前进⑨、跳跃③、抓取等精细动作④,Matrix-Game还能让智能体实时②、细致的交互⑰。

未来⑤,Matrix-Game通过模拟极端天气③、家庭环境等❷,训练机器人⑭、服务智能体⑦,推动通用具身智能的实现⑲。

影视与元宇宙内容生产⑥、在影视与元宇宙领域⑥,虚拟场景往往依赖3D建模和特效团队⑳,一个好莱坞特效场景制作可能耗费数月⑪,甚至数年⑬,成本动辄数百万⑪。

一些现有虚拟世界⑧,多为静态或有限的交互❶,难以满足元宇宙用户对自由探索和实时互动的需求③。

Matrix-Game能以更高效生产真实合理的动态虚拟空间⑱,直接赋能创意内容制作与沉浸式体验的开发⑤。

它为导演⑰、元宇宙开发者提供了一个革命性工具④,将重塑虚拟内容创作的未来⑥。

教育与仿真系统构建⑳、Matrix-Game在教育❸、仿真系统构建领域中❷,同样大有可为⑫。

即⑲,通过生成高度可控⑮、交互丰富的虚拟学习环境①,为学生和专业人士提供一个沉浸式训练平台❷。

举个栗子⑯,在医学教育中⑲,或许就可以利用Matrix-Game模拟手术室场景❶,让学生身临其境练习复杂操作▓。

在航空航天领域▓,则可以用于生成逼真的飞行模拟环境⑥,帮助飞行员提升应对突发状况的能力⑫。

这些虚拟场景的搭建⑬,不仅能降低培训成本⑳,还能通过交互反馈提升学习效果⑳。

此外⑫,在文化遗产保护❶、零售电商▓、数字孪生与智能城市规划等领域中⑧,Matrix-Game未来将会释放无限的潜力④。

它让世界不再是静态的画卷①,而是可以被探索⑳、被操控▓、被创造的活宇宙⑤。

下一步⑪,Matrix-Game还将继续迭代优化❷,带领我们迈向更加智能⑤、沉浸的虚拟世界▓。

参考资料:

很赞哦①!

随机图文