您现在的位置是:网站首页>国际国际

168电玩城游戏厅

覃凌瑶 2025-05-14 国际 3721 人已围观

新智元报道❷、【新智元导读】「矩阵」不再是科幻⑱!Matrix-Game震撼来袭④,突破边界带来交互式引擎⑩。只需一句话⑳,沙漠森林等任意场景可控生成⑳,动作丝滑操控⑳,360°视角自由切换❸,沉浸感爆棚❷。

黑客帝国中的「矩阵」⑱,已照进现实⑭。

指尖轻点⑩,一个细节满满④、物理规则完美运转的虚拟世界就此诞生⑳。

这个曾经只在科幻大片出现的场景①,如今「空间智能」就帮人类实现了⑲。

继之前刷屏的单张图片生成虚拟世界Matrix Zero之后❸,昆仑万维又来搞事情了⑯!

这次▓,他们再度撕裂技术边界❷,推出Matrix系巅峰之作——Matrix-Game⑨。

技术报告:https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf

项目主页:https://matrix-game-homepage.github.io

这是一个不仅能生成虚拟世界③,更让你成为世界主宰的交互式创世引擎❶。

在这个空间智能时代▓,视频生成⑨、3D建模⑲、交互控制的融合之力❸,正彻底颠覆人类与虚拟世界的连接方式⑫。

直通「创世之神」❶、简单来说⑧,Matrix-Game就是通往「创世神」之路的超级加速器⑬。

它是Matrix系列在交互世界生成领域的首次惊艳落地⑪,一个专为游戏世界量身打造的交互式世界基础模型⑨。

Matrix-Game的强大之处在于⑭,不仅能在开放世界里「造」出高质量场景⑱,还能精准控制里面的细节⑤。

现在⑦,只需要输入一个指令⑮,即可自由探索⑭、操控⑳,甚至创造出细节丰富②、物理规则合理的虚拟世界⑧。

多场景可控生成⑦、比如沙漠⑱、森林⑤、山丘❶、冰原▓、河流等场景⑦,Matrix-Game可一键生成①。

这种多场景泛化能力⑫,让Matrix-Game具备了强大的环境适用性⑨,覆盖了不同地形⑥、天气⑧、生物群系的Minecraft场景❸。

依次是:沙漠⑬、海滩⑦、山丘⑯、河流▓、森林

它还能支持前进④、跳跃⑤、攻击等细节操作⑯,会根据用户的输入⑳,准确响应❷。

不论是敲击键盘⑥,还是鼠标滑动⑱,操作体验非常丝滑❶,仿佛置身于真实世界⑫。

依次是:前进⑩、后退⑱、向左⑬、向右⑮、跳跃②、攻击

包括视角移动⑪,可实现360°无死角生成⑤。

依次是:视角移动向上⑧、向下⑩、向左⑫、向右

依次是:视角移动左上⑥、左下⑦、右上⑫、右下

现在⑨,只需把场景和交互控制融合⑱,便会惊叹Matrix-Game无与伦比的技术实力▓。

不论是前进⑭、后退⑥,向左⑨、向右③,Matrix-Game不仅能精准响应⑰,而且周边物理环境生成的稳定性极高①。

左右滑动查看⑤、再比如❶,跳跃攻击等幅度大的动作⑦,更是对AI空间生成提出了高难度的考验❶。

Matrix-Game模拟了真实物理规律⑧,精准拿捏⑨。

它生成的虚拟世界不仅视觉连贯⑬、细节逼真❷,还严格遵守了自然物理规律⑰,如重力❶、碰撞等⑨。

这种高保真表现❷,显着提升了沉浸感⑳,让用户仿佛「身临其境」②。

总而言之⑭,Matrix-Game能在不同Minecraft场景下做到可控生成❷,包括基础运动⑳、复合运动②、视角运动等⑱。

泛化场景生成⑤、更令人兴奋的是⑭,Matrix-Game展现出向非Minecraft游戏环境泛化的潜力①,为更广泛的应用奠定了基础⑬。

比如❶,生成赛博风格的城市⑦。

还有古建筑风格的场景⑪,都能无限生成⑩。

由上可见⑧,Matrix-Game这一突破性成果⑰,直接点燃了虚拟世界的无限可能⑤。

它不仅刷新了交互式世界生成的技术天花板⑱,更为构建通用虚拟世界基座树立了全新标杆⑭。

那么❶,它是如何做到的呢⑤?

解密Matrix-Game

三大技术核心❶、接下来⑯,让我们一一拆解Matrix-Game的三大「秘密武器」⑩。

大规模高质量Matrix-Game-MC数据集

数据是AI模型的「养分」⑳,其质量和丰富度直接决定了模型的成败⑯。

为此⑲,昆仑万维团队自主构建了大规模Matrix-Game-MC数据集⑲,为复杂环境的动态学习和交互模式训练⑦,提供了坚实的基础⑭。

它涵盖了「无标注预训练数据」和精细标注的「有标注可控数据」⑪,兼顾了数据规模和质量⑫。

无标注预❸、训练数据⑲、从6000小时的MineDojo数据中④,研究者通过三阶段过滤机制⑰,筛选出近千小时高质量数据⑧。

具体来说⑥,经过了 画质与美学过滤①; 非游戏内容剔除①; 动态与视角稳定性过滤⑲。

有标注可控数据⑪、这里⑮,采用了两种策略⑪,生成数千小时的精细标注数据⑰。

探索智能体:利用VPT agent在 MineRL环境中进行自动探索④,生成包含精确键盘与鼠标控制信号的Minecraft视频数据❷,支持可控性学习⑩。

程序化模拟:基于Unreal Engine手动构建清晰⑪、标注精确的交互场景⑱,提供位置信息②、动作标注⑦、以及环境反馈信号④,生成高精度④、无噪声的可控标注数据❷,助力高保真动作-响应建模②。

核心架构:从图像出发构建可控交互世界

基于当前最火的扩散模型技术⑯,Matrix-Game打造了一个从图像到世界生成的创新框架⑮。

只需输入一个指令❸、鼠标移动⑰,它就能生成连贯❶、可控的互动视频⑮,兼顾视觉精度⑤、时序一致性和物理合理性⑬。

整体架构的设计⑪,有三大核心亮点:

1. 图像到世界建模⑧、它不依赖语言提示▓,仅基于视觉信号建模空间几何❶、物体运动③,及物理交互⑫,强调空间智能能力⑥。

输入形式是以单张参考图像为起点⑧,生成交互式视频⑯。

在交互可控生成上⑨,融合了用户动作输入⑲,通过多模态扩散模型④,直接生成虚拟游戏世界的视频内容⑲。

自回归式视频生成④、Matrix-Game支持自回归方式scaling生成长度⑨,可持续生成高一致性长视频内容⑰。

每次❷,它会以前一视频最后k=5帧作为运动上下文②,逐段递进生成❷,确保了时间上的连贯性①。

此外▓,通过随机扰动⑩、随机删除⑱、分类引导策略⑰,可缓解时序漂移和误差积累⑮,确保了时间连贯性⑭。

3. 可控交互设计⑱、对于交互设计⑲,键盘动作是以离散token表达⑯,视角移动动作则以连续token表达⑲。

同时⑪,它采用了GameFactory控制模块⑪,融入多模态Diffusion Transformer架构⑳,并利用CFG提升对控制信号的鲁棒响应能力⑫。

得益于这一架构❸,使得Matrix-Game在生成交互世界时❸,既能保持视觉上的惊艳效果▓,又能精准响应用户指令⑦。

统一评测体系②、接下来⑯,如何去全面⑪、科学地评估交互世界生成模型的性能⑲?

为此⑱,研究团队创新性提出GameWorld Score评测体系⑫。

它从视觉质量⑰、时间一致性⑧、交互可控性⑪,以及物理规则理解四个关键维度⑪,来进行量化评估❷。

视觉质量⑯、:基于人类视觉系统标准⑮,评估每一帧图像清晰度⑥、结构一致性与真实感③。

时间一致性⑯、:衡量视频的动态连贯性❶,包括运动连续性③、节奏平滑性与时间稳定性⑤。

交互可控性⑯、:测试生成结果是否准确响应用户输入的控制信号❷,涵盖离散控制和连续控制❶。

物理规则理解①、:验证生成视频是否遵循物理常识与空间一致性❷。

这一体系的提出⑭,填补了行业在交互性⑪、物理一致性等维度的评测空白⑮,为模型的迭代优化提供了科学依据⑥。

而且⑮, GameWorld Score首次实现了对「感知质量+控制能力+物理合理性」的全方位衡量⑰。

它不仅为Matrix-Game性能提供了全面量化的依据③,也为整个交互世界生成领域❷,树立了统一的标准❸。

刷新SOTA⑪、重塑交互式世界生成标杆⑩、在实验评估中⑨,通过两阶段训练策略❷,17B参数规模的大模型在空间理解⑯、物理交互建模⑳,以及用户指令响应方面⑥,取得了显着的突破⑪。

在GameWorld Score评测系统中④,Matrix-Game在以上四大评测维度中全面领先⑬,超越了业内着名开源基线——Decart的Oasis和微软的MineWorld⑪。

尤其是④,新模型在交互可控性和物理一致性等关键指标上⑭,表现尤为突出⑰。

在双盲评实验中⑩,用户更倾向于选择Matrix-Game生成的视频:

96.3%总体偏好率⑫,生成效果更真实⑱、连贯⑰、可信⑭;

93.76%动作控制偏好⑤,准确响应键盘与鼠标指令⑦;

98.23%视觉质量得分②,单帧画面更清晰美观⑲;

89.56%时间一致性得分⑦,动态流畅⑥,无闪烁跳变⑤。

在控制性能上⑱,Matrix-Game可实现「运动」「攻击」等动作高达90%+准确率❶;细粒度视角控制下依然保持高精度响应②。

此外②,Matrix-Game在8大典型Minecraft场景中⑩,也全面领先③。

模型展现出卓越的环境适应与泛化能力⑥,可广泛应用于复杂动态的虚拟世界交互任务⑤。

Matrix-Game用事实证明▓,它不仅能「看得清」⑳,更能「动得准⑳、控得稳」⑥,是当前最强的交互式世界生成基座模型之一⑨。

多领域革命引擎⑥、解锁交互宇宙⑬、作为空间智能领域的先锋之作❸,Matrix-Game不仅是一个技术突破⑪,更是一个跨行业的赋能引擎⑬。

通过融合视频生成⑰、三维建模与交互控制等核心技术❸,空间智能不仅支持更加自然③、直观⑬、沉浸的体验▓,也在具身智能⑥、影视制作⑮、游戏开发等领域展现出巨大潜力⑮。

Matrix-Game强大的交互式生成能力❸,未来将在多个领域掀起深远的变革⑳。

虚拟游戏世界快速搭建⑤、老黄曾表示⑨,「用不了十年⑦,我们就能看到游戏中每一个像素都是由AI生成的」②。

Matrix-Game的诞生⑨,让这一预言又近了一步⑭。

传统游戏世界构建⑰,往往依赖人工设计和3D建模⑯,开发周期长▓、成本高②。

而且⑩,许多游戏地图和任务缺乏多样性⑥,难以满足玩家对高自由度探索需求⑥。

对于游戏开发者▓,Matrix-Game能以低成本❸、高效率生成细节丰富⑲、可控的游戏地图与任务环境⑭,极大地缩短了开发周期⑯。

不论是开放世界RPG的广袤大陆②,还是沙盒游戏的动态地形⑦,Matrix-Game都能根据指令实时生成⑨,赋予玩家更高自由度的探索体验⑤。

同时⑮,其物理一致性确保了游戏世界的真实感▓、沉浸感⑭。

具身智能体训练与测试⑳、具身智能⑮,也称物理AI⑥,是AI下一个前沿⑫。

它能够让智能体在物理世界中❸,具备感知⑤、推理和行动的能力⑱。然而❸,现实开发和测试中⑦,具身智能面临着多种挑战⑩。

比如⑤,环境复杂性不足⑰,测试场景单一⑤,测试中难以复现现实世界动态性和复杂性⑰,导致训练效果较为有限④。

又或是▓,真实物理环境搭建和数据采集耗时耗力⑩,成本高昂等等▓。

在红杉最新演讲中⑳,Jim Fan将「物理图灵测试」称之为AI的下一个北极星⑭,即智能体在虚拟和物理世界无缝操作❷,展现出与人类无异的能力❶。

而Matrix-Game以高保真的交互世界生成能力⑰,为智能体提供逼真的训练环境⑨,直接助力这一目标的实现⑱。

从上面demo中不难看出⑰,Matrix-Game可快速生成高度逼真虚拟场景⑮,森林⑲、山丘⑰、冰原⑬、蘑菇等⑤,涵盖了多样地形⑤、物体元素⑱,多样化场景定制❶。

这种环境不仅视觉细节丰富⑤,还严格遵守物理规律①,可以为具身智能提供接近真实世界的训练场⑭。

另外⑯,支持前进⑧、跳跃⑳、抓取等精细动作⑥,Matrix-Game还能让智能体实时▓、细致的交互③。

未来⑥,Matrix-Game通过模拟极端天气⑦、家庭环境等⑪,训练机器人⑱、服务智能体⑮,推动通用具身智能的实现⑯。

影视与元宇宙内容生产⑬、在影视与元宇宙领域⑰,虚拟场景往往依赖3D建模和特效团队⑲,一个好莱坞特效场景制作可能耗费数月②,甚至数年⑦,成本动辄数百万⑳。

一些现有虚拟世界③,多为静态或有限的交互⑱,难以满足元宇宙用户对自由探索和实时互动的需求⑥。

Matrix-Game能以更高效生产真实合理的动态虚拟空间⑫,直接赋能创意内容制作与沉浸式体验的开发⑨。

它为导演③、元宇宙开发者提供了一个革命性工具④,将重塑虚拟内容创作的未来⑰。

教育与仿真系统构建③、Matrix-Game在教育⑥、仿真系统构建领域中⑰,同样大有可为⑲。

即④,通过生成高度可控⑱、交互丰富的虚拟学习环境⑫,为学生和专业人士提供一个沉浸式训练平台⑪。

举个栗子⑧,在医学教育中④,或许就可以利用Matrix-Game模拟手术室场景❸,让学生身临其境练习复杂操作④。

在航空航天领域⑰,则可以用于生成逼真的飞行模拟环境⑪,帮助飞行员提升应对突发状况的能力⑰。

这些虚拟场景的搭建④,不仅能降低培训成本⑦,还能通过交互反馈提升学习效果⑭。

此外①,在文化遗产保护⑮、零售电商⑬、数字孪生与智能城市规划等领域中①,Matrix-Game未来将会释放无限的潜力⑭。

它让世界不再是静态的画卷②,而是可以被探索❶、被操控⑰、被创造的活宇宙②。

下一步⑱,Matrix-Game还将继续迭代优化①,带领我们迈向更加智能②、沉浸的虚拟世界⑫。

参考资料:

很赞哦⑩!

随机图文