您现在的位置是:网站首页>财经财经
q9电玩城最新版
孙乐瑶 2025-05-13 【财经】 8689 人已围观
机器之心报道⑰、世界模型的进度条④,最近坐上了火箭⑮。
去年 11 月⑯,两家创业公司打造的 Oasis⑫,首次在开源世界模型中实现了实时⑫、可玩⑲、可交互⑳。生成的虚拟环境不仅包含画面⑪,也体现出了对物理和游戏规则的理解⑬。
Oasis 世界模型的演示动画⑨。
今年 4 月⑨,微软开源的交互式世界模型 MineWorld⑬,再次提升了视觉效果⑱,大幅提升了动作生成的一致性⑳。
MineWorld 模型的生成效果⑧。
上个星期▓,又有国外创业公司开源了 「多元宇宙」⑩,能让不同玩家在一个世界模型里进行游戏⑱。
眼看三维世界的 AI 研究越来越多⑮,英伟达人工智能总监❶、杰出科学家 Jim Fan 提出了「物理图灵测试」②,要给具身智能设立一个像图灵测试一样的标准:如果你分辨不出一个现实世界场景是不是由 AI 布置出来的⑫,那完成任务的 AI 就可以认为通过了测试⑱。
从前沿技术⑦、应用再到测试基准⑫,我们正在见证技术的全面兴起⑰,众多科技公司蜂拥而入⑱,仿佛大模型的爆发又要重演一遍⑮。或许过不了多久①,计算平台处理的单位就不再是 token⑧,而是物理世界中的原子了⑦。
今天又有更大的新闻曝出:5 月 13 日▓,昆仑万维宣布开源交互式世界基础模型 Matrix-Game❷,这不仅是世界模型技术向前迈进的一大步❷,更是空间智能领域交互式世界生成的重要里程碑⑥。
技术报告:https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf
项目主页:https://matrix-game-homepage.github.io
作为一款世界基础模型⑩,Matrix-Game 能够生成完整可交互的游戏世界❷,能够对人类输入的操作指令进行正确响应⑲,保留了游戏世界的空间结构与物理特性③,画面也更加精致⑤,超越了以往所有类似开源世界模型
当然③,它应用的应用范围不仅限于游戏⑫,对于具身智能体训练与数据生成③、影视与元宇宙内容生产也有重要意义⑨。
昆仑万维表示⑨,Matrix-Game 让世界不再只是被观看⑪,而是被探索②、被操控⑧、被创造⑩。这种主动式的探索或许正是空间智能发展的关键所在⑦。
超越微软开源的交互式世界模型
Matrix-Game 强在哪儿▓?
Matrix-Game是昆仑万维 Matrix 系列模型在交互式世界生成方向的首次落地⑦,也是世界模型领域工业界首个开源的 10B + 大模型⑳。
早在今年 2 月⑳, 昆仑万维正式推出Matrix-Zero 世界模型⑬,迈出了其探索空间智能的关键一步①。
昆仑万维表示❶,Matrix-Zero 其实包含两个子模型 —— 一个用于 3D 场景生成▓,另一个用于可交互的视频生成⑨。
当时就有人问:这个可交互的视频生成模型可以用来做游戏吗⑭?
几个月后⑤,昆仑万维给出了答案❷。这次发布的 Matrix-Game 就是可交互视频生成模型在游戏方向的落地⑪,它能够根据用户输入生成连贯⑨、可控的游戏互动视频⑱。
和行业内的其他模型相比⑮,它有以下几个特点:
1. 可以实现细粒度的用户交互控制⑥。
在游戏里⑳,你可以通过按「W⑬、S⑨、A⑲、D▓、Space⑲、Attack」以及这些键的组合实现自由移动和攻击❸。在 Matrix-Game 创造的「我的世界」游戏世界里⑫,你可以得到相同的体验⑮,无论控制信号是连续的还是离散的⑭,而且每次移动都伴随着景物的变化⑯。
比如在下面这个「前进 + 攻击」的场景中②,游戏人物穿过一片树林来到池塘前⑫,代表树木的方块在受到攻击后被破坏⑪,这是模型生成的环境反馈信号①。而且⑥,虽然池塘和后面的山体大部分被树木遮挡⑧,但模型依然生成了合理的结果⑩,使得整个过程的景物变化非常丝滑⑨。
在一个「前进 - 向左 - 前进」的长镜头组合移动场景中⑳,模型不仅严格遵守了用户的控制指令⑯,还生成了丰富的景物变化③,比如没入水中的逼真过程⑬。
2. 生成效果具有高保真视觉与物理一致性④。
在视频生成领域⑳,能否保持视觉一致性⑱、遵循物理规律是判断视频质量的试金石⑬。但从业界的各种翻车视频来看⑲,这些很难做好⑬,更别说在交互视频这种需要推理交互效果的视频生成形式中⑥。
但 Matrix Game 的表现令人眼前一亮⑪,在交互中能生成物理上合理⑬、视觉上一致的结果⑥。
比如❶,在下面这个左右移动的场景中❶,草丛中的花有时会被树干遮挡①,但随着脚步的进一步移动又会重现⑥,这说明模型具有保持视觉一致性的能力❷。
再比如⑥,在一个跳跃的操作中⑩,我们能够看到河里的景物随着视角的变化而变化③。这都是模型根据所掌握的物理规律进行「脑补」的结果⑭。
3. 拥有多场景泛化能力
在前面的例子中⑱,我们已经看到⑭,Matrix Game 能够生成非常丰富的 Minecraft 游戏场景⑳,比如森林④、沙滩❷、河流⑯、平原等⑩,这些环境涵盖不同地形⑬、天气和生物群系❶。
其实❶,除此之外⑧,它还能向非 Minecraft 游戏环境泛化⑬,生成城市❷、古建等开放式场景的互动视频⑱。
4. 具有系统化的评估体系
对于交互式视频生成这种相对较新的模型③,应该从哪些维度评估生成质量⑭?如果不想清楚这个问题⑮,模型就很难有明确的优化方向⑱。为了解决这一问题⑤,昆仑万维提出了一套专为 Minecraft 世界建模设计的统一评测框架 —— GameWorld Score
具体来说⑲,GameWorld Score 从视觉质量❸、时间一致性⑱、交互可控性②、物理规则理解这四个维度来评价模型⑲。视觉质量是指每一帧图像的清晰度①、结构一致性与真实感⑱,这也是人类感知视频质量的几个重要维度⑱。时间一致性⑬、交互可控性和物理规则理解上文已经提及⑰。这几个维度合在一起⑮,首次实现了对可交互视频感知质量 + 控制能力 + 物理合理性的全方位衡量③,补齐了现有基准的短板⑦。
在这个基准上⑨,Matrix Game 与知名创业公司 Decart 的开源方案 Oasis 和微软的开源模型 MineWorld 进行了 PK⑤,在四大维度上均取得领先成绩⑫。
图源:Matrix-Game 技术报告
在双盲评测中②,Matrix-Game 生成的视频评分也是大幅度领先:
在控制性上⑥,Matrix-Game 在「运动」⑳、「攻击」等动作上实现了超过 90% 的准确率⑮,细粒度视角控制下依然可以保持高精度响应❶。
接下来是场景泛化能力⑳,在 8 大典型 Minecraft 场景中⑭,Matrix-Game 保持了全面领先⑧,展现出卓越的环境适应性⑪,这意味着它可以广泛应用于较复杂③、动态的虚拟世界交互任务⑳。
可见⑬,不论是从数据②、模型还是实测角度来看⑥,Matrix-Game 都树立了当前交互式世界模型的新标杆⑦。
Matrix-Game 是怎样练成的⑲?
在昆仑万维发布的技术报告中我们可以发现①,Matrix-Game 取得的优异成绩主要得益于研究团队在数据③、模型架构等方面做出的技术创新③。
精挑细选的 Matrix-Game-MC 数据集
目前⑬,业界已有越来越多的研究尝试让世界模型生成游戏场景❶,但它们往往难以有效捕捉物理规则⑬,泛化能力有限⑪。
Matrix-Game 改变了这一现状❷。它是一个参数规模达 17B 的世界基座模型⑤,专注于交互式图像到世界的生成⑦,通过两阶段训练策略训练而来⑪,其中用到了昆仑万维自主构建的大规模数据集 ——Matrix-Game-MC❶。
Matrix-Game-MC 数据集涵盖从无标签预训练数据到精细标注的可控视频全流程❸。其中②,无标签预训练数据来自 MineDojo 数据集中的视频资源⑭,研究团队利用 MineDojo 工具系统性地采集了约 6000 小时的原始 Minecraft 游戏视频❸,并设计了三阶段过滤机制❷,依次对画质美学①、动态合理性与视角稳定性等方面进行筛选❶,最终获得了超过 2700 小时的中质量数据和 870 小时的高质量数据▓,用于支持基模型的无监督预训练❸。
有标签部分则是采用探索代理⑤、程序化模拟两种策略混合生成的可控监督数据⑧,包括高质量的《我的世界》游戏内容和在虚幻引擎中手动构建的模拟交互场景⑰,不仅包含精确的键盘与鼠标控制信号⑳,也提供位置信息⑬、动作标签及环境反馈信号⑪,体量约 1000 小时③。
另外得益于 Unreal 数据的融入⑧,Matrix-Game 在更通用游戏场景的泛化上展现出了明显的优势⑤。
图像到世界建模的模型架构
Matrix-Game 的目标是能够内化真实的物理交互⑩、语义结构并支持交互式的视频生成❷。
从模型架构上看③,Matrix-Game 的整体架构围绕图像到世界建模的方式设计④。正如 2 月份 Matrix-Zero 所展示的⑧,该系列模型受空间智能启发⑳,纯粹从原始图像中学习⑲,可参考单张图像生成能交互的视频内容⑤。它通过构建一个一致的场景来学习理解世界①,不依赖语言提示⑮,仅基于视觉信号对空间几何❶、物体的运动及物理交互进行建模⑬。
其中⑱,视觉编码器或多模态主干网络处理的参考图像作为主条件输入⑥,在高斯噪声及用户动作条件下①,由 DiT 生成潜在表示⑯,然后通过 3D VAE 解码器将其解码为连贯的视频序列❷。
MatrixGame 能够直接通过视觉内容感知④、解读和建模世界⑬,可以实现一致且结构化的理解⑬。结合用户的动作输入③,世界模型可以像 AI 图像生成工具一样直接生成「3D 游戏画面」⑤。为了避免此前很多世界模型生成长时序内容不停变化的出戏情况⑩,Matrix-Game 每次生成会以之前的 5 帧运动作为上下文逐段递进生成⑩,保证了输出内容在时间上的连贯性❶。
在交互可控的问题上④,人们输入的键盘动作以离散的 token 表达❶,视角的移动则以连续的 token 表达⑪。作者使用 GameFactory 的控制模块⑳,同时融入了多模态 Diffusion Transformer 架构⑰,还使用 CFG 技术提升了控制信号响应的鲁棒性▓。
简单总结一下⑩,Matrix-Game 经过了数千小时高质量数据的训练⑤,通过创新的模型架构既实现了对人类交互动作的准确反应⑮,又能保持生成内容的一致连贯⑪,进而实现了从图像到世界生成的突破❸。
技术发展到这种程度⑧,世界模型在快速生成游戏⑨、动态视频生成等应用上已经让人看到了希望①。
昆仑万维的空间智能愿景⑧、远不止游戏⑤、走向多模态⑮、3D 世界⑮,是生成式 AI 的下一个发展大方向⑲。
在去年的一个演讲中⑨,斯坦福大学教授李飞飞曾指出④,过去几十年⑫,尤其是深度学习变革的十多年里❶,我们在视觉智能方面取得了巨大进步⑨,但目前的视觉智能仍存在局限⑲,主要集中在二维图像的识别和理解⑳。而现实世界是三维的⑮,要真正解决视觉问题⑩,并将其与行动联系起来⑤,就必须发展空间智能⑰。
空间智能是朝着全面智能迈出的一个基本且关键的步骤▓。只有让机器具备空间智能⑮,才能使其更好地理解三维世界❶,从而实现更复杂④、更高级的智能⑤。
昆仑万维的 Matrix-Game 是空间智能领域交互式世界生成的重要里程碑⑪,将为多个领域的发展带来重要影响⑯。
首先❶,从内容生产的角度来看❶,Matrix-Game 可以支持更低成本⑥、更高自由度的丰富❸、可控的游戏地图与任务环境生成①,助力游戏开发⑨。
此外⑲,它还可以与昆仑万维的其他 AI 产品联动⑤,比如天工大模型能为 Matrix-Game 生成的游戏世界提供更智能的 NPC 交互逻辑⑦;Mureka 能为这些动态生成的场景和视频提供匹配的背景音乐和音效⑳;SkyReels 可以为生成的游戏提供更多画面和剧情⑥。这些产品就像一块一块的拼图①,一旦整合到一起⑭,能助力的不止是游戏生产⑫,还有影视⑨、广告⑰、XR 等内容的生产⑨。
其次⑱,从科研角度来看⑳,Matrix-Game 所代表的空间智能是一个极具潜力的方向⑱,因为它和具身智能等方向的发展息息相关⑳,谷歌⑦、微软等大玩家都在此方向发力⑪。Matrix-Game 作为中国首批具备可交互视频生成能力的世界模型⑦,对于推动国内空间智能领域发展有重要意义 ⑧。
「实现通用人工智能⑮,让每个人更好地塑造和表达自我」▓,这是昆仑万维的使命⑧。 这个使命在空间智能时代有了更深远的意义⑮。当人类能在三维世界中自由创造和交互⑥,当想象力不再受制于技术门槛⑪,我们才真正开启了表达自我的新维度⑩。
过去半年多时间②,昆仑万维在奖励模型③、多模态⑰、推理⑦、视频生成等方向开源了一系列 SOTA 级别模型⑤,如今又在空间智能方向再下一城④。可以说❶,从二维到三维▓,从语言大模型到多模态生成再到如今的交互式世界模型⑫,昆仑万维的技术布局越来越清晰:构建一个完整的 AI 创作生态④。在这个生态中⑯,每个人都能找到自己的创新空间⑳,每个创意都有机会快速变成产品▓。一个想象力真正成为生产力的时代正在加速到来❶。
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可④,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐⑦,非常欢迎各位朋友分享到个人站长或者朋友圈▓,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”⑭。
很赞哦⑱!
相关文章
随机图文
常长亭今日观点:利用底部夯实时坚定买入布局
操作指南:另一个潜在的亮点是持续收集 TTS 开发中的实用操作指南▓,而这些操作指南将以问答的形式展现②。作者期待这些问答是具体的⑪、现实的④、一线的①,因此①,作者期待这篇 Survey 将维持开放性❸,邀请更多-
法拉第未来至今总共卖出 16 辆车①,转向平价车型寻求突破
日前⑨,马蜂窝上线的“AI小蚂”支持实时问答⑬、行程线路规划⑳、在线旅行向导❷、个性化推荐等功能⑤。飞猪“问一问”则包含了行程助手③、路线定制师⑦、智慧交通顾问⑮、酒店顾问❸、攻略达人⑱、本地人导游▓、服务保障专员等多个专 记者:方镜淇今天完成韧带修复手术③;谢维军正常参加恢复训练
随着马克・威廉姆斯交易传闻的发酵❸,黄蜂队内线重组迫在眉睫⑯。选择卡曼・马卢阿赫虽有风险⑮,但其潜力不容忽视▓。作为本届选秀中最顶尖的护筐中锋⑮,他在篮下的威慑力堪称一绝⑪,能够有效压制对手的内线进攻⑤。马永祥:AI赋能诗词创作❸,高效背后的灵魂缺失与解决之道
中国同拉美和加勒比地区虽然相距遥远⑩,但双方友好交往源远流长❷。早在16世纪⑲,一艘艘满载友谊的“中国之船”穿梭于太平洋两岸⑥,开启了中拉交往交流的序章⑯。上世纪60年代后❸,随着新中国同一些拉美和加勒比国家建交法媒:利物浦②、曼城和热刺询价谢尔基②,离队条款为2250万欧
第三方数据显示❸,2025年3月⑱,昆仑万维旗下AI音乐应用Mureka全球访问量达333万③,环比增长86.5%⑯,增速位列全球AI音乐品类第一③。同时⑮,Mureka注重B端市场的拓展⑧,已向全球企业和开发者提东部各队首轮出局的教训:字母带不动 魔术缺投篮 康宁汉姆真的行
血液净化⑲,通俗一点来讲就是“大血净”①,是通过体外循环技术清除血液当中的废物⑥,主要通过过滤⑨、置换等方式来调整血液成分②,恢复机体内环境平衡⑭。对线⑰!迈阿密1-4后遭对手球队嘲讽⑪,贝克汉姆回应:尊重高于一切
美国有线电视新闻网曾刊文称⑦,稀土是中国在此轮贸易战中最有力的武器之一❷。如今的局面是❷,中国打出了这张“强有力”的牌⑪,而特朗普“几乎毫无还手之力”⑭。报道指出❸,中国稀土出口管制的影响迅速显现⑨,美国军事⑰、能源-
交大:当AI技术有了时间维度 会带来什么改变⑥?
自变量机器人成立于2023年12月⑯,聚焦“通用具身大模型”的研发❷,以真实世界数据为主要数据来源⑦,构建具备精细操作能力的通用机器人⑩,目前已完成7轮融资⑱,累计融资金额超10亿元⑬。自变量机器人创始人兼CEO
点击排行

本栏推荐
