您现在的位置是:网站首页>科技科技

天天电玩城客服微信

熊寒安 2025-05-11 科技 1257 人已围观

被无数人喜爱的乐高也有自己的 GPT AI 模型了①,它的名字就叫 LEGOGPT❶,其由美国卡内基梅隆大学助理教授朱俊彦团队打造而来❶。

据了解⑤,这是首个根据文本提示生成物理上稳定的 LEGO 积木模型的成果⑱,也是首次将物理感知约束纳入基于文本的 LEGO 生成的成果⑳。

利用 LEGOGPT⑪,研究团队做出了日式滑动书柜⑨。

也做出了赛博朋克风格的紫色沙发⑭。

以及做出了一把吉他❶。

LEGOGPT 既能设计出与文本描述相匹配的 LEGO 结构⑫,还能确保这些结构在现实世界中可以通过手工或机器人辅助实现逐块搭建⑤。

不同于以往人们尝试的 LEGO 自主建模▓,LEGOGPT 能够生成构建 LEGO 作品的详细步骤说明⑭,并且这些作品不会散架⑩。

LEGOGPT 的工作原理是首先生成一序列位置精确的 LEGO 积木④,对于序列中的每一块新积木❸,系统都会确保它不会与现有的积木发生碰撞⑪,并且能够放入搭建空间之内❷。完成设计之后❷,LEGOGPT 会使用数学模型来验证积木能否直立而不倒塌❷。

如果积木会在现实世界中倒塌⑮,系统会识别出第一块不稳定的积木并加以回溯⑧,进而将它和所有后续积木移除⑥,然后再尝试不同的方法❸。这种“基于物理的回溯”方法至关重要②,没有它的时候只有 24% 的设计能保持站立②,而有它的时候保持站立的比例高达 98.8%❸。

为了证明本次设计在现实生活中的可行性①,研究人员让机器臂组装了由 AI 创建的 LEGO 模型⑮。他们使用一个带有力传感器的双机器人手臂系统③,根据 AI 生成的指令来拾取和放置 LEGO 积木⑭。

参加实验的真人测试者也以手动方式构建了一些积木▓,这表明 AI 能够生成真正可构建的模型⑭。

该团队在论文中指出:“我们的实验表明⑩,LEGOGPT 能够生成稳定⑯、多样且美观的 LEGO 设计⑲,这些设计与输入的文本提示高度一致❷。”其还证明本次方法优于已有的大模型骨干模型⑲,也优于几种最新的“文本到 3D”的生成方法⑳。

在打造 LEGOGPT 的过程中⑨,研究团队构建了一个大规模⑳、物理稳定的 LEGO 设计数据集⑰,并提供了与之相关的说明文字❶。同时⑰,他们还训练了一个自回归大模型③,通过预测下一个 token 来预测下一块要添加的积木⑫。

为了提高设计的稳定性⑬,他们在自回归推理过程中采用有效性检查和物理感知回退机制⑩,利用物理定律和拼装约束来剔除不可行的 token 预测⑯。

目前⑤,该团队已经公布了数据集 StableText2Lego❷,其中包含超过 47,000 个 LEGO 结构⑭,这些结构由超过 28,000 个独特的 3D 对象组成⑯,并附有详细的说明文字❷。同时⑮,代码和模型已在 GitHub 上发布❷。

另据悉⑫,除了朱俊彦是论文作者之外②,相关论文中也有多位华人作者❸。

能由真人或机器人实现逐块拼装

众所周知⑱,LEGO 已被广泛用于娱乐⑳、教育和艺术创作⑲。由于所有标准组件均可被随时获取⑰,因此它也可以作为一个可复现的研究基准②。

由于手动设计需要耗费较大精力⑪,故曾有人通过开发自动化算法来简化流程并生成了不错的结果⑭。然而⑦,此前方法主要基于给定的 3D 对象来创建 LEGO 设计⑩,或者仅仅关注于单一的对象类别④。

基于此⑲,该团队希望开发一种能够直接根据文本提示生成 LEGO 设计④、同时在设计上兼具物理稳定性和可搭建性的方法⑧。

因此⑧,他们认为需要训练一个生成模型⑦,并让该模型能够生成以下设计方案:首先⑦,要具备物理稳定性⑱,即基于 LEGO 基板构建出来的结构完整性强▓、无悬空或坍塌③。其次③,要具备可搭建性⑯,即可以和标准 LEGO 积木兼容❸,并能由真人或机器人实现逐块拼装❶。

LEGOGPT 的核心思想是将原本用于下一个 token 预测的自回归大模型重新用于下一个积木预测⑩。研究团队将 LEGO 设计问题表述为自回归文本生成任务⑳,其中下一块积木的尺寸和摆放位置以简单的文本格式指定❶。

为了确保生成的结构既稳定又可构建⑰,他们在训练过程和推理过程中都施加了考虑物理特性的拼装约束⑳。

在自回归推理过程中⑬,研究团队通过有效性检查和物理感知回退来确保可行性①,以便确保最终的 token 符合物理定律和拼装约束⑱。

实验表明②,所生成的设计既稳定又多样⑮,并且具有视觉吸引力⑨,同时符合输入的文本提示⑪。这种方法同时优于采用和不采用上下文学习的预训练大模型⑬,也优于此前基于网格 3D 生成的方法⑳。

大规模 LEGO 数据集:包含 47,000 多种 LEGO 结构

研究人员在论文中表示⑨,一般来说这类工作包含三个步骤:第一步⑨,使用文本到图像模型生成图像⑰。第二步⑰,将图像转换为体素⑯。第三步③,在不考虑物理约束的情况下⑯,使用启发式方法创建物理 LEGO 积木模型①。相比之下⑤,在无需中间图像或体素表示的情况下③,本次方法也能执行文本到 LEGO 积木的任务⑪。

由于训练现代自回归模型需要大规模的数据集⑫,为此研究团队推出了 StableText2Lego⑦,这是一个全新的大规模 LEGO 数据集⑧,包含 47,000 多种 LEGO 结构⑫,涵盖 ShapeNetCore 数据集中 21 个常见物体类别的 28,000 多个独特 3D 物体④。

研究中③,他们选择具有多样性和独特性的 3D 物体类别⑨,同时排除那些类似长方体的物体②。每个结构都配有一组文本描述和一个稳定性评分⑪,该评分能够衡量结构的物理稳定性和可建造性④。

图③、为了获取每个结构的说明文字⑭,研究团队从 24 个不同的视角渲染 LEGO 玩具⑱,并将其组合成一张多视角图像⑳。然后⑩,他们让 GPT-4o 为这些渲染图生成 5 种不同详细程度的描述⑤。

据了解⑰,预训练大模型在序列建模和自然语言理解方面表现十分出色②,因此他们选择了这类大模型⑬。利用大模型能够针对序列进行建模和理解文本的能力⑤,研究团队针对预训练大模型进行了微调④,以便用于 LEGO 生成任务⑥。

而为了提高设计的稳定性和可构建性⑰,他们在推理过程中采用了逐块拒绝采样和物理感知回退的方法⑬。

与此同时⑭,他们使用 LLaMA-3.2-1BInstruct 作为基础模型⑪。该模型经过微调之后⑯,能够针对指令提示给出连贯的答案⑱,因此十分适用于基于文本的 LEGO 设计生成④。同时⑥,这一基础模型还能通过上下文学习生成类似 LEGO 的设计⑪。

虽然本次研究的主要关注点是生成 LEGO 形状⑭,但是在创意型 LEGO 设计中⑨,颜色和纹理也发挥着至关重要的作用⑩。因此①,他们专门提出一种新方法③,该方法既能让单个积木拥有细致 UV 纹理⑨,也能让单个积木拥有统一的颜色⑥。

兼具 UV 纹理和靓丽颜色

实验中⑥,研究人员使用 LLaMAMesh③、LGM⑮、XCube 和 Hunyuan3D-2 来从每个提示生成网格④,然后通过“LEGO 化”将这些网格转换为 LEGO 格式❶。

此外⑨,他们将本次方法与预训练模型进行比较⑩,并将这些模型以零样本和少样本的方式加以评估❶。对于少样本评估▓,研究团队为模型提供了 5 个稳定的 LEGO 设计示例以及说明文字④,并计算了所生成设计方案中的“稳定有效结构”所占的比例⑰。

同时⑳,对于每个有效结构▓,研究团队都计算了其平均积木块稳定性和最小积木块稳定性得分⑱。如下表所示❸,本次方法在这些指标上优于此前已有的基线方法④。

在消融研究中④,研究团队展示了拒绝采样和物理感知回退的重要性❸。如下图所示⑫,拒绝采样消除了无效的积木⑲,比如能够消除那些发生了碰撞的积木⑳。而回退则有助于确保最终生成的积木具备物理稳定性⑭。

如前所述⑤,他们还使用机器人组装了这些由 AI 模型生成的 LEGO 设计⑪。具体来说⑧,机器人利用操纵策略和异步多智能体规划器来操纵 LEGO 积木并构建结构⑰。而且这些由 AI 模型生成的 LEGO 结构还可以进行人工组装⑭,因此它们在物理上确实是有效的⑥。

图❷、下图则展示了 LEGO 模型的 UV 纹理化和均匀着色结果❷,这证明本次方法能够在保留底层几何形状的同时生成多种风格⑪。

尽管本次方法优于已有方法❷,但是仍然存在一些局限性⑨。

首先⑮,由于计算资源有限研究团队尚未探索最大的 3D 数据集⑮,即本次方法仅限于在 21 个类别的 20×20×20 网格内生成设计⑪。未来⑦,他们将在更大▓、更多样化的数据集上扩大模型训练规模⑱,以便提高对于分布外文本提示的泛化能力⑭。

其次③,本次成果目前仅仅支持一组固定的常用 LEGO 积木⑥,未来他们计划扩展积木库⑮,以便包含更广泛的尺寸和积木类型⑤,从而实现更复杂更多样化的 LEGO 设计❸。

参考资料:④、排版:初嘉实

很赞哦④!

随机图文