您现在的位置是:网站首页>游戏游戏

南海神话捕鱼电玩城

傅谷冬 2025-05-13 游戏 9701 人已围观

机器之心报道⑰、机器之心编辑部⑬、AI 不允许有人不会搭乐高⑥。

近日⑧,CMU 助理教授朱俊彦团队带来了新研究 —— 基于文本生成 3D 乐高的大模型⑨。

这款大模型有多强呢❷?比如输入文本「基本款沙发」❶,一眨眼的功夫⑱,乐高沙发就拼好了⑫。

如果你觉得乐高沙发太简单⑩,可以继续上难度❶,让它生成一个复杂点的书架⑬,只见不同大小的积木拼拼凑凑⑮,乐高书架就完工了▓,整个流程像不像你在拼乐高:

不仅如此⑲,生成的乐高还有纹理和颜色:

为了证明 AI 搭乐高的设计过程在现实生活中可用❷,研究人员让机器臂组装了由 AI 创建的 LEGO 模型⑲,结果很完美❶。

接下来③,我们看文章主要内容⑮。

得益于生成模型和神经渲染技术⑨,3D 生成模型已经取得了显着进展⑫,并在虚拟现实▓、游戏⑳、娱乐和科学计算等领域实现了各种应用⑥。比如④,一些研究探索了从文本合成 3D 对象▓、为网格添加纹理以及操控现有 3D 对象和场景的形状和外观⑫。

不过⑭,应用现有方法创建现实世界中的对象仍然充满挑战⑯。大多数方法侧重于生成具有高保真几何形状和外观的多样化 3D 对象⑨,但受限于两个关键挑战❷,这些数字设计往往无法在物理上实现⑳。一是⑰,这些对象可能难以使用标准组件来组装或制作⑩。二是⑤,即使可以组装⑲,最终的结构也可能存在物理不稳定❷。如果没有适当的支撑⑱,设计的某些部分可能会坍塌⑤、漂浮或保持分离状态⑲。

因此⑯,朱俊彦团队探讨了生成物理可实现对象的挑战⑲,并在乐高设计环境中进行研究⑭。乐高广泛应用于娱乐⑱、教育②、艺术创作和制造原型▓。同时⑯,由于所有标准组件很容易获得⑳,乐高可以作为可复现的研究基准⑥。由于手动设计需要付出巨大努力❶,最近一些研究开发了自动化算法来简化流程并生成了令人信服的结果⑩。

然而❸,现有方法主要基于给定的 3D 对象创建乐高设计⑨,或者专注于单一对象类别⑲。本文的目标是开发一种方法③,直接从自由格式的文本提示生成乐高设计▓,同时确保其物理稳定性和可搭建性❸。具体来说⑱,研究者的目标是训练一个生成模型⑦,使其能够生成具有以下特点的设计:

物理稳定性:构建在具有强大结构完整性的乐高底板上❸,不会出现积木漂浮或坍塌的情况⑧。

可搭建性:与标准乐高积木兼容⑳,并且能够由人类或机器人逐块组装❸。

研究者提出了 LEGOGPT⑤,其关键洞察在于将最初用于下一个 Token 预测的自回归大型语言模型重新用于下一个积木预测❸。他们将乐高设计问题表述为一个自回归文本生成任务⑥,其中下一个积木的尺寸和位置用简单的文本格式指定⑫。而为了确保生成的结构既稳定又可搭建⑬,研究者在训练和推理过程中都强制执行物理感知的组装约束❷。

在训练过程中⑱,研究者构建了一个包含物理稳定的乐高设计并配有字幕的大规模数据集❸。在自回归推理过程中⑮,研究者通过有效性检查和物理感知回滚来执行可行性▓,以确保最终的 Token 符合物理定律和组装约束⑦。

论文标题: Generating Physically Stable and Buildable LEGO® Designs from Text

论文主页:https://avalovelace1.github.io/LegoGPT/

arXiv 地址:https://arxiv.org/pdf/2505.05469

GitHub 地址:https://github.com/AvaLovelace1/LegoGPT

Demo 地址:https://huggingface.co/spaces/cmu-gil/LegoGPT-Demo

实验表明⑳,本文生成的乐高设计稳定⑳、多样且视觉吸引力强⑯,同时能够完美契合输入文本提示④。本文方法优于预训练的 LLM以及以往基于网格 3D 生成的方法⑫。

朱俊彦表示:LegoGPT 是迈向「物理对象生成制造」这一终极目标的一小步⑯。当前版本仍存在局限:仅支持 20x20x20 的构建尺寸④、21 种物体类别和基础积木类型①,但他们也在努力扩展其能力⑦!

面对这么好玩的应用③,网友纷纷求教程:

还有网友担心④,复杂的零件能不能完成啊⑥?

方法介绍⑤、数据集⑩、训练自回归模型需要大规模数据集⑰,因此⑧,本文推出了 StableText2Lego⑰,这是一个全新的大规模 LEGO 数据集⑬,包含 47,000 多种不同的乐高结构⑤,并涵盖 ShapeNetCore 数据集中 21 个常见对象类别中的 28,000 多个独特的 3D 对象⑦。其概览如图 2 所示⑪。

在实现方法上⑧,本文提出了 LEGOGPT⑮,这是一种能够根据文本提示生成物理结构稳定的 LEGO 设计的方法⑪。

该方法通过利用 LLM 的序列建模和文本理解能力⑨,对预训练 LLM 进行 LEGO 生成任务的微调⑥。为了增强设计成品的结构稳定性和可搭建性⑮,本文在推理过程中采用了逐块拒绝采样和物理感知回滚机制③。图 3 展示了本方法的整体框架③。

模型微调:本文进一步使用自定义指令数据集对预训练的 LLM 进行微调⑮,该数据集包含来自 StableText2Lego 的文本提示及其对应的乐高结构⑯。

预训练基础模型⑳。本文使用 LLaMA-3.2-1B-Instruct 作为基础模型⑲,如图 5 所示⑨,基础模型可以通过上下文学习生成类似 LEGO 的设计⑰。

然而⑫,生成的设计通常会遗漏某些物体部件⑰,并且包含相交或断开的积木❸,这使其在物理上不稳定且无法搭建⑲。为了解决这些问题❷,本文使用数据集进一步微调了预训练模型⑨。

物理稳定性:尽管该模型基于物理稳定性数据进行了训练⑤,但有时生成的设计仍会违反物理和组装约束❸。为了解决这个问题▓,该研究进一步将物理稳定性验证纳入自回归推理中⑲。

如果乐高结构在底板上搭建时不会倒塌❷,则该结构被认为是物理稳定的且可搭建的⑧。为此③,本文使用稳定性分析方法评估物理结构稳定性⑪。图 4 展示了施加在单个积木上的所有可能力⑥。

LEGOGPT 推理算法如下:

乐高纹理和着色:颜色和纹理在创意乐高设计中也起着至关重要的作用⑤。因此①,本文提出了一种应用精细 UV 纹理或为单个积木分配统一颜色的方法⑳。

实验①、图 5 展示了一系列多样化⑬、高品质的 LEGO 设计⑤,这些设计紧密遵循输入提示❶。

本文选取 LLaMAMesh ⑧、LGM⑬、XCube 和 Hunyuan3D-2 作为基线方法⑮。如表 1 所示⑰,本方法在所有指标上均超越基线方法③。图 5 直观展示了本方法生成的乐高结构质量显着优于基线方案❷。

很赞哦❸!

随机图文