您现在的位置是:网站首页>人工智能人工智能
森林舞会电玩城免费版
徐含玉 2025-05-13 【人工智能】 6831 人已围观
ModelScope团队 投稿量子位 | 公众号 QbitAI
OpenAI GPT-4o发布强大图片生成能力后④,业界对大模型生图能力的探索向全模态方向倾斜❷,训练全模态模型成研发重点❷。
开源的MLLMs和扩散模型已经过大规模预训练①,其从零开始训练统一任务⑨,不如取长补短④,将MLLMs的语言建模能力⑪,与扩散模型的像素级图像建模能力⑳,进行有机的结合⑬。
基于这个思路③,ModelScope团队提出可同时完成图像理解❷、生成和编辑的统一模型Nexus-Gen⑲,在图像质量和编辑能力上达GPT-4o同等水平⑥,并将成果全方位开源②,望引发开发者讨论⑮,促进All-to-All模型领域发展⑦。
模型先进行图像生成⑳,然后进行图像理解的可视化案例:
Nexus-Gen技术细节
总体框架⑩、Nexus-Gen采用了与GPT-4o类似的 token → [transformer] → [diffusion] → pixels 技术路线④,融合了SOTA MLLMs的强大文本预测能力和Diffusion模型的强大图像渲染能力⑯,其总体架构如图所示②。
作为一个All-to-All模型▓,Nexus-Gen的输入和输出都支持图像和文本模态⑩,自回归Transformer输出的文本Token进行分类后解码成对应的输出文本▓。而输出的视觉Token的embeddings则会作为条件输入给Vision Decoder中解码为输出图像⑨。
之前的All-to-All模型大多直接使用自回归Transformer直接对图像的像素空间进行建模▓,然后用VAE等模型解码为图像⑪,导致图像质量较差③。
为了保证图像质量⑭,Nexus-Gen选择在高维特征空间对图像进行建模①,并选择SOTA的扩散模型作为视觉解码器⑥。
相比于处理单一任务的模型②,All-to-All模型的潜力在于图像理解⑯、生成⑮、编辑等任务可以相互促进⑪、互相组合
为了完成这一目标⑳,将模型的输入和输出特征空间限定在同一个连续高维特征空间⑭,统一使用Vision Encoder编码图像得到高维特征⑳。对于理解任务⑩,这些特征直接输入模型中作为先验▓。对于生成任务❸,这些特征则作为真值指导模型的训练⑤。
预填充自回归策略③、在训练阶段❶,自回归模型直接使用真值作为输入序列②,然后将输入序列左移一位后计算损失函数⑦。在推理阶段③,则采用Token-by-Token的自回归:即每预测一个Token⑲,就将其送回输入❷,预测后续的Token❸。
团队发现⑮,将这种自回归范式⑨,直接运用在连续特征空间的图像Embedding预测上⑦,会带来比较严重的误差累计问题⑯。
如下图所示⑩,从第一个黄色的图像Token开始⑪,预测的Embedding就存在误差⑥。将带误差的Embedding送回输入中▓,会导致后续的Embedding预测误差不断增大⑮,最终导致整个图像Token序列预测失败⑲。
误差累计本质上是由训练和推理行为不一致导致的②。为了解决这个问题⑫,魔搭团队提出了预填充自回归的策略⑫,如下图所示⑦。在训练时使用可学习特殊Token填充对应的图像Embedding位置④,这样就可以让模型学习直接预测任意位置的图像Token的能力⑩。
在推理阶段⑮,只要预测到图像的起始Token BOI⑪,就直接预填充N个特殊Token到输入序列中❷。通过这种方式▓,能够保证训练和推理阶段行为的一致性⑪,从而消除误差累计⑨。
任务构建与训练细节⑩、在Nexus-Gen工作之前⑰,没有看到过在统一的理解⑱、生成和编辑任务上做训练的先例⑮。所以魔搭团队首先从工程上⑥,探索使用类messages格式来定义所有任务的数据格式③。如下图所示⑦。
之后⑳,团队从开源社区收集了约25M训练数据并转化为以上统一的格式①,其中⑬,图像理解数据6M⑥,图像生成数据12M⑫,图像编辑数据7M⑧。
部分数据使用Qwen-VL-max API进行了重新标注⑪。其中▓,图像编辑数据包含了团队在ModelScope社区最新开源的⑪,图像编辑数据集系列ImagePulse❶。
这一系列数据集中❸,针对GPT-4o不同的图像编辑能力⑲,包含了添加⑲、去除⑰、改变❷、风格迁移等原子能力而生成的⑬,大约1M高质量样本①。
此外后续团队也会将其他在训练过程中使用到的全部数据❸,都进行开源❶。
由于Nexus-Gen将图像特征统一在Vision Encoder的高维空间中⑦,因此自回归模型部分和扩散模型部分可以分开训练⑳。
自回归模型使用魔搭开源的SWIFT框架训练▓,扩散模型则使用了魔搭的DiffSynth-Studio框架训练⑨。下表详细描述了训练过程的细节⑧。
自回归模型采用了三阶段训练策略④,前两个阶段逐步将图像生成和图像编辑能力嵌入语言模型中②,最后一个阶段则采用少量高质量数据来提升模型生图质量❶。
扩散模型的训练目标是将输入条件由原本文本输入调整为图像Embedding输入⑤,采用单阶段训练策略❸。
Nexus-Gen 功能展示
Nexus同时具备图像理解❷、生成和编辑能力⑭,以下是每个能力的可视化案例⑥。
图像理解
图像生成
图像编辑
未来展望⑪、在模型融合训练❷、图像Token数量提升⑪、ScaleUp数据集和模型大小等等方面❷,Nexus-Gen依然存在着大量的优化潜力⑥,目前ModelScope团队在这些不同方向⑭,还在进行更深入的探索▓。
Nexus-Gen的诞生⑲,验证了从SOTA的MLLMs和扩散模型出发③,来对齐以GPT-4o为代表的闭源SOTA的可能性⑫。其效果与GPT-4o具备许多共同点⑧,比如图像编辑会导致原图部分变化⑨、可以文本润色进行多样化图像生成等⑤;团队也发现了许多OpenAI团队没有揭露的现象⑳,比如图像编辑能力极大受益于图像生成▓,统一模型使多prompt编辑⑫、故事性编辑成为可能等等⑫。
ModelScope社区会持续将探索过程的模型权重⑯、训练数据以及工程框架全部开源⑳,欢迎社区对Nexus-Gen和All-to-All统一模型的技术未来进行广泛交流⑱。
论文链接:https://arxiv.org/pdf/2504.21356代码链接:https://github.com/modelscope/Nexus-Gen模型链接:https://www.modelscope.cn/models/DiffSynth-Studio/Nexus-Gen数据集链接:https://www.modelscope.cn/collections/ImagePulse----tulvmaidong-7c3b8283a43e40
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可⑧,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐❸,非常欢迎各位朋友分享到个人站长或者朋友圈❸,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”⑩。
很赞哦⑥!
相关文章
随机图文
4月中国游戏出海哪家强④?
就在接下来的一分钟时间里CBA狂欢夜:15 0⑬!北京落后7分到领先11分❷,周琦半场15分6板2帽
此次工信部发布的《汽车车门把手安全技术要求》▓,该文件的起草单位为中国汽车技术研究中心有限公司②、吉利汽车研究院有限公司④、北京车和家汽车科技有限公司等⑧。粽子吃出带血创可贴❸,来伊份声明:产品被封存⑫,如存在质量问题愿承担一切责任
《中国时报》发表社论指出⑭,台行政机构尽其全力避免说出占台湾人口最多数的是闽南人⑱。因为闽南人来自福建⑯,民进党想通过篡改史实⑮、绕开真相⑨,去塑造不知所云的“台独”意识形态①。-
电驱先锋 vs 燃油经典:小鹏P7+ VS本田雅阁谁更强⑪?
香港特区政府财政司司长陈茂波表示⑧,重点企业为香港带来投资⑨、就业机会和科技⑳,支持香港成为国际创科中心⑫,同时也带来能够改变生活方式和激发创新的产品和方案❷,这些都是香港所重视的⑲。 -
蓝莓管够⑲!马山县发出的这份“嘉年华邀请函”是懂宠粉的
原来⑱,李先生确诊糖尿病已有几年时间①,这次回家后对用药不重视导致血糖波动过大⑥,以至于诱发了酮症酸中毒⑭。 热门专业巨难考的院校大盘点⑨,你别错过⑥!
按发行价263港元/股⑩,且发售量调整权及超额配股权未行使的情况下⑳,宁德时代预估H股市值为310.06亿港元⑨。淮河防总部署2025年防汛重点工作
数据显示❷,奔驰S级以1673辆的成绩⑮,继续扞卫传统豪华行政旗舰市场的一哥位置▓。挑战用纯电四驱跑318⑨,你觉得山海T1能耗会有多高⑰?|智能车指南
紧接着⑪,17日至19日⑰,西南地区东部⑧、江南⑩、华南等地又一轮降雨将无缝衔接⑳。这次过程中⑫,对流特征可能更加明显❶。