您现在的位置是:网站首页>篮球篮球
电玩城196官方网站
邵翠容 2025-05-13 【篮球】 0351 人已围观
ModelScope团队 投稿量子位 | 公众号 QbitAI
OpenAI GPT-4o发布强大图片生成能力后⑦,业界对大模型生图能力的探索向全模态方向倾斜④,训练全模态模型成研发重点⑬。
开源的MLLMs和扩散模型已经过大规模预训练⑪,其从零开始训练统一任务③,不如取长补短▓,将MLLMs的语言建模能力⑪,与扩散模型的像素级图像建模能力⑪,进行有机的结合⑭。
基于这个思路⑯,ModelScope团队提出可同时完成图像理解⑫、生成和编辑的统一模型Nexus-Gen①,在图像质量和编辑能力上达GPT-4o同等水平⑥,并将成果全方位开源⑫,望引发开发者讨论④,促进All-to-All模型领域发展⑤。
模型先进行图像生成⑭,然后进行图像理解的可视化案例:
Nexus-Gen技术细节
总体框架⑨、Nexus-Gen采用了与GPT-4o类似的 token → [transformer] → [diffusion] → pixels 技术路线⑧,融合了SOTA MLLMs的强大文本预测能力和Diffusion模型的强大图像渲染能力③,其总体架构如图所示②。
作为一个All-to-All模型⑤,Nexus-Gen的输入和输出都支持图像和文本模态⑪,自回归Transformer输出的文本Token进行分类后解码成对应的输出文本❶。而输出的视觉Token的embeddings则会作为条件输入给Vision Decoder中解码为输出图像⑳。
之前的All-to-All模型大多直接使用自回归Transformer直接对图像的像素空间进行建模⑰,然后用VAE等模型解码为图像⑱,导致图像质量较差⑤。
为了保证图像质量③,Nexus-Gen选择在高维特征空间对图像进行建模⑮,并选择SOTA的扩散模型作为视觉解码器⑦。
相比于处理单一任务的模型▓,All-to-All模型的潜力在于图像理解⑦、生成⑩、编辑等任务可以相互促进⑥、互相组合
为了完成这一目标❸,将模型的输入和输出特征空间限定在同一个连续高维特征空间⑬,统一使用Vision Encoder编码图像得到高维特征⑥。对于理解任务①,这些特征直接输入模型中作为先验⑰。对于生成任务❶,这些特征则作为真值指导模型的训练❸。
预填充自回归策略⑭、在训练阶段⑮,自回归模型直接使用真值作为输入序列⑱,然后将输入序列左移一位后计算损失函数⑰。在推理阶段⑦,则采用Token-by-Token的自回归:即每预测一个Token④,就将其送回输入⑳,预测后续的Token⑲。
团队发现⑮,将这种自回归范式⑲,直接运用在连续特征空间的图像Embedding预测上⑦,会带来比较严重的误差累计问题⑯。
如下图所示⑦,从第一个黄色的图像Token开始❶,预测的Embedding就存在误差③。将带误差的Embedding送回输入中⑪,会导致后续的Embedding预测误差不断增大⑱,最终导致整个图像Token序列预测失败⑫。
误差累计本质上是由训练和推理行为不一致导致的⑫。为了解决这个问题③,魔搭团队提出了预填充自回归的策略⑨,如下图所示④。在训练时使用可学习特殊Token填充对应的图像Embedding位置❸,这样就可以让模型学习直接预测任意位置的图像Token的能力⑦。
在推理阶段①,只要预测到图像的起始Token BOI④,就直接预填充N个特殊Token到输入序列中⑲。通过这种方式⑱,能够保证训练和推理阶段行为的一致性⑬,从而消除误差累计⑥。
任务构建与训练细节⑧、在Nexus-Gen工作之前❷,没有看到过在统一的理解⑰、生成和编辑任务上做训练的先例⑭。所以魔搭团队首先从工程上④,探索使用类messages格式来定义所有任务的数据格式⑤。如下图所示⑤。
之后⑰,团队从开源社区收集了约25M训练数据并转化为以上统一的格式❸,其中⑭,图像理解数据6M⑤,图像生成数据12M⑨,图像编辑数据7M①。
部分数据使用Qwen-VL-max API进行了重新标注⑳。其中⑯,图像编辑数据包含了团队在ModelScope社区最新开源的⑪,图像编辑数据集系列ImagePulse⑦。
这一系列数据集中⑮,针对GPT-4o不同的图像编辑能力⑮,包含了添加❸、去除⑩、改变⑱、风格迁移等原子能力而生成的⑧,大约1M高质量样本❸。
此外后续团队也会将其他在训练过程中使用到的全部数据⑮,都进行开源②。
由于Nexus-Gen将图像特征统一在Vision Encoder的高维空间中⑪,因此自回归模型部分和扩散模型部分可以分开训练⑬。
自回归模型使用魔搭开源的SWIFT框架训练❶,扩散模型则使用了魔搭的DiffSynth-Studio框架训练⑧。下表详细描述了训练过程的细节⑦。
自回归模型采用了三阶段训练策略⑨,前两个阶段逐步将图像生成和图像编辑能力嵌入语言模型中❸,最后一个阶段则采用少量高质量数据来提升模型生图质量②。
扩散模型的训练目标是将输入条件由原本文本输入调整为图像Embedding输入❷,采用单阶段训练策略❶。
Nexus-Gen 功能展示
Nexus同时具备图像理解❷、生成和编辑能力❶,以下是每个能力的可视化案例❸。
图像理解
图像生成
图像编辑
未来展望⑲、在模型融合训练⑮、图像Token数量提升⑯、ScaleUp数据集和模型大小等等方面④,Nexus-Gen依然存在着大量的优化潜力❷,目前ModelScope团队在这些不同方向⑱,还在进行更深入的探索⑳。
Nexus-Gen的诞生❶,验证了从SOTA的MLLMs和扩散模型出发⑮,来对齐以GPT-4o为代表的闭源SOTA的可能性⑦。其效果与GPT-4o具备许多共同点⑭,比如图像编辑会导致原图部分变化⑲、可以文本润色进行多样化图像生成等⑤;团队也发现了许多OpenAI团队没有揭露的现象④,比如图像编辑能力极大受益于图像生成▓,统一模型使多prompt编辑⑯、故事性编辑成为可能等等❸。
ModelScope社区会持续将探索过程的模型权重⑰、训练数据以及工程框架全部开源⑪,欢迎社区对Nexus-Gen和All-to-All统一模型的技术未来进行广泛交流⑧。
论文链接:https://arxiv.org/pdf/2504.21356代码链接:https://github.com/modelscope/Nexus-Gen模型链接:https://www.modelscope.cn/models/DiffSynth-Studio/Nexus-Gen数据集链接:https://www.modelscope.cn/collections/ImagePulse----tulvmaidong-7c3b8283a43e40
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可⑲,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐❶,非常欢迎各位朋友分享到个人站长或者朋友圈❶,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”⑮。
很赞哦⑩!
相关文章
随机图文
-
小鹏一季度出口7615辆②,同比增370%
他进一步说⑰,政策的不可预测性会减缓投资速度⑦,并损害美国的国际关系⑳,尤其是与较贫穷国家的关系⑫。“对非常贫穷的非洲国家征收巨额关税……我看不到这样做有什么好处⑱。”盖茨说⑱。 我国家政服务从业人员已超过3000万人①,广西市场如何④?
以前的方法在检测周期性信号方面非常有效⑳,但它们在处理WISE如此大规模数据时速度极慢⑫,几乎无法在实际中使用❷。塔雷谈与米兰传闻:能为这样的豪门工作将是莫大的荣幸
看来为了让女儿进入娱乐圈⑬,黄磊这次也动用了自己的人脉▓,轻易不出手❶,一出手就给孩子送进这么好的剧组⑯。-
科创板年内第三家⑮!健信超导IPO胜算几何
2024年12月26日⑫,在天津市西青区一家大型商超⑥,顾客在选购刚到货的智利车厘子⑩。新华社记者 孙凡越 摄 瑞士天空:德布劳内同意加盟那不勒斯⑳,报价700万年薪&谈判进行中
费利佩作为成都蓉城的头号前锋⑦,上一次进球是在第4轮⑬,已经有8场的进球荒⑯。徐正源表示⑨,费利佩在技战术上为球队牺牲了很多⑱,相信他终会进球的⑧。-
帽子戏法难阻球队失利⑰,姆巴佩社媒:虽然伤心❷,但我们会重振旗鼓 基利安·姆巴佩
点击按住拖动小窗关闭⑧、热门视频⑬、河南郑州⑩,摆摊每月必交一条“芙蓉王”⑲? 第2也不保④?👀阿森纳近6轮仅1胜状态不佳⑧,下轮若输球将跌至第3
薛哲强其实也来自达安基因大股东广州金控⑳,因此⑬,替换薛哲强也是大股东层面的决定⑮,薛哲强对此并无反对意见❷。而黄志征⑯、韦典含⑱、朱琬瑜③、陈宏威④、每体:巴萨对国家德比判罚愤怒⑦,但不会对本场比赛进行上诉
△点击上图查看详情⑪、这两天①,不少杭州人发现手机上出现了一个“5G-A”的标识⑧。橙友@卡萨布拉卡 担忧地发帖:是我欠费了吗⑦?