您现在的位置是:网站首页>游戏游戏
江阴电玩城
陆孤岚 2025-05-13 【游戏】 9849 人已围观
ModelScope团队 投稿量子位 | 公众号 QbitAI
OpenAI GPT-4o发布强大图片生成能力后①,业界对大模型生图能力的探索向全模态方向倾斜⑮,训练全模态模型成研发重点⑲。
开源的MLLMs和扩散模型已经过大规模预训练▓,其从零开始训练统一任务⑤,不如取长补短④,将MLLMs的语言建模能力❷,与扩散模型的像素级图像建模能力⑧,进行有机的结合❷。
基于这个思路⑤,ModelScope团队提出可同时完成图像理解②、生成和编辑的统一模型Nexus-Gen❸,在图像质量和编辑能力上达GPT-4o同等水平①,并将成果全方位开源⑫,望引发开发者讨论⑪,促进All-to-All模型领域发展⑧。
模型先进行图像生成⑯,然后进行图像理解的可视化案例:
Nexus-Gen技术细节
总体框架⑰、Nexus-Gen采用了与GPT-4o类似的 token → [transformer] → [diffusion] → pixels 技术路线⑱,融合了SOTA MLLMs的强大文本预测能力和Diffusion模型的强大图像渲染能力⑩,其总体架构如图所示⑤。
作为一个All-to-All模型⑧,Nexus-Gen的输入和输出都支持图像和文本模态②,自回归Transformer输出的文本Token进行分类后解码成对应的输出文本④。而输出的视觉Token的embeddings则会作为条件输入给Vision Decoder中解码为输出图像⑩。
之前的All-to-All模型大多直接使用自回归Transformer直接对图像的像素空间进行建模①,然后用VAE等模型解码为图像⑲,导致图像质量较差⑰。
为了保证图像质量⑥,Nexus-Gen选择在高维特征空间对图像进行建模⑪,并选择SOTA的扩散模型作为视觉解码器⑩。
相比于处理单一任务的模型⑭,All-to-All模型的潜力在于图像理解⑭、生成❸、编辑等任务可以相互促进⑫、互相组合
为了完成这一目标⑨,将模型的输入和输出特征空间限定在同一个连续高维特征空间⑧,统一使用Vision Encoder编码图像得到高维特征❶。对于理解任务⑩,这些特征直接输入模型中作为先验⑦。对于生成任务⑰,这些特征则作为真值指导模型的训练⑦。
预填充自回归策略④、在训练阶段⑬,自回归模型直接使用真值作为输入序列⑪,然后将输入序列左移一位后计算损失函数▓。在推理阶段⑥,则采用Token-by-Token的自回归:即每预测一个Token⑤,就将其送回输入⑮,预测后续的Token⑰。
团队发现②,将这种自回归范式⑩,直接运用在连续特征空间的图像Embedding预测上⑲,会带来比较严重的误差累计问题⑬。
如下图所示⑩,从第一个黄色的图像Token开始⑪,预测的Embedding就存在误差②。将带误差的Embedding送回输入中⑨,会导致后续的Embedding预测误差不断增大⑫,最终导致整个图像Token序列预测失败⑫。
误差累计本质上是由训练和推理行为不一致导致的④。为了解决这个问题⑪,魔搭团队提出了预填充自回归的策略①,如下图所示⑥。在训练时使用可学习特殊Token填充对应的图像Embedding位置①,这样就可以让模型学习直接预测任意位置的图像Token的能力⑰。
在推理阶段▓,只要预测到图像的起始Token BOI⑥,就直接预填充N个特殊Token到输入序列中⑥。通过这种方式❸,能够保证训练和推理阶段行为的一致性⑬,从而消除误差累计⑦。
任务构建与训练细节⑭、在Nexus-Gen工作之前⑯,没有看到过在统一的理解⑳、生成和编辑任务上做训练的先例③。所以魔搭团队首先从工程上❸,探索使用类messages格式来定义所有任务的数据格式⑱。如下图所示②。
之后⑪,团队从开源社区收集了约25M训练数据并转化为以上统一的格式⑫,其中❸,图像理解数据6M①,图像生成数据12M⑦,图像编辑数据7M❸。
部分数据使用Qwen-VL-max API进行了重新标注❸。其中⑪,图像编辑数据包含了团队在ModelScope社区最新开源的❸,图像编辑数据集系列ImagePulse⑪。
这一系列数据集中⑱,针对GPT-4o不同的图像编辑能力⑫,包含了添加⑨、去除❷、改变⑮、风格迁移等原子能力而生成的④,大约1M高质量样本⑭。
此外后续团队也会将其他在训练过程中使用到的全部数据⑥,都进行开源⑨。
由于Nexus-Gen将图像特征统一在Vision Encoder的高维空间中▓,因此自回归模型部分和扩散模型部分可以分开训练⑲。
自回归模型使用魔搭开源的SWIFT框架训练⑩,扩散模型则使用了魔搭的DiffSynth-Studio框架训练⑬。下表详细描述了训练过程的细节⑧。
自回归模型采用了三阶段训练策略⑪,前两个阶段逐步将图像生成和图像编辑能力嵌入语言模型中⑪,最后一个阶段则采用少量高质量数据来提升模型生图质量❸。
扩散模型的训练目标是将输入条件由原本文本输入调整为图像Embedding输入⑳,采用单阶段训练策略⑮。
Nexus-Gen 功能展示
Nexus同时具备图像理解⑫、生成和编辑能力❸,以下是每个能力的可视化案例▓。
图像理解
图像生成
图像编辑
未来展望❷、在模型融合训练⑩、图像Token数量提升⑳、ScaleUp数据集和模型大小等等方面⑫,Nexus-Gen依然存在着大量的优化潜力⑱,目前ModelScope团队在这些不同方向⑮,还在进行更深入的探索⑧。
Nexus-Gen的诞生⑩,验证了从SOTA的MLLMs和扩散模型出发⑪,来对齐以GPT-4o为代表的闭源SOTA的可能性▓。其效果与GPT-4o具备许多共同点⑯,比如图像编辑会导致原图部分变化❷、可以文本润色进行多样化图像生成等①;团队也发现了许多OpenAI团队没有揭露的现象⑳,比如图像编辑能力极大受益于图像生成⑳,统一模型使多prompt编辑④、故事性编辑成为可能等等⑫。
ModelScope社区会持续将探索过程的模型权重⑪、训练数据以及工程框架全部开源⑳,欢迎社区对Nexus-Gen和All-to-All统一模型的技术未来进行广泛交流⑬。
论文链接:https://arxiv.org/pdf/2504.21356代码链接:https://github.com/modelscope/Nexus-Gen模型链接:https://www.modelscope.cn/models/DiffSynth-Studio/Nexus-Gen数据集链接:https://www.modelscope.cn/collections/ImagePulse----tulvmaidong-7c3b8283a43e40
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可⑰,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐③,非常欢迎各位朋友分享到个人站长或者朋友圈❶,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”⑭。
很赞哦④!
相关文章
随机图文
山东鄄城发生一起交通事故致4死2伤
里克-巴里说:“这太离谱了❸,球员们在比赛中最简单的部分都表现的如此糟糕⑭,这真是太可悲了▓。罚球是比赛的关键部分❸,这令人难过▓。在我看来⑦,他绝对是“端尿盆”罚球的候选人③。他必须做出改变⑰,罚球命中率不应该只有全新智己L6上市②,权益价20.49万起②,实力诠释20万级入门即顶配
这场看似突然爆发的信任危机⑩,实则揭示了小米汽车营销策略与产品实力之间的深刻矛盾④。多位行业观察人士指出①,碳纤维双风道前舱盖本不在SU7 Ultra的量产计划中❷,却因用户对纽北原型车外观的呼声被仓促推出⑲,弗兰克:若王钰栋能到欧洲踢球⑫,对他来说将会有很大的提升
除了比亚迪和特斯拉⑭,根据榜单⑭,纯电车型销量前5名还有吉利⑨、大众集团和上汽集团⑰。石家庄功夫转会注册禁令已消除⑧,三镇⑫、铜梁龙的禁令仍在持续
穆尔说⑫,“你们看❶,这里有一条通道⑳。这是以前在这里的旧楼梯⑩,但后来被封了⑱。”停车场偶遇一辆伪装车 看着它倒车现场撞车 应该是新款魏牌高山
值得一提的是⑪,在另一家知名选秀网站Tankathon中⑯,杨瀚森也被模拟在第44顺位选中③,他将会在这个顺位被雷霆队摘下⑳。科贝:皇马计划在夏窗分阶段引援⑰,将不断补强后防线
抖音商城“618”大促则5月13日0时启幕⑩,持续至6月18日⑯,活动延续“立减折扣”和“一件直降”等核心玩法⑤,投入亿级现金补贴和千亿级流量资源❶。没完没了⑪!S家地震纪念日霸榜热搜遭痛批:什么日子还在营销⑳?
屏幕:144Hz 1.5K 护眼屏⑧,局部峰值亮度 4500nitsGPT-4o在图像修复领域的初探:技术突破与现实应用的平衡之道
直播吧5月12据天天体育报道⑮,国安队将乘坐双层大巴应援首钢男篮总决赛⑫。