您现在的位置是:网站首页>房产房产
H9电玩城客服热线人工服务
张雪柳 2025-05-14 【房产】 0445 人已围观
ModelScope团队 投稿量子位 | 公众号 QbitAI
OpenAI GPT-4o发布强大图片生成能力后⑰,业界对大模型生图能力的探索向全模态方向倾斜①,训练全模态模型成研发重点⑬。
开源的MLLMs和扩散模型已经过大规模预训练▓,其从零开始训练统一任务⑪,不如取长补短①,将MLLMs的语言建模能力⑨,与扩散模型的像素级图像建模能力⑭,进行有机的结合⑬。
基于这个思路⑥,ModelScope团队提出可同时完成图像理解⑤、生成和编辑的统一模型Nexus-Gen⑤,在图像质量和编辑能力上达GPT-4o同等水平⑪,并将成果全方位开源⑦,望引发开发者讨论①,促进All-to-All模型领域发展❸。
模型先进行图像生成④,然后进行图像理解的可视化案例:
Nexus-Gen技术细节
总体框架▓、Nexus-Gen采用了与GPT-4o类似的 token → [transformer] → [diffusion] → pixels 技术路线⑩,融合了SOTA MLLMs的强大文本预测能力和Diffusion模型的强大图像渲染能力⑫,其总体架构如图所示⑰。
作为一个All-to-All模型⑯,Nexus-Gen的输入和输出都支持图像和文本模态⑫,自回归Transformer输出的文本Token进行分类后解码成对应的输出文本⑭。而输出的视觉Token的embeddings则会作为条件输入给Vision Decoder中解码为输出图像⑱。
之前的All-to-All模型大多直接使用自回归Transformer直接对图像的像素空间进行建模④,然后用VAE等模型解码为图像⑥,导致图像质量较差⑲。
为了保证图像质量②,Nexus-Gen选择在高维特征空间对图像进行建模❶,并选择SOTA的扩散模型作为视觉解码器④。
相比于处理单一任务的模型⑧,All-to-All模型的潜力在于图像理解⑳、生成❶、编辑等任务可以相互促进❸、互相组合
为了完成这一目标⑦,将模型的输入和输出特征空间限定在同一个连续高维特征空间▓,统一使用Vision Encoder编码图像得到高维特征⑭。对于理解任务⑧,这些特征直接输入模型中作为先验⑲。对于生成任务⑲,这些特征则作为真值指导模型的训练⑬。
预填充自回归策略⑦、在训练阶段⑫,自回归模型直接使用真值作为输入序列⑥,然后将输入序列左移一位后计算损失函数⑭。在推理阶段⑪,则采用Token-by-Token的自回归:即每预测一个Token⑩,就将其送回输入⑩,预测后续的Token⑰。
团队发现①,将这种自回归范式⑩,直接运用在连续特征空间的图像Embedding预测上⑯,会带来比较严重的误差累计问题⑰。
如下图所示⑮,从第一个黄色的图像Token开始⑩,预测的Embedding就存在误差⑤。将带误差的Embedding送回输入中③,会导致后续的Embedding预测误差不断增大❸,最终导致整个图像Token序列预测失败⑱。
误差累计本质上是由训练和推理行为不一致导致的⑯。为了解决这个问题④,魔搭团队提出了预填充自回归的策略⑧,如下图所示⑫。在训练时使用可学习特殊Token填充对应的图像Embedding位置④,这样就可以让模型学习直接预测任意位置的图像Token的能力❸。
在推理阶段⑧,只要预测到图像的起始Token BOI④,就直接预填充N个特殊Token到输入序列中⑨。通过这种方式⑰,能够保证训练和推理阶段行为的一致性❶,从而消除误差累计②。
任务构建与训练细节⑦、在Nexus-Gen工作之前⑩,没有看到过在统一的理解▓、生成和编辑任务上做训练的先例⑫。所以魔搭团队首先从工程上⑥,探索使用类messages格式来定义所有任务的数据格式⑩。如下图所示⑳。
之后②,团队从开源社区收集了约25M训练数据并转化为以上统一的格式⑱,其中⑳,图像理解数据6M❸,图像生成数据12M⑳,图像编辑数据7M②。
部分数据使用Qwen-VL-max API进行了重新标注⑩。其中⑪,图像编辑数据包含了团队在ModelScope社区最新开源的⑮,图像编辑数据集系列ImagePulse⑬。
这一系列数据集中⑤,针对GPT-4o不同的图像编辑能力❸,包含了添加⑨、去除⑥、改变①、风格迁移等原子能力而生成的③,大约1M高质量样本⑰。
此外后续团队也会将其他在训练过程中使用到的全部数据❷,都进行开源⑤。
由于Nexus-Gen将图像特征统一在Vision Encoder的高维空间中▓,因此自回归模型部分和扩散模型部分可以分开训练❸。
自回归模型使用魔搭开源的SWIFT框架训练⑩,扩散模型则使用了魔搭的DiffSynth-Studio框架训练⑨。下表详细描述了训练过程的细节⑩。
自回归模型采用了三阶段训练策略⑳,前两个阶段逐步将图像生成和图像编辑能力嵌入语言模型中⑫,最后一个阶段则采用少量高质量数据来提升模型生图质量❷。
扩散模型的训练目标是将输入条件由原本文本输入调整为图像Embedding输入④,采用单阶段训练策略❷。
Nexus-Gen 功能展示
Nexus同时具备图像理解⑱、生成和编辑能力▓,以下是每个能力的可视化案例⑮。
图像理解
图像生成
图像编辑
未来展望⑬、在模型融合训练⑯、图像Token数量提升⑱、ScaleUp数据集和模型大小等等方面⑱,Nexus-Gen依然存在着大量的优化潜力⑭,目前ModelScope团队在这些不同方向⑬,还在进行更深入的探索⑧。
Nexus-Gen的诞生④,验证了从SOTA的MLLMs和扩散模型出发⑧,来对齐以GPT-4o为代表的闭源SOTA的可能性⑪。其效果与GPT-4o具备许多共同点❶,比如图像编辑会导致原图部分变化⑳、可以文本润色进行多样化图像生成等⑲;团队也发现了许多OpenAI团队没有揭露的现象❷,比如图像编辑能力极大受益于图像生成④,统一模型使多prompt编辑⑳、故事性编辑成为可能等等⑫。
ModelScope社区会持续将探索过程的模型权重⑬、训练数据以及工程框架全部开源⑳,欢迎社区对Nexus-Gen和All-to-All统一模型的技术未来进行广泛交流⑬。
论文链接:https://arxiv.org/pdf/2504.21356代码链接:https://github.com/modelscope/Nexus-Gen模型链接:https://www.modelscope.cn/models/DiffSynth-Studio/Nexus-Gen数据集链接:https://www.modelscope.cn/collections/ImagePulse----tulvmaidong-7c3b8283a43e40
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可①,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐⑧,非常欢迎各位朋友分享到个人站长或者朋友圈❸,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”③。
很赞哦⑪!
相关文章
随机图文
-
巴基斯坦空军基地遭轰炸现场:大量飞机被炸毁仅剩残骸
二级市场上⑯,迈威生物5月12日盘中跌超15%①。截至收盘时④,公司报17.8元/股⑥,跌10.96%❷,市值约71亿元⑯。 与拜仁续约谈判停滞👀法媒:萨内本人非常希望能加盟西甲豪门
特别声明:以上文章内容仅代表作者本人观点⑮,不代表新浪网观点或立场⑤。如有关于作品内容⑤、版权或其它问题请于作品发表后的30日内与新浪网联系⑱。衡水市2025年“双争”有我 ——365百姓故事汇群众宣讲征集活动启动
回到去年⑳,小米SU7在没发布之前⑳,没有任何人看好纯电轿跑⑨。就连实力雄厚的传统车企想在新能源抢一口饭吃⑳,都要去考虑“冰箱彩电大沙发”这样的捷径④。出人意料的是▓,小米SU7大获成功④,在产能极其有限的情况下依一年时间改变了什么⑲?皇马场均进球 0.2个⑧,场均丢球从0.7涨到1.1
法拉利在日前表示⑤,将于10月推出的Elettrica电动汽车预计在面向中国市场时将按官方指导价30%的复合税率征税⑭。而目前搭载12缸发动机的车型⑦,其进口税⑪、消费税和增值税总额几乎是该税率的4倍⑳。阿维塔起诉自媒体⑩,索赔1000万元
在科技浪潮奔涌向前的时代⑧,人工智能的发展为传统文学创作注入了全新的活力⑯,开辟出一片充满无限可能的崭新天地⑰。如何巧妙运用AI进行诗词联赋创作⑳,已然成为当下一个极具吸引力与探索价值的崭新课题❷。张玉宁:希望北京男篮能给北京带来一座冠军
IT之家 5 月 12 日消息❶,星纪魅族科技官微今晚对魅族 Note 16 系列手机进行预热②,两款新机将在 13日的魅族 Note 16 系列暨 Flyme AIOS 生态发布会上正式登场⑮。-
普蕊斯接受融通基金等26家机构调研 营收利润与订单情况成关注要点
1⑱、公司董事会审议通过建设环氧丙烷项目⑩,该项目拟以公司丙烷脱氢项目生产的产品为主要原料❸,利用双氧水直接氧化法生产工艺⑫,建设 30 万吨/年直接氧化法环氧丙烷⑫。 -
上市公司“出海”有哪些新看点④?
5月13日下午⑥,阿维塔科技法务部发布声明称⑰,昨天⑤,自媒体“苏黎世贝勒爷”在其发布的所谓道歉视频中⑲,断章取义▓,偷换概念▓,将阿维塔风阻直播测试的量产车说为原型车②,蓄意制造舆论混淆⑯,进一步误导公众对测试结果