您现在的位置是:网站首页>NBANBA
电玩城送金币教程详细
毛以寒 2025-05-12 【NBA】 4283 人已围观
ModelScope团队 投稿量子位 | 公众号 QbitAI
OpenAI GPT-4o发布强大图片生成能力后⑫,业界对大模型生图能力的探索向全模态方向倾斜②,训练全模态模型成研发重点⑫。
开源的MLLMs和扩散模型已经过大规模预训练⑪,其从零开始训练统一任务⑤,不如取长补短③,将MLLMs的语言建模能力⑲,与扩散模型的像素级图像建模能力⑯,进行有机的结合⑫。
基于这个思路⑩,ModelScope团队提出可同时完成图像理解⑩、生成和编辑的统一模型Nexus-Gen②,在图像质量和编辑能力上达GPT-4o同等水平⑦,并将成果全方位开源⑤,望引发开发者讨论⑭,促进All-to-All模型领域发展▓。
模型先进行图像生成⑮,然后进行图像理解的可视化案例:
Nexus-Gen技术细节
总体框架⑭、Nexus-Gen采用了与GPT-4o类似的 token → [transformer] → [diffusion] → pixels 技术路线⑲,融合了SOTA MLLMs的强大文本预测能力和Diffusion模型的强大图像渲染能力⑥,其总体架构如图所示①。
作为一个All-to-All模型⑯,Nexus-Gen的输入和输出都支持图像和文本模态⑬,自回归Transformer输出的文本Token进行分类后解码成对应的输出文本⑭。而输出的视觉Token的embeddings则会作为条件输入给Vision Decoder中解码为输出图像⑲。
之前的All-to-All模型大多直接使用自回归Transformer直接对图像的像素空间进行建模▓,然后用VAE等模型解码为图像④,导致图像质量较差⑬。
为了保证图像质量⑲,Nexus-Gen选择在高维特征空间对图像进行建模❸,并选择SOTA的扩散模型作为视觉解码器⑩。
相比于处理单一任务的模型❶,All-to-All模型的潜力在于图像理解⑬、生成⑱、编辑等任务可以相互促进⑬、互相组合
为了完成这一目标⑤,将模型的输入和输出特征空间限定在同一个连续高维特征空间⑳,统一使用Vision Encoder编码图像得到高维特征⑥。对于理解任务③,这些特征直接输入模型中作为先验②。对于生成任务⑱,这些特征则作为真值指导模型的训练⑦。
预填充自回归策略❶、在训练阶段❷,自回归模型直接使用真值作为输入序列⑯,然后将输入序列左移一位后计算损失函数⑫。在推理阶段❸,则采用Token-by-Token的自回归:即每预测一个Token⑭,就将其送回输入⑭,预测后续的Token❶。
团队发现⑬,将这种自回归范式❶,直接运用在连续特征空间的图像Embedding预测上⑪,会带来比较严重的误差累计问题①。
如下图所示⑧,从第一个黄色的图像Token开始②,预测的Embedding就存在误差④。将带误差的Embedding送回输入中⑬,会导致后续的Embedding预测误差不断增大⑲,最终导致整个图像Token序列预测失败⑩。
误差累计本质上是由训练和推理行为不一致导致的❷。为了解决这个问题⑱,魔搭团队提出了预填充自回归的策略②,如下图所示⑦。在训练时使用可学习特殊Token填充对应的图像Embedding位置⑯,这样就可以让模型学习直接预测任意位置的图像Token的能力⑮。
在推理阶段⑪,只要预测到图像的起始Token BOI①,就直接预填充N个特殊Token到输入序列中⑧。通过这种方式❸,能够保证训练和推理阶段行为的一致性⑨,从而消除误差累计⑰。
任务构建与训练细节⑨、在Nexus-Gen工作之前❸,没有看到过在统一的理解⑱、生成和编辑任务上做训练的先例④。所以魔搭团队首先从工程上❶,探索使用类messages格式来定义所有任务的数据格式⑧。如下图所示⑫。
之后⑦,团队从开源社区收集了约25M训练数据并转化为以上统一的格式③,其中⑫,图像理解数据6M⑫,图像生成数据12M▓,图像编辑数据7M⑰。
部分数据使用Qwen-VL-max API进行了重新标注❸。其中⑦,图像编辑数据包含了团队在ModelScope社区最新开源的⑤,图像编辑数据集系列ImagePulse③。
这一系列数据集中⑰,针对GPT-4o不同的图像编辑能力⑨,包含了添加❸、去除⑩、改变⑫、风格迁移等原子能力而生成的⑪,大约1M高质量样本⑩。
此外后续团队也会将其他在训练过程中使用到的全部数据③,都进行开源⑳。
由于Nexus-Gen将图像特征统一在Vision Encoder的高维空间中⑳,因此自回归模型部分和扩散模型部分可以分开训练▓。
自回归模型使用魔搭开源的SWIFT框架训练⑩,扩散模型则使用了魔搭的DiffSynth-Studio框架训练⑩。下表详细描述了训练过程的细节⑯。
自回归模型采用了三阶段训练策略①,前两个阶段逐步将图像生成和图像编辑能力嵌入语言模型中❸,最后一个阶段则采用少量高质量数据来提升模型生图质量⑫。
扩散模型的训练目标是将输入条件由原本文本输入调整为图像Embedding输入⑩,采用单阶段训练策略③。
Nexus-Gen 功能展示
Nexus同时具备图像理解⑭、生成和编辑能力③,以下是每个能力的可视化案例⑯。
图像理解
图像生成
图像编辑
未来展望▓、在模型融合训练⑲、图像Token数量提升▓、ScaleUp数据集和模型大小等等方面⑭,Nexus-Gen依然存在着大量的优化潜力④,目前ModelScope团队在这些不同方向⑧,还在进行更深入的探索②。
Nexus-Gen的诞生⑰,验证了从SOTA的MLLMs和扩散模型出发⑮,来对齐以GPT-4o为代表的闭源SOTA的可能性⑰。其效果与GPT-4o具备许多共同点❷,比如图像编辑会导致原图部分变化❶、可以文本润色进行多样化图像生成等⑰;团队也发现了许多OpenAI团队没有揭露的现象①,比如图像编辑能力极大受益于图像生成▓,统一模型使多prompt编辑❶、故事性编辑成为可能等等①。
ModelScope社区会持续将探索过程的模型权重⑱、训练数据以及工程框架全部开源②,欢迎社区对Nexus-Gen和All-to-All统一模型的技术未来进行广泛交流⑰。
论文链接:https://arxiv.org/pdf/2504.21356代码链接:https://github.com/modelscope/Nexus-Gen模型链接:https://www.modelscope.cn/models/DiffSynth-Studio/Nexus-Gen数据集链接:https://www.modelscope.cn/collections/ImagePulse----tulvmaidong-7c3b8283a43e40
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可⑦,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐②,非常欢迎各位朋友分享到个人站长或者朋友圈④,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”⑲。
很赞哦⑲!
相关文章
随机图文
小米SU7质量排名引争议
记者采访了解到⑫,相关省份积极开展抗旱工作⑨,通过调度水源⑲、抗旱喷防▓、旱播育秧等方式⑲,最大限度减小灾害损失⑮,助力农业稳产丰收⑫。范戴克谈阿诺德被嘘:他已做出决定⑧;很遗憾不能和他继续踢球
加大放宽市场准入试点力度❶,试行特种设备安全沙盒监管制度……面对新业态新模式⑤,相关部门正推进包容审慎监管⑫,给经营主体以更大发展空间⑫。各地各部门要以更加优渥的环境⑧、健全的制度④、精心的服务③,千方百计促进各类屏幕大厂跨界做笔记本⑧!惠科首发产品翻车❷,5199元被网友群嘲了
保姆级问界m8音响调节⑤,赶紧给你的爱车提升音质吧①!#鸿蒙智行 #问界m8 #问界m8音响 #问界m8汽车 #问界m8功能土耳其总统:支持俄乌和谈⑰,土愿提供全面支持
外头的雨又大了点❸,门外新来的患者撑着伞站在小门廊下静静等候⑳。湿润的空气中⑭,一根根银针正在一双双有经验的手里“穿针引气”③。几千年来中医治病的路径⑦,从脉诊⑦、经络⑯、气血⑤,到穴位下针❸、推拿理气②,如今跨越万里②,“胖都来”创始人:名字可以换 征求网友建议
特别声明:以上文章内容仅代表作者本人观点❸,不代表新浪网观点或立场⑯。如有关于作品内容⑰、版权或其它问题请于作品发表后的30日内与新浪网联系⑦。燃爆了⑱!举重亚锦赛广西健儿刷新世界纪录
刷到王中磊给老婆庆生的视频了❷。海信Vidda因发布争议文案被判商业诋毁:刊登声明消除影响
广泛汇聚国际科技资源⑳。来自新加坡❸、捷克❷、韩国的多家企业带来了人工智能大模型⑰、生物医药⑦、智能制造等领域的科技产品❶,在北京科博会寻找新的合作机会⑦。阿斯利康⑦、赛诺菲⑰、京港地铁③、德勤等多家世界500强企业展示巴特勒季后赛5大封神战:56分屠鹿造黑八 总决赛40+三双压詹皇
2020年⑬,吉林省档案馆正式公布杨靖宇殉国前百日战斗档案⑲,真实记录了杨靖宇牺牲前100余天率部与日伪军警进行的47次战斗历程⑯。“为了讲好这堂课⑳,我们深入挖掘原始性⑲、权威性⑦、真实性的档案文献资料❸,依托形