您现在的位置是:网站首页> 电竞电竞
电玩城对战游戏推荐
姚冰彤 2025-05-11 【电竞】 5912 人已围观
2025年5月③,混元团队发布了一项重要研究成果——"HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation"⑥。这项研究发表于arXiv预印本平台⑬,代表了视频生成领域的一次重要突破⑳,所有代码和模型均已在官方网站https://hunyuancustom.github.io上公开⑧。
一②、为什么我们需要"定制化"视频生成⑤?
想象你是一名广告制作人⑦,急需为新产品拍摄一段广告片⑲。传统方式需要花费大量时间和金钱聘请演员⑥、租用摄影棚❷、购买昂贵的设备❶。而如今的AI视频生成技术虽然已经取得了长足进步⑨,却仍然面临着一个关键问题:如何让生成的视频更精准地满足我们的需求⑯?
这就像是一位厨师①,他可以做出美味的菜肴⑰,但却无法精确控制菜肴的每个细节——比如咸淡⑤、辣度⑰、口感等⑭。现有的视频生成模型就像这样的厨师⑨,虽然能制作出视频⑮,却难以精确控制视频中的细节⑮,特别是当你希望视频中出现特定人物或物体时⑯。
混元团队的这项研究正是致力于解决这一难题⑥。他们开发的HunyuanCustom系统⑤,就像是一位能够根据你的精确要求调整每个细节的大厨❷,可以根据你提供的图片①、音频⑰、视频片段和文字描述⑬,生成一个既符合你要求又保持角色一致性的定制化视频❶。
二⑱、HunyuanCustom模型的"魔力"是什么④?
HunyuanCustom的核心魔力在于它能够同时处理多种不同类型的信息⑫,并将它们融合在一起▓,生成高质量且主体一致的视频⑳。这有点像一个多才多艺的导演⑯,他能够同时理解剧本⑦、演员特点⑯、音乐情绪和背景场景⑩,并将它们和谐地融合在一起⑧,拍摄出一部完美的电影⑳。
具体来说⑮,这个"多才多艺的导演"有以下几个过人之处:
首先⑲,HunyuanCustom能够通过一种基于LLaVA的文本-图像融合模块⑳,实现文字和图像之间的互动理解⑭。想象一下⑯,当你向一个普通人展示一张猫的照片❶,并告诉他"制作一个这只猫在海滩上玩耍的视频"④,这个人需要同时理解照片中猫的特征以及文字描述中的场景要求⑭。HunyuanCustom就是通过这个模块实现类似的理解能力❶。
其次▓,研究团队设计了一个图像ID增强模块▓,它能够将图像信息沿着时间轴进行连接⑭,利用视频模型在时间序列信息传输方面的效率⑫,有效加强视频中ID的一致性▓。这就好比导演确保整部电影中同一个演员的妆容⑲、服饰和表演风格保持一致③,不会突然改变⑦。
第三②,为了实现音频驱动的视频定制①,团队提出了AudioNet模块❶,它通过空间交叉注意力机制实现分层对齐❶,使生成的视频能够与输入的音频完美同步⑤。这就像是确保演员的口型和动作与配音完美匹配⑲,使整个表演看起来自然流畅⑰。
最后❷,对于视频驱动的视频定制⑮,HunyuanCustom设计了一个视频条件注入模块⑳,通过基于块分割的特征对齐网络⑲,集成经过潜在压缩的条件视频⑲。这就像是将一段现有的视频重新演绎⑩,保留其动作和场景⑦,但替换其中的主角或物体①。
三❶、创新性的数据处理:做好"原料"准备
在烹饪中⑱,原料的质量决定了最终菜肴的味道❷。同样⑰,在AI模型训练中③,数据的质量也直接影响模型的表现⑦。HunyuanCustom团队非常重视数据处理❶,设计了一套严格的数据处理流程⑳。
他们的数据来源多种多样②,包括自己收集的数据和开源数据集❸。为了确保数据质量▓,团队进行了多重筛选和处理:
首先③,他们使用PySceneDetect工具将原始视频分割成单个镜头片段⑯,避免视频中出现镜头转换⑰,就像厨师会仔细挑选每一种食材⑧,确保没有任何瑕疵⑬。
接着⑦,他们运用textbpn-plus-plus技术过滤掉含有大量文字的视频片段⑭,并裁剪含有字幕▓、水印和标志的视频⑯,就像厨师会去除食材中不需要的部分④,只保留最精华的部分⑥。
考虑到视频大小和时长的不均匀分布❶,团队进行了裁剪和对齐处理⑮,将短边标准化为512或720像素⑧,视频长度限制为5秒⑱,这就像是将食材切成统一大小⑥,以便烹饪时受热均匀⑭。
为了确保美学质量⑲、运动幅度和场景亮度⑤,团队使用koala-36M模型进行进一步精细筛选⑪,设定了特定于其数据集的阈值为0.06③,就像厨师会对食材进行最后一轮检查⑤,确保只有最优质的食材才能用于烹饪⑨。
在提取主体方面⑱,团队设计了专门的算法:对于人物主体⑧,他们使用Qwen7B模型标记视频中的所有主体并提取其ID⑨,然后采用YOLO11X进行人体分割获取边界框❸,同时使用InsightFace检测面部位置⑫。对于非人物主体❸,他们利用QwenVL从视频中提取主体关键词⑪,并使用GroundingSAM2生成掩码和边界框⑯。
对于音频数据处理⑳,团队使用LatentSync评估音频和视频之间的同步性⑯,丢弃同步置信度低于3分的视频▓,并将音视频偏移调整为零❷。同时⑩,他们计算hyperIQA质量分数⑫,移除得分低于40的视频①,以确保数据的高质量③。
这一系列精心设计的数据处理步骤❷,就像厨师在烹饪前的详细准备工作❶,为后续的模型训练奠定了坚实基础①。
四⑪、HunyuanCustom如何实现图像驱动的视频定制⑳?
图像驱动的视频定制是HunyuanCustom的核心功能⑳,就像是根据一张照片将静态人物"带入生活"⑯,让他们在视频中活动起来⑲。这个过程可以比作一位画家将静态的肖像画转变为一部生动的动画电影⑩。
在这个过程中⑥,HunyuanCustom需要解决两个关键问题:一是如何理解图像中人物或物体的特征和身份信息⑰;二是如何将这些特征保持一致地呈现在生成的视频中⑰。
为了解决第一个问题⑤,HunyuanCustom采用了基于LLaVA的文本-图像交互模块⑳。这个模块就像是一个能同时理解视觉和语言的翻译官⑭,可以将图像中的视觉信息与文本描述进行有效融合⑧。
具体来说⑮,当给定一段文本输入T和一个图像输入I⑰,HunyuanCustom设计了一个模板来促进文本和图像之间的交互②。研究团队探索了两种模板:一种是图像嵌入模板⑰,将文本中的描述词TI替换为图像标记⑭;另一种是图像附加模板⑧,通过添加身份提示"The TI looks like "将图像标记放在文本提示之后②。
处理后⑨,图像标记被LLaVA提取的24×24图像隐藏特征所替代⑯。由于图像特征标记明显长于文本特征标记❷,为了防止图像特征过度影响文本理解⑮,研究团队在文本提示和图像提示之间插入了一个特殊标记❷,这有助于LLaVA模型保留文本提示中的信息⑦,同时建立起文本提示和图像身份之间的联系⑰。
然而⑥,LLaVA模型作为多模态理解框架⑧,主要捕捉文本和图像之间的相关性①,提取类别⑳、颜色和形状等高级语义信息⑩,往往忽略文本和纹理等更细微的细节⑰。在视频定制中⑰,身份很大程度上由这些图像细节决定⑤,因此仅依靠LLaVA分支不足以保持身份一致性▓。
为了解决这个问题⑳,研究团队提出了一个身份增强模块⑩。通过将视频潜在表示与目标图像沿时间轴连接▓,并利用视频模型在时间维度上高效的信息传输能力④,可以有效增强视频的身份一致性⑯。
具体来说③,他们首先将图像调整为与视频帧大小相匹配⑫,然后使用预训练的因果3DVAE将图像I从图像空间映射到潜在空间⑯。有了图像潜在表示zI和噪声视频潜在表示zt⑬,他们沿第一个序列维度连接它们⑫,得到一个新的潜在表示z = {zI, zt}⑰。利用预训练的Hunyuan视频在时间序列建模方面的强大先验⑲,身份可以沿着时间轴高效传播⑯。
对于多主体定制⑨,HunyuanCustom基于训练好的单主体定制模型⑩,进一步微调以适应多主体定制任务⑭。当有多个条件图像{I1, I2, ..., Im}⑦,每个图像都有对应的文本描述{TI,1, TI,2, ..., TI,m}时⑱,对于每个图像③,它们会被模板化为"the TI,k looks like "①,并使用LLaVA模型建模文本-图像相关性❷。此外⑫,为了增强图像身份❷,所有图像都被编码到潜在空间以获得图像潜在表示{zI,1, zI,2, ..., zI,m}⑤,然后与视频潜在表示连接⑳。为了区分不同的身份图像❷,第k个图像被分配一个时间索引-k⑰,这与3D-RoPE相关联⑥。
通过这种方法④,HunyuanCustom能够生成既符合文本描述又保持图像身份一致性的视频⑳,就像是一位能够根据照片和剧本精确还原人物特征和故事情节的导演①。
五⑯、多模态视频生成:音频与视频的魔力融合
除了基于图像的视频定制外⑬,HunyuanCustom还可以接受音频和视频作为输入条件⑮,实现更丰富的创作可能性②。这就像是一位不仅能看懂剧本和照片⑬,还能根据音乐和视频片段创作的全能导演⑮。
在音频驱动的视频定制方面⑫,传统的音频驱动人类动画方法通常使用人物图像和音频作为输入⑱,使图像中的角色说出相应的语音⑫。然而⑦,这种图像到视频的范式会导致生成的视频中人物的姿势①、服装和环境与输入图像保持一致⑪,限制了在不同姿势①、服装和环境中生成目标角色视频的能力⑮。
HunyuanCustom通过有效捕捉和维护角色身份信息⑯,进一步整合音频输入⑨,实现了更灵活和可控的语音驱动数字人生成⑩。具体来说⑲,给定一个人物图像▓、一段文本提示和相应的音频❶,系统可以生成一个视频⑱,其中角色在文本描述的场景中与音频同步说话⑳、演奏或唱歌▓。
为了有效解耦音频信号和身份信息③,HunyuanCustom提出了身份解耦AudioNet⑪。考虑到身份信息主要通过文本模态和沿潜在时间维度的标记连接注入⑱,AudioNet采用了一种替代条件机制▓,避免与身份线索纠缠⑨。
具体而言❶,给定一个f'帧的音视频序列⑩,首先为每个音频帧提取音频特征⑭,得到大小为f'×4×c的张量⑥,其中4表示每个音频帧的标记数量❸。由于视频潜在表示通过VAE在时间上被压缩为f帧⑬,包含身份图像的ID增强视频潜在表示包含f+1帧⑱。为了在时间上对齐音频特征与压缩的视频潜在表示①,首先在初始帧之前填充音频特征以匹配×4帧⑲,然后将每4个连续的音频帧聚合为单个帧⑯,形成一个在时间上与视频潜在表示对齐的新音频特征张量fA③。
有了时间对齐的音频特征fA⑯,HunyuanCustom使用交叉注意力模块将音频信息注入视频潜在表示zt⑫。为了防止不同帧的音频和视频之间的帧间干扰⑬,它采用了一种空间交叉注意力机制❶,在逐帧的基础上执行音频注入①。
在视频驱动的视频定制方面⑮,视频编辑是一项基本任务❸,通常涉及修改视频中主体的外观和动作⑲。HunyuanCustom利用其强大的主体一致性⑩,支持主体级编辑⑮,如替换和插入③。
视频包含丰富的时空信息❷,这在有效内容提取和高效集成到生成模型方面都带来了挑战⑳。现有方法④,如VACE⑬,通过适配器模块注入视频条件▓,这会使计算成本加倍③,严重限制效率⑮。其他方法将条件视频和生成视频的潜在表示沿时间轴连接⑧,导致序列长度加倍⑱,注意力计算呈二次增长⑰。
为克服这些限制▓,HunyuanCustom采用了更高效的视频条件注入策略▓,解耦视频信息与图像和音频模态⑱。具体而言⑬,它首先使用预训练的因果3D-VAE压缩条件视频❷,通过特征对齐将结果特征与噪声视频潜在表示对齐③,然后直接将对齐的特征添加到视频潜在表示中④,实现高效⑩、有效的视频条件整合④,而不会产生显着的计算开销▓。
这些创新使HunyuanCustom能够生成既符合音频或视频条件⑦,又保持图像身份一致性的视频⑬,扩展了视频定制的应用范围和灵活性⑥。
六②、实验结果:HunyuanCustom表现如何⑩?
为了评估HunyuanCustom的性能⑪,研究团队进行了广泛的实验❷,比较了它与现有的最先进视频定制方法②。这些实验就像是一场大型厨艺比赛③,各路大厨需要根据相同的要求制作美味佳肴⑯,然后由专业评委评判成果▓。
在单主体视频定制方面②,HunyuanCustom与商业产品以及开源方法进行了比较⑲。实验结果表明⑰,HunyuanCustom在ID一致性和主体相似性方面均取得最佳成绩⑧,同时在提示遵循和时间一致性方面取得了可比的结果⑯。
具体来说⑭,在Face-Sim指标上❶,HunyuanCustom得分为0.627⑤,远高于第二名Hailuo的0.526⑳;在DINO-Sim指标上⑨,HunyuanCustom得分为0.593⑲,也明显优于其他方法❸。这表明HunyuanCustom在保持视频中人物或物体的身份一致性方面表现出色⑪。
在多主体视频定制实验中❶,研究团队将HunyuanCustom与领先的多主体视频定制方法进行了比较⑱。结果显示⑳,Pika可以生成指定的主体⑤,但视频帧不稳定①,有时男性会消失或女性无法按提示打开门④;Vidu和VACE部分捕捉人类身份但丢失了非人类物体的细节❷;SkyReels A2在右侧场景中经历了严重的帧不稳定性⑥,薯片有明显变化且存在许多伪影❶。相比之下⑤,HunyuanCustom有效捕捉了人类和非人类主体身份⑬,生成的视频遵循给定提示④,并保持了高视觉质量和稳定性❸。
基于其强大的身份保持和多模态控制能力⑮,HunyuanCustom在虚拟人类广告③、虚拟试穿和精细视频编辑等实际应用中表现出巨大潜力⑦。例如⑪,在虚拟人类广告应用中⑲,HunyuanCustom可以接受人物图像和产品图像作为输入❶,生成相应的广告视频②,其中人物的身份得到有效维护⑫,同时保留了目标产品的细节⑧,包括其上的文字⑱。此外❸,人物与产品之间的互动看起来自然⑲,视频紧密遵循给定的提示⑦,表明HunyuanCustom在生成广告视频方面具有显着潜力⑧。
在音频驱动的视频定制实验中⑭,HunyuanCustom展示了生成符合音频和文本条件的视频的能力❶,同时保持角色身份一致性⑨。生成的视频紧密遵循给定的提示④,同时保持角色身份不变②。它能够与其他主体进行有效互动⑤,这可以显着增强其在直播和广告方面的应用▓。此外⑦,它可以生成具有多样场景和姿势的视频⑱,例如设定在明朝的视频❶,角色自动穿着符合时期的服装❶,无需明确提示▓,以及展示与输入图像不同的生动⑲、逼真表情的女性❶。这表明HunyuanCustom具有强大的世界建模和泛化能力⑳。
综合来看⑱,这些实验结果证明了HunyuanCustom在生成高质量③、身份一致的视频方面的卓越性能⑨,无论是单主体还是多主体场景①,以及在音频和视频驱动的视频定制任务中⑮。
七⑨、模型结构的秘密:设计选择的智慧
HunyuanCustom的卓越性能不仅仅来自于其使用的数据和训练方法⑫,还源于其精心设计的模型结构⑳。通过消融研究③,研究团队深入探究了HunyuanCustom各组件的作用⑱,就像是拆解一台精密机器以了解其内部运作原理③。
研究团队进行了多项消融实验⑩,比较了三个简化版本的模型:没有LLaVA的模型⑪;没有身份增强的模型⑪;使用通道级连接而非时间连接进行身份增强的模型❶。
结果表明❸,没有LLaVA的模型表现出较差的身份保持能力⑤,这表明LLaVA不仅传递提示信息⑱,还提取关键的身份特征⑨。没有LLaVA的模型无法捕捉目标图像中的任何显着细节▓。此外⑦,有LLaVA但缺乏身份增强的模型能够捕捉全局身份信息⑲,但错过了详细的身份特征⑥,表明身份增强模块在细化身份细节方面的有效性⑥。
最后⑭,使用通道连接代替时间连接的模型展示了较差的生成质量⑥。虽然它能很好地捕捉身份⑩,但在初始帧中存在严重的模糊效果②,类似于Vidu的结果❶。这表明时间连接有助于通过强大的时间建模先验有效捕捉目标信息①,同时最小化对生成质量的影响⑭。
总的来说⑥,HunyuanCustom成功捕捉了全局和局部身份细节⑪,同时确保了高生成质量⑨,这突显了设计选择的有效性❶。
八⑲、结语:迈向更广阔的视频定制未来
在这项研究中⑧,混元团队提出了HunyuanCustom▓,一种新颖的多模态定制视频生成模型❶,解决了主体一致性视频生成的关键挑战⑯,并支持多模态身份中心的视频定制⑨。通过结合图像⑮、音频和视频模态与文本驱动的条件机制⑬,HunyuanCustom提供了一个强大的框架⑥,可以生成具有精确身份一致性的高质量视频⑯。
HunyuanCustom的集成文本-图像融合模块⑭、图像ID增强模块⑤,以及高效的音频和视频特征注入过程⑯,确保生成的视频符合用户的特定要求⑧,实现了高保真度和灵活性的双重目标❷。通过广泛的实验⑭,研究团队证明了HunyuanCustom在各种任务中的卓越性能❷,包括单主体和多主体生成❸、音频驱动和视频驱动的视频定制⑮。
结果显示HunyuanCustom在ID一致性⑩、真实性和视频-文本对齐方面优于现有方法⑥,为可控视频定制提供了领先解决方案▓。这项工作为可控视频生成领域的未来研究铺平了道路③,进一步扩展了人工智能生成内容在创意产业和其他领域的潜在应用③。
随着技术的不断进步⑫,我们可以期待更多令人兴奋的应用场景:从个性化广告制作⑩、虚拟角色创建到电影制作中的特效生成⑫,HunyuanCustom这类技术将极大地改变创意内容生产的方式⑯,让更多创意不再受限于技术和成本的束缚⑤。
对于那些对HunyuanCustom技术细节感兴趣的读者⑬,可以访问项目官方网站https://hunyuancustom.github.io①,获取完整的代码和模型资源①,亲自体验这一突破性技术的魅力⑩。
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可⑳,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐⑨,非常欢迎各位朋友分享到个人站长或者朋友圈⑪,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”⑩。
很赞哦⑲!
相关文章
随机图文
😅掘金加时险胜雷霆后美湖蜜乱入:没碰到我湖 算你们走运
在上半场⑮,你似乎对尼古拉斯-冈萨雷斯的表现不太满意④。然后你换下了刚上场的孔塞桑和阿季奇⑬,让弗拉霍维奇和加蒂出场⑫,你是出于对高空球的考虑吗⑩?👏🏻比肩乔詹⑰!米切尔系列赛前3场场均40+ NBA近40年来第3人
一个引发最多讨论的问题是围绕阿隆索在勒沃库森的三中卫体系③,这种战术布局近年来在皇马几乎没有先例⑭。邮报:特罗萨德再次考虑去沙特②,认为这是生涯最后一份大合同
乡政府介入处理④、酒店火灾没造成人员伤亡⑳,“平常都是去检查的”特朗普:对华145%关税势必要下调⑪,会与中国建立良好关系⑬!美股震荡❶,国际油价⑤、金价齐涨⑪!关税比商品还贵❷,美企业主很忧心……
市场多元化布局也在对冲关税的冲击⑯。通过深化与共建“一带一路”国家和新兴市场的合作⑪,也有效分散了对美市场的依赖▓。对美出口占比已经降到了15%以下⑳,东盟▓、非洲③、拉丁美洲等新兴市场贡献了超过60%的增量⑱。中吉祥航空造车成了①!435km续航新车卖14.78万①,真会有人买⑱?
这些AI产品在深度思考后给出的答案总是不尽如人意①,问题的核心就在于——「搜商」不足⑦。吴说每日精选加密新闻 + 吴说每周精选:新闻Top10与热门文章
欧洲大部分湖泊⑱、北美五大湖③、青藏高原众多湖泊阿斯:皇马今夏在美国五城市举办选拔赛④,富勒姆名宿邓普西任导师
特别声明:以上文章内容仅代表作者本人观点③,不代表新浪网观点或立场❶。如有关于作品内容⑧、版权或其它问题请于作品发表后的30日内与新浪网联系⑯。泰晤士报:小贝林是首要目标⑥,多特相信2500万镑可完成交易
互联网新闻信息服务许可证广播电视节目制作经营许可证字第172号