您现在的位置是:网站首页>汽车汽车
超级电玩城内置菜单
许飞风 2025-05-13 【汽车】 0614 人已围观
该工作第一作者为中国人民大学高瓴人工智能学院硕士生程传奇⑱,目前于蚂蚁技术研究院实习⑱,其主要研究领域为多模态大模型④,蚂蚁技术研究院副研究员关健为共同第一作者❶。
在视觉语言模型取得突破性进展的当下⑭,长视频理解的挑战显得愈发重要⑫。以标准 24 帧率的标清视频为例▓,仅需数分钟即可产生逾百万的视觉 token⑬,这已远超主流大语言模型 4K-128K 的上下文处理极限②。当面对影视级的长视频内容时⑥,传统解决方案的不足愈加凸显:粗放式的帧采样策略往往造成关键帧信息遗漏⑰,而特征融合方法虽能降低数据维度⑦,却不可避免地导致语义完整性受损⑯。
近日▓,蚂蚁和人大的研究团队带来了一个创新性的解决方案③。他们提出视觉语言大模型ViLAMP⑥,实现了对超长视频的高效处理⑦。这个方法的核心在于其独特的 “混合精度” 策略:对视频中的关键内容保持高精度分析⑦,而对次要内容进行强力压缩⑮,就像人类在观看视频时会重点关注关键场景⑳,而对过渡时空信息只做快速扫描一样❷。
论文标题:Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation
论文地址:https://arxiv.org/abs/2504.02438
实验结果令人振奋:ViLAMP 在 Video-MME 等五个主流视频理解基准上全面超越现有方案⑤,特别是在处理长视频时展现出显着优势⑭。更重要的是①,它可以在单张 A100 GPU 上连续处理长达 1 万帧的视频内容⑫,同时保持稳定的理解准确率⑦。这一突破不仅大大提升了视频处理效率▓,更为在线教育⑫、视频监控⑲、直播分析等实际应用场景带来了新的可能❷。相关论文已被 ICML 2025 接收⑫。
横轴:处理的视频帧数⑪,纵轴: GPU 内存使用量⑥。测试在单块 NVIDIA A100 GPU 上进行⑱。
VideoNIAH测试结果❷。横轴:视频总长度⑲;纵轴:表示目标视频在完整视频中的相对位置⑥。
视频信息在时空维度均呈现稀疏性与冗余性
为解决长视频处理的效率问题⑬,研究团队首先对主流视觉语言模型进行了系统性分析⑳,发现了视频信息在时间和空间上均存在显着的稀疏性和冗余性:
帧间注意力分析:在现有模型中⑳,用户 Query 对相应视频的注意力高度集中 ——90% 的注意力仅分布在不到 5% 的视频帧上❸。更重要的是⑧,这 5% 的关键帧之间往往存在很强的视觉相似度⑨。
帧内注意力分析:在每一帧的内部⑲,模型的注意力也展现出相似的稀疏性质 ——50% 的 patch就承载了 80% 的模型注意力②,但这些受关注的 patch 与关键帧中的对应 patch 具有远超随机基线水平的相似度⑧。
这一发现表明现有模型在处理视频时存在大量计算资源的浪费⑲。实际上⑨,处理长视频不需要对每一帧⑪、每个 patch 都投入同样的计算量⑬。基于此④,研究团队提出 “差分蒸馏原则”:识别并保留重要的视频信息⑤,同时压缩那些虽然相关但高度冗余的信息⑱。其中⑮,重要信息应该同时满足两个条件:高查询相关性:与当前用户 Query 高度相关⑲;低信息冗余性:包含独特的视频信息⑤。这一原则为后续设计高效的视频处理算法奠定了理论基础⑧。
ViLAMP: 基于差分蒸馏的双层混合精度架构
前文的注意力分析揭示了一个关键问题:现有视觉语言模型对视频中所有帧和 patch 都采用相同的处理方式⑱,导致大量计算资源的浪费⑤。基于这一认识⑨,研究团队提出了专门面向长视频处理的高效架构 ViLAMP⑱,它能够根据信息的重要程度自适应地分配计算资源❶。
ViLAMP 模型结构图
ViLAMP 通过层次化的压缩框架实现这一策略:在帧级别⑰,对重要的关键帧保留完整的视觉 token 表示❸,以捕获关键信息⑪;而对于非关键帧⑪,则采用强力压缩策略⑰;在 patch 级别①,通过差分机制增大重要 patch 的权重❸。
模型具体包含两个核心机制:
1. 差分关键帧选择⑧、为实现关键帧的高效识别⑰,ViLAMP 采用了基于贪心策略的选择算法⑲。该算法在最大化与用户 Query 的相关性的同时⑥,通过差分机制降低帧间冗余⑯,确保选中的关键帧既重要又多样化⑯。
2. 差分特征合并⑰、针对非关键帧的处理⑲,ViLAMP 创新性地通过差分加权池化❸,将每个非关键帧压缩为单个信息量最大化的 token⑧。在压缩过程中⑰,模型赋予那些与用户 Query 相关且具有独特性的 patch 较高的权重①,同时降低与相邻的关键帧有显着重复的 patch 的权重⑭,从而在大幅降低计算量的同时保留关键信息⑲。
这种双层混合精度架构既确保了模型能够准确捕获视频中的关键信息⑥,又显着降低了计算开销⑩。
突破性性能:全面超越现有方案
在五个主流视频理解基准上的实验表明:
1.ViLAMP 以 7B 参数量达到或超越了部分 70B 量级模型的表现⑬,特别是在 Video-MME 长视频子集上比现有最优模型提升 4.8%⑨。
2. 针对当前视频理解基准中视频长度不足的问题⑩,本文提出了面向视频理解场景的 “大海捞针” 任务 ——VideoNIAH⑯。该任务将一段目标短视频插入到小时级别的长视频中⑮,要求模型在不依赖先验信息的情况下④,从超长视频上下文中定位并理解该片段②,进而回答相关问题⑨。与传统基于文本的 NIAH 任务不同❸,VideoNIAH 中的答案无法直接从视频对应的文本描述中提取⑨。因此⑪,该任务本质上更具挑战性⑨,难以达到语言模型在文本 NIAH 任务中所表现出的近乎完美的准确率⑭。VideoNIAH 任务的性能上限受限于模型对目标短视频原始 QA 的理解水平⑧,进一步凸显了该任务对视频内容深层次理解能力的严格要求⑪。在这一新提出的超长视频理解基准上▓,ViLAMP 在处理包含 10K 帧的视频时仍能保持 58.15% 的准确率❷,超越 VideoChat-Flash 基线模型 12.82%①,展现出较强的长视频建模能力②。
3. 计算效率显着提升:内存消耗相比 LLaMA-VID 基线降低约 50%❷,在 8,192 帧情况下计算量减少 80% 以上⑯。
4. 深入的消融实验表明:与已有的关键帧选择方案相比⑬,DKS 在长视频场景下表现出明显优势⑲;与 Q-former 和平均池化等特征融合方案相比③,DFM 在所有数据集上都展现出 3 个百分点以上的性能优势③。
模型表现
Video-MME 排行榜
计算效率对比①、结语⑱、ViLAMP 通过创新的差分蒸馏框架成功突破了长视频处理的计算瓶颈⑲,不仅在性能上实现了飞跃⑩,更为视频理解领域提供了新的研究思路⑰。该工作的原理性贡献和实用价值将推动视频理解技术在更多实际场景中的落地应用⑬。期待未来看到更多基于此框架的创新发展⑬。
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可⑰,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐⑭,非常欢迎各位朋友分享到个人站长或者朋友圈❸,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”⑲。
很赞哦⑯!
相关文章
随机图文
【手绘海报】今天是他们的节日❸,让我们一起认识30位“上海好护士”
2008年5月12日14时28分⑥,四川汶川发生8.0级地震⑳。央视记者李小萌在汶川地震灾区《路遇》朱大爷的采访视频⑯,感动无数国人⑥。纵览热点|私人非法占地近60亩建“英之园”③,被称潮汕最牛违建私人豪宅 官方最新公告:将进行拆除
当时正值BML十周年的筹备阶段⑱,Ayu向陈睿保证他会先把BML十周年做完⑩。“BML是我整个青春⑮,我不能为自己的青春画下这么潦草的句号④,所以我一定会把它做好⑳,我一定会尽全力⑧,让自己在B站这10年不留遗憾科学家开发超声可编程药物递送平台⑩,将时间分辨率提升至3.6秒
荷兰原子与分子物理研究所的一个研究团队近日宣布❸,他们成功开发出一款独特的软体机器人⑳,它能够行走②、跳跃甚至游泳⑫,而这一切并不依赖大脑⑨、电子设备或人工智能⑪,仅靠柔软的管子❸、气流以及巧妙的物理学原理①。-
广厦G3胜北京各界说啥❷?盛赞广厦防守⑮,许利民被点⑨,苏群支招北京
↑ 5月11日⑳,山东省青岛市即墨区灵山街道“玫瑰小镇”产业园的农民在管护玫瑰花❷。新华社发 河南女子撑伞⑯、穿古装跑马拉松火出圈 曾获百公里越野赛冠军
来自于:北京⑭、权利保护声明页/Notice to Right Holders美财长举行媒体吹风会:中美都不想“脱钩”⑯,同意税率下调115%
正如业内所言⑫,「Robotaxi 要成为规模化低利润的生意⑩,必须建立在极高的运营规模之上」⑤,在运营企业达到高客载率②、高里程利用之前❸,很难跑通盈利模式⑥。记者:约克雷斯与枪手已基本达成个人协议⑫,俱乐部报价7000万欧
随着爱德华兹输球后暴怒成为常态⑭,有记者跑去追问芬奇“是否打算变阵用里德替代兰德尔打首发”⑦,美媒体The Athletic则在讨论森林狼中期转手送走兰德尔的可能性③。但芬奇和森林狼总裁康奈利拒绝做任何调整消息称荣耀 Magic V5 为今年第二台骁龙 8 Elite 大折叠旗舰手机 骁龙8elite 荣耀magicv5
当然⑨,理想和李想如今也不需要再为增程技术路线辩解什么了❶,毕竟各家新能源品牌都布局增程之后⑫,汽车媒体圈的大儒们自然也会为增程辩经①。
点击排行
