您现在的位置是:网站首页>中国足球中国足球
北京电玩城地址
江乐瑶 2025-05-13 【中国足球】 5569 人已围观
该工作第一作者为中国人民大学高瓴人工智能学院硕士生程传奇⑭,目前于蚂蚁技术研究院实习⑭,其主要研究领域为多模态大模型⑧,蚂蚁技术研究院副研究员关健为共同第一作者⑮。
在视觉语言模型取得突破性进展的当下⑰,长视频理解的挑战显得愈发重要⑩。以标准 24 帧率的标清视频为例⑩,仅需数分钟即可产生逾百万的视觉 token⑨,这已远超主流大语言模型 4K-128K 的上下文处理极限④。当面对影视级的长视频内容时④,传统解决方案的不足愈加凸显:粗放式的帧采样策略往往造成关键帧信息遗漏▓,而特征融合方法虽能降低数据维度⑩,却不可避免地导致语义完整性受损④。
近日⑭,蚂蚁和人大的研究团队带来了一个创新性的解决方案⑫。他们提出视觉语言大模型ViLAMP⑱,实现了对超长视频的高效处理⑪。这个方法的核心在于其独特的 “混合精度” 策略:对视频中的关键内容保持高精度分析▓,而对次要内容进行强力压缩④,就像人类在观看视频时会重点关注关键场景⑲,而对过渡时空信息只做快速扫描一样❸。
论文标题:Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation
论文地址:https://arxiv.org/abs/2504.02438
实验结果令人振奋:ViLAMP 在 Video-MME 等五个主流视频理解基准上全面超越现有方案⑬,特别是在处理长视频时展现出显着优势①。更重要的是⑧,它可以在单张 A100 GPU 上连续处理长达 1 万帧的视频内容⑯,同时保持稳定的理解准确率②。这一突破不仅大大提升了视频处理效率⑤,更为在线教育⑩、视频监控⑦、直播分析等实际应用场景带来了新的可能▓。相关论文已被 ICML 2025 接收▓。
横轴:处理的视频帧数⑪,纵轴: GPU 内存使用量④。测试在单块 NVIDIA A100 GPU 上进行❷。
VideoNIAH测试结果⑤。横轴:视频总长度⑳;纵轴:表示目标视频在完整视频中的相对位置⑲。
视频信息在时空维度均呈现稀疏性与冗余性
为解决长视频处理的效率问题⑨,研究团队首先对主流视觉语言模型进行了系统性分析❶,发现了视频信息在时间和空间上均存在显着的稀疏性和冗余性:
帧间注意力分析:在现有模型中⑧,用户 Query 对相应视频的注意力高度集中 ——90% 的注意力仅分布在不到 5% 的视频帧上⑫。更重要的是❶,这 5% 的关键帧之间往往存在很强的视觉相似度⑨。
帧内注意力分析:在每一帧的内部⑮,模型的注意力也展现出相似的稀疏性质 ——50% 的 patch就承载了 80% 的模型注意力⑤,但这些受关注的 patch 与关键帧中的对应 patch 具有远超随机基线水平的相似度⑳。
这一发现表明现有模型在处理视频时存在大量计算资源的浪费⑦。实际上⑨,处理长视频不需要对每一帧⑩、每个 patch 都投入同样的计算量⑨。基于此⑩,研究团队提出 “差分蒸馏原则”:识别并保留重要的视频信息⑨,同时压缩那些虽然相关但高度冗余的信息④。其中①,重要信息应该同时满足两个条件:高查询相关性:与当前用户 Query 高度相关②;低信息冗余性:包含独特的视频信息⑤。这一原则为后续设计高效的视频处理算法奠定了理论基础❶。
ViLAMP: 基于差分蒸馏的双层混合精度架构
前文的注意力分析揭示了一个关键问题:现有视觉语言模型对视频中所有帧和 patch 都采用相同的处理方式②,导致大量计算资源的浪费⑳。基于这一认识⑯,研究团队提出了专门面向长视频处理的高效架构 ViLAMP⑯,它能够根据信息的重要程度自适应地分配计算资源⑫。
ViLAMP 模型结构图
ViLAMP 通过层次化的压缩框架实现这一策略:在帧级别⑩,对重要的关键帧保留完整的视觉 token 表示⑧,以捕获关键信息⑯;而对于非关键帧⑦,则采用强力压缩策略⑪;在 patch 级别⑩,通过差分机制增大重要 patch 的权重⑩。
模型具体包含两个核心机制:
1. 差分关键帧选择④、为实现关键帧的高效识别⑲,ViLAMP 采用了基于贪心策略的选择算法③。该算法在最大化与用户 Query 的相关性的同时❷,通过差分机制降低帧间冗余❷,确保选中的关键帧既重要又多样化④。
2. 差分特征合并❸、针对非关键帧的处理⑧,ViLAMP 创新性地通过差分加权池化⑩,将每个非关键帧压缩为单个信息量最大化的 token⑯。在压缩过程中❶,模型赋予那些与用户 Query 相关且具有独特性的 patch 较高的权重⑬,同时降低与相邻的关键帧有显着重复的 patch 的权重⑤,从而在大幅降低计算量的同时保留关键信息⑤。
这种双层混合精度架构既确保了模型能够准确捕获视频中的关键信息⑩,又显着降低了计算开销⑳。
突破性性能:全面超越现有方案
在五个主流视频理解基准上的实验表明:
1.ViLAMP 以 7B 参数量达到或超越了部分 70B 量级模型的表现⑯,特别是在 Video-MME 长视频子集上比现有最优模型提升 4.8%⑩。
2. 针对当前视频理解基准中视频长度不足的问题❶,本文提出了面向视频理解场景的 “大海捞针” 任务 ——VideoNIAH⑭。该任务将一段目标短视频插入到小时级别的长视频中⑬,要求模型在不依赖先验信息的情况下④,从超长视频上下文中定位并理解该片段⑬,进而回答相关问题⑦。与传统基于文本的 NIAH 任务不同❶,VideoNIAH 中的答案无法直接从视频对应的文本描述中提取④。因此⑤,该任务本质上更具挑战性⑲,难以达到语言模型在文本 NIAH 任务中所表现出的近乎完美的准确率⑮。VideoNIAH 任务的性能上限受限于模型对目标短视频原始 QA 的理解水平▓,进一步凸显了该任务对视频内容深层次理解能力的严格要求▓。在这一新提出的超长视频理解基准上⑬,ViLAMP 在处理包含 10K 帧的视频时仍能保持 58.15% 的准确率②,超越 VideoChat-Flash 基线模型 12.82%①,展现出较强的长视频建模能力❷。
3. 计算效率显着提升:内存消耗相比 LLaMA-VID 基线降低约 50%❸,在 8,192 帧情况下计算量减少 80% 以上⑤。
4. 深入的消融实验表明:与已有的关键帧选择方案相比⑧,DKS 在长视频场景下表现出明显优势❶;与 Q-former 和平均池化等特征融合方案相比③,DFM 在所有数据集上都展现出 3 个百分点以上的性能优势⑰。
模型表现
Video-MME 排行榜
计算效率对比⑦、结语④、ViLAMP 通过创新的差分蒸馏框架成功突破了长视频处理的计算瓶颈⑳,不仅在性能上实现了飞跃⑮,更为视频理解领域提供了新的研究思路⑰。该工作的原理性贡献和实用价值将推动视频理解技术在更多实际场景中的落地应用▓。期待未来看到更多基于此框架的创新发展⑱。
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可⑬,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐⑥,非常欢迎各位朋友分享到个人站长或者朋友圈⑧,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”②。
很赞哦②!
相关文章
随机图文
风波升级⑦!数百名小米车主要求退车②,喊话雷军
雷达财经出品文深海⑧、财富飙至2200亿的雷军⑮,卷入多个风波❸。“过去一个多月⑯,是我创办小米以来最艰难的一段时间”⑥,5月10日③,雷军在微博留下了这样的感慨❸。对话郑永年:我们谈判也是为世界争公义
关键字 :⑲、库尼亚曼联⑱、来自于:北京⑥、权利保护声明页/Notice to Right Holders费尔明社媒庆祝胜利⑯,巴尔德留言:他们取消了你的年度最佳进球
直播吧5月12《马卡报》报道⑯,姆巴佩是1943年以来首位在西甲戴帽但输球的皇马球员⑯。内蒙古:以链式思维打造人工智能产业⑭,加大传统产业智能化改造力度
据德国天空体育记者Florian Plettenberg报道⑩,拜仁尚未与于帕梅卡诺就续约达成一致❷,双方仍在谈判⑪。中国国际警用装备博览会上的乐道L60▓、蔚来萤火虫和蔚来ES6警车版
机器之心报道⑱、递归思考 + 自我批判③,CoRT 能带来 LLM 推理力的飞跃吗⑨?一季度徐州新能源汽车零售额同比增长72.7%
伦敦地铁停电线路瘫痪⑦、新媒体实验室“红地标”带动“绿发展” ——— 娄底让红色基因成为乡村振兴的强劲引擎
❖ B12 维生素B12⑨,几乎只存在于动物产品中❷;利于神经系统功能⑪,红细胞生成以及DNA合成❶。攻防俱佳⑨,加西亚在国家德比打进一球同时保持零次被过
包括东风日产N7的氛围灯⑭,也是有着细节方面的考量⑦,采用了光瀑式设计④,支持256色自由调节⑱,见光不见灯⑭,柔和不刺眼❷。