您现在的位置是: 网站首页>财经财经
我发777耀龙电玩城孟波
姚雅绿 2025-05-13 【财经】 8261 人已围观
该工作第一作者为中国人民大学高瓴人工智能学院硕士生程传奇▓,目前于蚂蚁技术研究院实习⑮,其主要研究领域为多模态大模型⑦,蚂蚁技术研究院副研究员关健为共同第一作者②。
在视觉语言模型取得突破性进展的当下⑬,长视频理解的挑战显得愈发重要⑭。以标准 24 帧率的标清视频为例①,仅需数分钟即可产生逾百万的视觉 token⑱,这已远超主流大语言模型 4K-128K 的上下文处理极限⑲。当面对影视级的长视频内容时⑪,传统解决方案的不足愈加凸显:粗放式的帧采样策略往往造成关键帧信息遗漏⑪,而特征融合方法虽能降低数据维度④,却不可避免地导致语义完整性受损⑦。
近日⑮,蚂蚁和人大的研究团队带来了一个创新性的解决方案⑦。他们提出视觉语言大模型ViLAMP⑫,实现了对超长视频的高效处理⑥。这个方法的核心在于其独特的 “混合精度” 策略:对视频中的关键内容保持高精度分析⑤,而对次要内容进行强力压缩▓,就像人类在观看视频时会重点关注关键场景▓,而对过渡时空信息只做快速扫描一样⑯。
论文标题:Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation
论文地址:https://arxiv.org/abs/2504.02438
实验结果令人振奋:ViLAMP 在 Video-MME 等五个主流视频理解基准上全面超越现有方案①,特别是在处理长视频时展现出显着优势▓。更重要的是③,它可以在单张 A100 GPU 上连续处理长达 1 万帧的视频内容⑨,同时保持稳定的理解准确率⑫。这一突破不仅大大提升了视频处理效率⑲,更为在线教育▓、视频监控⑪、直播分析等实际应用场景带来了新的可能⑩。相关论文已被 ICML 2025 接收⑮。
横轴:处理的视频帧数④,纵轴: GPU 内存使用量③。测试在单块 NVIDIA A100 GPU 上进行⑤。
VideoNIAH测试结果④。横轴:视频总长度⑤;纵轴:表示目标视频在完整视频中的相对位置❶。
视频信息在时空维度均呈现稀疏性与冗余性
为解决长视频处理的效率问题❷,研究团队首先对主流视觉语言模型进行了系统性分析⑱,发现了视频信息在时间和空间上均存在显着的稀疏性和冗余性:
帧间注意力分析:在现有模型中④,用户 Query 对相应视频的注意力高度集中 ——90% 的注意力仅分布在不到 5% 的视频帧上①。更重要的是⑬,这 5% 的关键帧之间往往存在很强的视觉相似度⑩。
帧内注意力分析:在每一帧的内部⑰,模型的注意力也展现出相似的稀疏性质 ——50% 的 patch就承载了 80% 的模型注意力❶,但这些受关注的 patch 与关键帧中的对应 patch 具有远超随机基线水平的相似度▓。
这一发现表明现有模型在处理视频时存在大量计算资源的浪费⑧。实际上❷,处理长视频不需要对每一帧⑲、每个 patch 都投入同样的计算量⑭。基于此⑬,研究团队提出 “差分蒸馏原则”:识别并保留重要的视频信息⑮,同时压缩那些虽然相关但高度冗余的信息⑦。其中⑪,重要信息应该同时满足两个条件:高查询相关性:与当前用户 Query 高度相关⑩;低信息冗余性:包含独特的视频信息⑦。这一原则为后续设计高效的视频处理算法奠定了理论基础⑪。
ViLAMP: 基于差分蒸馏的双层混合精度架构
前文的注意力分析揭示了一个关键问题:现有视觉语言模型对视频中所有帧和 patch 都采用相同的处理方式⑰,导致大量计算资源的浪费⑪。基于这一认识❷,研究团队提出了专门面向长视频处理的高效架构 ViLAMP❶,它能够根据信息的重要程度自适应地分配计算资源⑭。
ViLAMP 模型结构图
ViLAMP 通过层次化的压缩框架实现这一策略:在帧级别⑤,对重要的关键帧保留完整的视觉 token 表示⑭,以捕获关键信息③;而对于非关键帧▓,则采用强力压缩策略⑯;在 patch 级别⑫,通过差分机制增大重要 patch 的权重❸。
模型具体包含两个核心机制:
1. 差分关键帧选择④、为实现关键帧的高效识别⑰,ViLAMP 采用了基于贪心策略的选择算法⑫。该算法在最大化与用户 Query 的相关性的同时⑪,通过差分机制降低帧间冗余③,确保选中的关键帧既重要又多样化⑩。
2. 差分特征合并⑤、针对非关键帧的处理①,ViLAMP 创新性地通过差分加权池化⑧,将每个非关键帧压缩为单个信息量最大化的 token⑮。在压缩过程中⑩,模型赋予那些与用户 Query 相关且具有独特性的 patch 较高的权重⑧,同时降低与相邻的关键帧有显着重复的 patch 的权重⑲,从而在大幅降低计算量的同时保留关键信息⑯。
这种双层混合精度架构既确保了模型能够准确捕获视频中的关键信息②,又显着降低了计算开销⑧。
突破性性能:全面超越现有方案
在五个主流视频理解基准上的实验表明:
1.ViLAMP 以 7B 参数量达到或超越了部分 70B 量级模型的表现⑫,特别是在 Video-MME 长视频子集上比现有最优模型提升 4.8%❶。
2. 针对当前视频理解基准中视频长度不足的问题⑥,本文提出了面向视频理解场景的 “大海捞针” 任务 ——VideoNIAH⑰。该任务将一段目标短视频插入到小时级别的长视频中⑰,要求模型在不依赖先验信息的情况下④,从超长视频上下文中定位并理解该片段⑪,进而回答相关问题⑫。与传统基于文本的 NIAH 任务不同⑰,VideoNIAH 中的答案无法直接从视频对应的文本描述中提取④。因此④,该任务本质上更具挑战性⑲,难以达到语言模型在文本 NIAH 任务中所表现出的近乎完美的准确率⑲。VideoNIAH 任务的性能上限受限于模型对目标短视频原始 QA 的理解水平④,进一步凸显了该任务对视频内容深层次理解能力的严格要求⑫。在这一新提出的超长视频理解基准上⑬,ViLAMP 在处理包含 10K 帧的视频时仍能保持 58.15% 的准确率❶,超越 VideoChat-Flash 基线模型 12.82%⑩,展现出较强的长视频建模能力⑱。
3. 计算效率显着提升:内存消耗相比 LLaMA-VID 基线降低约 50%⑤,在 8,192 帧情况下计算量减少 80% 以上❸。
4. 深入的消融实验表明:与已有的关键帧选择方案相比⑪,DKS 在长视频场景下表现出明显优势⑱;与 Q-former 和平均池化等特征融合方案相比②,DFM 在所有数据集上都展现出 3 个百分点以上的性能优势②。
模型表现
Video-MME 排行榜
计算效率对比⑦、结语▓、ViLAMP 通过创新的差分蒸馏框架成功突破了长视频处理的计算瓶颈⑤,不仅在性能上实现了飞跃⑩,更为视频理解领域提供了新的研究思路⑩。该工作的原理性贡献和实用价值将推动视频理解技术在更多实际场景中的落地应用⑰。期待未来看到更多基于此框架的创新发展⑯。
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可⑨,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐⑰,非常欢迎各位朋友分享到个人站长或者朋友圈⑲,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”❶。
很赞哦⑳!
相关文章
随机图文
0领先一球迷血压过高离世 赛后皇马球迷被嘲后枪击对手
北京时间5月13日⑨,2025年NBA乐透抽签仪式后⑫,ESPN 更新的模拟选秀榜单在中国球迷群体中引发热议⑪。根据此次模拟❸,16岁中锋杨瀚森首次进入视野⑤,以第 59 顺位被火箭选中▓。芬兰开发出以脂肪酸为溶剂提取银的新技术
张亚勤:虽然AI给教育带来很大变革⑪,但是它仍无法替人类老师❷。教学⑰,不仅是传授知识①,还是一种引导⑦、学习和人与人之间的交互⑦,这都是AI无法替代的⑧。但AI可以作为教师的辅助工具⑭,比如在清华❸,现在有AI助教⑧。命中率39%+23助21失误:美媒晒雷霆防约基奇一幕力挺 巴胖也辩护
当其他车企还在纠结“降价会不会伤品牌”时❸,零跑已经用销量证明:用户永远会为“诚意”买单⑱。这是我见过最漂亮的眼睛
另一个看完理想两场发布会让我想到的理想苹果两家企业相似点⑮,可能要扯得更久远一些⑦。-
AI推理模型提升快到头了⑱?研究:最快一年内将撞上天花板
与汽车行业的渊源可追溯至2017年❷,不过其直至2022年才正式入局汽车云服务行业❸。常乔雨表示⑮,除了华为因为自身业务布局可能稍早一些❸,其他几家⑱,⑱、阿里②、百度⑯,基本上都是在2021到2022年前后正式官宣 5月13日焦点图 (18)
加载中❸、阅读排行榜⑧、评论排行榜❶、牛弹琴:这张图诛心⑰,让印度破防了-
Here We Go⑧!罗马诺:65岁安切洛蒂执教巴西国家队⑦,合同已签署 卡洛·安切洛蒂
相较之下⑲,中国在能力建设方面表现突出④,64%的受访者已完成AI素养培训⑯,69%的受访者明确知晓所在机构的AI使用政策▓。 -
“我今年要拿金球奖”C罗22岁在健身房喊话拿金球⑤,最终兑现
目前⑰,内蒙古的新型储能可通过峰谷分时电价④、电力市场交易②、放电量补偿等多种方式取得收益⑮。以位于锡林郭勒盟苏尼特右旗的百利格储能电站为例⑲,2025年1月至4月⑲,该电站累计上网电量4035万千瓦时⑮,综合利用