您现在的位置是：网站首页>汽车汽车

电玩城狮子熊猫

崔幻珊 2025-05-14 【汽车】 6444 人已围观

IT之家 5 月 13 日消息⑩，科技媒体 marktechpost 今天发布博文⑲，报道称苹果公司联合复旦大学❷，推出 StreamBridge 端侧视频大语言模型框架⑨，助力 AI 理解直播流视频▓。

直播流视频理解的挑战与需求

传统视频大语言模型擅长处理静态视频⑱，但无法适应机器人技术和自动驾驶等需要实时感知的场景⑲，在这些场景下⑲，要求模型能快速理解直播视频流内容⑩，并做出反应⑧。

现有的模型面临两大难题：一是多轮实时理解❶，即在处理最新视频片段时需保留历史视觉和对话上下文❸；二是主动响应⑨，要求模型像人类一样主动监控视频流⑮，并在无明确指令的情况下及时输出反馈▓。

StreamBridge 框架与创新技术

为解决上述问题⑤，苹果公司与复旦大学的研究者开发了 StreamBridge 框架⑮。该框架通过内存缓冲区和轮次衰减压缩策略⑳，支持长上下文交互⑥。

该框架还引入了一个轻量化的独立激活模型▓，无缝集成现有视频大语言模型⑪，实现主动响应功能❷。研究团队还推出了 Stream-IT 数据集⑫，包含约 60 万个样本❷，融合了视频与文本序列⑰，支持多样化的指令格式❸，旨在提升流式视频理解能力⑱。

StreamBridge 在主流离线模型如 LLaVA-OV-7B⑲、Qwen2-VL-7B 和 Oryx-1.5-7B 上进行了测试⑳。结果显示❸，Qwen2-VL 在 OVO-Bench 和 Streaming-Bench 上的平均分分别提升至 71.30 和 77.04⑪，超越了 GPT-4o 和 Gemini 1.5 Pro 等专有模型⑬。

Oryx-1.5 也取得了显着进步❶，而 LLaVA-OV 性能略有下降⑨。Stream-IT 数据集的微调进一步提升了所有模型的表现⑱，证明了 StreamBridge 在流式视频理解领域的强大潜力⑳。

IT之家附上参考地址

很赞哦⑰！

上一篇：第三节39-17打崩勇士⑨！森林狼单节净胜22分创队史纪录⑦！

下一篇：阿维塔起诉自媒体“苏黎世贝勒爷” 索赔1000万元⑦！风阻系数被指造假阿维塔公开测试“自证” 这一参数说明了什么①？