近日,科技媒体MarkTechPost报道称,苹果公司与复旦大学达成合作,共同推出了StreamBridge端侧视频大语言模型框架,该技术专为实时流视频理解设计。
直播流视频理解的技术挑战
传统的大语言模型在处理静态视频方面表现优异,但在动态实时场景如机器人控制和自动驾驶等应用中存在明显局限。这些场景要求AI系统能够实时感知并快速响应视频流内容。
目前的技术主要面临两大难题:一是如何实现多轮连续理解,即在处理当前视频片段时保持对历史视觉信息和对话上下文的记忆;二是如何让模型具备主动响应能力,能够在无需明确指令的情况下实时反馈相关信息。
StreamBridge框架的技术突破
针对上述挑战,苹果与复旦的研究团队开发了创新的StreamBridge框架。该框架采用了内存缓冲区机制和轮次衰减压缩策略,有效解决了长上下文交互的技术难题。
此外,StreamBridge还引入了轻量化独立激活模型,实现了现有视频大语言模型的无缝集成。研究团队同时开发了Stream-IT数据集,该数据集包含约60万个样本,整合了视频与文本序列信息,并支持多种指令格式,为流式视频理解提供了高质量的训练资源。
在测试中,StreamBridge框架针对主流离线模型(如LLaVA-OV-7B、Qwen2-VL-7B和Oryx-1.5-7B)进行了优化适配。结果显示:Qwen2-VL在OVO-Bench和Streaming-Bench上的平均分分别提升至71.30和77.04,超越了GPT-4o和Gemini 1.5 Pro等专业模型的表现。
实验还显示,Oryx-1.5性能获得显著提升,而LLaVA-OV的性能则略有下降。值得注意的是,使用Stream-IT数据集进行微调后,所有模型的表现均得到明显改善,充分证明了StreamBridge在流式视频理解领域的技术潜力。
参考文献
-
StreamBridge: 转化您的离线视频大语言模型为专业的流媒体助手