苹果携手复旦大学推出StreamBridge端侧视频大语言模型框架,支持AI实时响应视频流

AI资讯1个月前发布 ainav
22 0

近日,科技媒体MarkTechPost报道称,苹果公司与复旦大学达成合作,共同推出了StreamBridge端侧视频大语言模型框架,该技术专为实时流视频理解设计。

直播流视频理解的技术挑战

传统的大语言模型在处理静态视频方面表现优异,但在动态实时场景如机器人控制和自动驾驶等应用中存在明显局限。这些场景要求AI系统能够实时感知并快速响应视频流内容。

目前的技术主要面临两大难题:一是如何实现多轮连续理解,即在处理当前视频片段时保持对历史视觉信息和对话上下文的记忆;二是如何让模型具备主动响应能力,能够在无需明确指令的情况下实时反馈相关信息。

StreamBridge框架的技术突破

针对上述挑战,苹果与复旦的研究团队开发了创新的StreamBridge框架。该框架采用了内存缓冲区机制轮次衰减压缩策略,有效解决了长上下文交互的技术难题。

苹果携手复旦大学推出StreamBridge端侧视频大语言模型框架,支持AI实时响应视频流

此外,StreamBridge还引入了轻量化独立激活模型,实现了现有视频大语言模型的无缝集成。研究团队同时开发了Stream-IT数据集,该数据集包含约60万个样本,整合了视频与文本序列信息,并支持多种指令格式,为流式视频理解提供了高质量的训练资源。

在测试中,StreamBridge框架针对主流离线模型(如LLaVA-OV-7B、Qwen2-VL-7B和Oryx-1.5-7B)进行了优化适配。结果显示:Qwen2-VLOVO-BenchStreaming-Bench上的平均分分别提升至71.30和77.04,超越了GPT-4o和Gemini 1.5 Pro等专业模型的表现。

实验还显示,Oryx-1.5性能获得显著提升,而LLaVA-OV的性能则略有下降。值得注意的是,使用Stream-IT数据集进行微调后,所有模型的表现均得到明显改善,充分证明了StreamBridge在流式视频理解领域的技术潜力。

参考文献

  • StreamBridge: 转化您的离线视频大语言模型为专业的流媒体助手

© 版权声明

相关文章