苹果新AI长视频理解夺冠,1B版本领先对手

AI资讯3周前发布 ainav
16 0

8月23日,科技媒体9to5Mac发布博文宣布,苹果研究团队正式开源了其最新研发的长视频多模态大语言模型——SlowFast-LLaVA-1.5。该模型在1B、3B、7B参数规模下均实现了突破性进展,在LongVideoBench和MLVU等权威基准测试中创下新纪录。

据博文介绍,目前主流的大语言模型在处理视频内容时存在三个关键问题:

  • 现有模型严重依赖长上下文窗口,在面对冗余帧时容易超出限制,导致信息丢失。

  • 大多数模型需要复杂的多阶段训练流程,并且通常依赖于专有数据集,这使得复现难度较高。

  • 现有模型往往针对视频任务进行了过度优化,却忽视了对图像理解能力的提升,影响了通用性能。

针对上述问题,苹果团队推出了创新性的SlowFast-LLaVA开源模型。该模型的核心亮点在于其独特的双流(two-stream)架构设计:其中,“慢流”采用少量高分辨率帧来捕捉场景细节,而“快流”则利用更多低分辨率帧来追踪运动变化。

在此基础上,苹果团队进一步对图像模型进行微调优化,强化了视觉推理能力,并通过联合视频与图像的训练流程,成功保留了在图像理解方面的优势。最终推出了性能更强大的SlowFast-LLaVA-1.5版本。

设计方面,SF-LLaVA-1.5将输入视频帧数固定为128帧(其中快流96帧,慢流32帧),这种设置能够兼容各类时长的视频内容。虽然可能存在遗漏关键帧或影响播放速度判断的问题,但显著降低了计算和显存需求。研究团队表示,未来计划通过引入内存优化技术(如随机反向传播)进一步改进性能,但仍需解决高显存占用的技术难题。

苹果新AI长视频理解夺冠,1B版本领先对手

实验数据显示,该模型在LongVideoBench和MLVU等基准测试中均取得了显著突破,特别是在1B参数规模版本的表现甚至超越了主要竞争对手。同时,在知识问答、数学推理、OCR识别等图像相关任务上也展现出色性能,实现了视频与图像理解能力的完美结合。

苹果新AI长视频理解夺冠,1B版本领先对手

苹果新AI长视频理解夺冠,1B版本领先对手

苹果新AI长视频理解夺冠,1B版本领先对手

值得注意的是,该项目完全基于公开数据集进行训练,这使得学术界和产业界能够轻松复现研究成果。目前,该模型已在GitHub与Hugging Face平台实现开源,方便全球开发者进一步研究与应用。

© 版权声明

相关文章