苹果新AI长视频理解夺冠，1B版本领先对手

218 0 0

8月23日，科技媒体9to5Mac发布博文宣布，苹果研究团队正式开源了其最新研发的长视频多模态大语言模型——SlowFast-LLaVA-1.5。该模型在1B、3B、7B参数规模下均实现了突破性进展，在LongVideoBench和MLVU等权威基准测试中创下新纪录。

据博文介绍，目前主流的大语言模型在处理视频内容时存在三个关键问题：

现有模型严重依赖长上下文窗口，在面对冗余帧时容易超出限制，导致信息丢失。
大多数模型需要复杂的多阶段训练流程，并且通常依赖于专有数据集，这使得复现难度较高。
现有模型往往针对视频任务进行了过度优化，却忽视了对图像理解能力的提升，影响了通用性能。

针对上述问题，苹果团队推出了创新性的SlowFast-LLaVA开源模型。该模型的核心亮点在于其独特的双流（two-stream）架构设计：其中，“慢流”采用少量高分辨率帧来捕捉场景细节，而“快流”则利用更多低分辨率帧来追踪运动变化。

在此基础上，苹果团队进一步对图像模型进行微调优化，强化了视觉推理能力，并通过联合视频与图像的训练流程，成功保留了在图像理解方面的优势。最终推出了性能更强大的SlowFast-LLaVA-1.5版本。

设计方面，SF-LLaVA-1.5将输入视频帧数固定为128帧（其中快流96帧，慢流32帧），这种设置能够兼容各类时长的视频内容。虽然可能存在遗漏关键帧或影响播放速度判断的问题，但显著降低了计算和显存需求。研究团队表示，未来计划通过引入内存优化技术（如随机反向传播）进一步改进性能，但仍需解决高显存占用的技术难题。