上海 AI 实验室等机构发布专为长视频分析设计的多模态大型模型 —— VideoChat-Flash

AI工具2个月前发布 ainav
61 0

VideoChat-Flash指的是什么

VideoChat-Flash 是由上海人工智能实验室与南京大学等多家机构共同研发的一款专门针对长视频分析的多模态大语言模型(MLLM)。该模型利用层次化压缩技术(HiCo)来高效管理长视频内容,大幅降低了计算需求,并确保了核心信息的完整保留。此外,通过实施从短片段逐步过渡到长时间段的学习策略,并结合实际应用场景下的大规模长视频数据集 LongVid 进行训练,显著增强了其处理和理解复杂长视频的能力。

VideoChat-Flash

VideoChat-Flash的核心特性

  • 对长时间视频的解析能力VideoChat-Flash 利用分层压缩技术(HiCo),能够高效管理长时间段的视频内容,支持处理长达数小时的影片资料。在“针于草堆”(NIAH)的任务测试中,它首次实现了开源模型在大约3小时或10,000帧视频上的99.1%识别精度。
  • 高效的模型结构该模型通过将每一帧视频编码为仅包含16个标记的方式,大幅减少了计算需求,并使其推理速度达到了前一代模型的5至10倍之快。采用从较短片段逐步过渡到较长序列的学习策略,并借助大规模的真实长视频数据集LongVid进行训练,进一步优化了其性能表现。
  • 卓越的视屏解析技能VideoChat-Flash 在各类长短视频的评估指标上表现优异,不仅领先于众多开放源代码的多模态语言模型,在一些特定的任务上甚至还胜过了更为庞大的模型。
  • 跨步式情境解析VideoChat-Flash 能够处理多级 NIAH 任务,并且能够在长时间的视频内容中跟踪多种相关的图像系列,这极大地增强了其解析复杂情境的能力。

VideoChat-Flash的核心技术机制

  • 层级压缩方法(LCo)HiCo 作为 VideoChat-Flash 的一项关键创新,其目标是有效管理长视频内的重复视觉内容。
    • 段落式压缩把较长的视频切分为若干个简短的部分,并对每一部分单独实施编码处理。
    • 高质量压缩基于片段编码的技术,继续对整段视频的内容信息实施压缩,以降低所需处理的数据标记量。
    • 语义相关性提升通过分析用户的查询含义,我们可以更有效地剔除多余的视频标签,进而减轻计算负担。
  • 分步实施的学习计划VideoChat-Flash 利用涵盖短片至长片的不同阶段的学习策略,循序渐进地增强模型处理较长对话背景的能力。
    • 起步阶段通过利用带有解释的短片来进行有指导的精细调整,构建起模型的基本认知技能。
    • 发展阶段:逐渐增加长视频资料的输入,以培训模型更好地应对更加复杂的情境背景。
    • 结合多种资料进行训练:通过在结合了短片与长片的内容库中训练模型,确保其能够全面解析各种时长的视频内容。
  • 现实中的长期视频资料集合 LongVid为了促进模型训练的进步,研究小组创建了名为 LongVid 的数据集合,其中包含了超过30万小时的实际长视频内容以及两亿字的标注信息。这个庞大的数据集极大地丰富了训练资源,有助于提升模型在处理长时间视频分析方面的效能和准确性。
  • 框架设计VideoChat-Flash 的结构由三大核心组件构成:图像编译模块、视觉与文本链接器以及大型语言处理单元(LLM)。借助这一层级设计,系统能够有效地把视频信息转化为简明的标记序列,并利用 LLM 进行广泛的上下文语义分析。

VideoChat-Flash的程序仓库位置

  • Git存储库:在GitHub上可以找到OpenGVLab团队开发的VideoChat-Flash项目,网址如下所示。
  • arXiv科技文章在学术论文数据库中可以找到编号为2501.00574的文档,该链接指向了具体的PDF文件。

VideoChat-Flash的使用情境

  • 为视频创建字幕及进行翻译工作该模型能够创建详尽精确的视频字幕,支持多种语言的转换以及无障碍字幕制作,从而增强观众对视频信息的理解。
  • 视频中的问题回答及互动体验利用 VideoChat-Flash,用户能够通过提出问题来获得与视频内容相关的自然语言回答,涵盖的内容可以是电影情节分析或是纪录片里的知识要点等关键信息。
  • 身体化人工智能及机器人的学习过程于具身人工智能范畴内,VideoChat-Flash 利用持续性的第一人称视角录像辅助机械臂掌握如冲泡咖啡之类的复杂操作。它解析录影中重要的活动片段以引导机器执行特定的任务流程。
  • 体育赛事录像解析及精彩片段制作该系统能够对体育赛事录像进行解析,抓取重要片段,并自动制作成高光时刻集锦,便于观众迅速捕捉到比赛中最激动人心的部分。
  • 视频监控解析:通过运用VideoChat-Flash,能够有效管理长时段的监控录像,并准确捕捉及跟踪重要动态,从而增强监视体系的工作效能与精确度。
© 版权声明

相关文章