LongVU:Meta AI发布的用于长视频分析的开源模型

AI工具3个月前发布 ainav
71 0

LongVU指的是什么?

Meta AI团队开发了名为LongVU的长视频理解模型,该模型采用了时空自适应压缩技术来应对大型语言模型(LLM)在处理长视频时因上下文大小限制而面临的挑战。通过利用跨模态查询和帧间关联性,LongVU能够减少标记数量的同时保留长视频中的视觉细节。它借助DINOv2特征剔除相似度高的冗余画面,并运用文本引导的多模态查询来选择性地缩减帧特性,在需要时根据时间依赖关系进行空间标签压缩。这样一来,LongVU能够在保持大部分视觉信息的前提下高效处理大量图像帧。

LongVU

LongVU的核心特点

  • 时间空间智能压缩LongVU通过降低对视频标注的需求来管理长时间录像,确保捕捉到影片中重要的视觉元素,并能够在设定的较短上下文范围内解析极其冗长的画面信息。
  • 多模式搜索请求通过利用文本指导的多模态检索技术有选择性地简化视频片段的关键特性,可以确保保存那些与文字搜索最为契合的画面细节,并将剩余的画面转换为较低解析度的标识表达形式。
  • 利用帧间的依赖关系通过分析视频帧间的时间关联性,LongVU能够依据这种关联进行空间标签的压缩处理,从而降低对模型上下文长度的要求。
  • 对长时间视频的内容解析LongVU具备高效管理1fps视频流的能力,并能够智能地把每小时长时间视频中的平均每帧标注数降至两个,以适配于处理8k级内容长度的多模态大规模语言模型(MLLM)。

LongVU的核心技术机制

  • 时效缩减方法利用DINOv2特性来辨识并剔除那些在视觉上极为相近的重复视频画面,从而降低时间轴方向上的多余信息。
  • 特性选择性减弱在利用文本指导进行跨模式搜索时,保持与文字查询有关的画面片段完全标记不变,并对剩余画面实施空间聚合以降低其空间层面的重复信息。
  • 空间标签压缩技术针对非常长的视频,LongVU利用了相邻帧间的时间相关性来进一步缩减空间标签的数量。通过评估各帧之间的空间标签相似度,并移除那些与初始帧具有高度相似性的后续帧的空间标签,从而降低了模型所需处理的信息量。
  • 多种模式的培训LongVU通过融合图像与文字的预先训练及针对视频与语言的精细调整,并借助大量视频文本配对的数据集来优化培训过程,从而增强了其在解析和理解视频内容方面的能力。

LongVU项目的站点位置

  • 官方网站项目的入口https://vision-cair.github.io/LongVU/ 的内容已被重新表述为不同的形式,但保留了原始的意义。由于未提供具体内容,这里无法展示改写效果。如有具体文本,请提供以便进行伪原创改写。
  • Git代码库:在GitHub上可以找到Vision-CAIR团队的LongVU项目页面。
  • HuggingFace的模型集合访问此链接以查看由长Vu整理的视觉集合,该集合托管在Hugging Face平台上: https://huggingface.co/collections/Vision-CAIR/longvu-67181d2debabfc1eb050c21d
  • 关于arXiv上的科技文章在该论文中(可访问链接: https://arxiv.org/pdf/2410.17434),研究者们分享了他们的最新研究成果。
  • 网上试用演示版本:访问此链接以查看由Vision-CAIR创建的长视频理解项目页面 – https://huggingface.co/spaces/Vision-CAIR/LongVU

LongVU的使用场合

  • 对视频材料的解析与评估LongVU适用于解析长篇视频材料,抽取核心数据,在诸如安全摄像头录像、新闻节目及纪实影片中辨识重大情节与片段。
  • 视频检索与目录编制依托对视频内容的深入解析,LongVU助力打造视频搜索平台,使用户能够通过文字检索迅速锁定感兴趣的视频片段。
  • 制作视频材料LongVU适用于创建视频的内容描述、摘要或是字幕,以此来增强视频信息的获取便利性和普及度。
  • 视像提问回答体系LongVU能够协助创建一个针对视频的问答平台,在这个平台上,用户可以就视频中的信息提问,并且该系统具备解析问题和给出精确回答的能力。
  • 教育培训在教育行业里,LongVU被应用于解析教学录像,识别重要知识点,以辅助学生们更有效地理解并吸收课堂信息。
© 版权声明

相关文章