视频扩展XL – 由智源与多家高等院校共同开发的开放性强长时间视觉解析模型

AI工具3个月前发布 ainav
79 0

Video-XL指的是什么

由北京智源人工智能研究院协同上海交通大学、中国人民大学、中国科学院、北京邮电大学及北京大学的专家共同研发的Video-XL,是一款专为处理小时级别视频内容理解而设计的超长视觉分析模型。该模型采用了一种基于视觉上下文潜在总结的技术,能够将大量的视觉数据压缩成更加精简的形式,从而提升了信息处理的速度并降低了数据损失的风险。在多项针对长时间视频的理解测试中表现优异,在VNBench基准测试中的准确率甚至超过了当前最优算法近10%,并且在一个80GB的GPU上进行2048帧视频分析时,其识别精度接近95%。Video-XL展现了兼顾处理效率与效果优化的能力,并在电影概要生成、监控系统异常行为检测及广告位精准定位等特定应用领域中展现出广泛应用前景。

Video-XL

Video-XL的核心特性

  • 短时视频解析Video-XL具备处理长时间段视频的能力,能够实现对长达数小时的视频内容的理解。
  • 视感压缩利用视觉上下文隐含摘要方法,把海量的图像数据精简为更加浓缩的表现形式,以匹配模型的处理需求。
  • 高性能计算确保高精度的同时降低对计算资源的需求,并能在单一GPU上高效地处理大量的视频帧。
  • 多种类型数据的综合处理能够应对包含单一图片、多张图片以及视频在内的各类数据格式。
  • 针对长视频的专门任务处理适用于包括电影概要生成、异常行为监测及广告位辨识在内的多种长视频相关专门任务。

Video-XL的核心技术机制

  • 基于视觉场景的隐式摘要(Implicit Summary of Visual Scenarios)采用视觉摘要标签(VSTs),把初始视觉环境中的激活状态——比如在自我关注组件里的关键与价值信息——转化为极其精简的表现形式。
  • 区块化处理把视觉标签序列切分成等大的片段,并在各片段内加入VSTs,通过LLM逐级减少视觉信息的数据量。
  • 自主回归技术在处理每一区块时,Video-XL不仅利用了附加的投影矩阵,还复用了全部模块来转化VST隐藏状态,从而把视觉信息浓缩进VST的激活模式之中。
  • 一致的视觉表现方法实现单张图片、多张图片及视频在同一个空间内的整合编码,以便管理和分析多样化的多媒体信息。
  • 长时间视频资料集合(VICO)创建一个专注于较长视频及动态视觉环境的新数据集,以提升模型对长时间段影像的理解水平。

Video-XL项目的仓库位置

  • Git代码库:在GitHub上的VectorSpaceLab组织中有一个名为Video-XL的项目。
  • HuggingFace的模型集合库访问该链接以查看由用户sy1998发布的Video_XL模型: https://huggingface.co/sy1998/Video_XL
  • arXiv科技文章该链接指向一篇可在ArXiv数据库中获取的学术论文PDF文件。

Video-XL的使用场合

  • 影片与视像资料概要Video-XL具备解析并提炼长篇视频核心内容的能力,能够捕捉诸如电影及连续剧的关键剧情与重要环节,并向用户呈现精炼的内容概览。
  • 视像监测解析于安全监测行业中,该技术应用于探测非正常行为,旨在从监视录像里辨识出异乎寻常的事件或行动。
  • 广告的发布与效果评估Video-XL助力评估视频内嵌广告的表现,探究广告与视频内容之间的联系,并洞察观众对于广告的反馈。
  • 教育培训的视频内容在教育行业里,Video-XL被用来解析和概括长时段的授课录像,辅助学生们迅速抓住学习重点。
  • 查找视频中的信息Video-XL应用于视频数据库的内容搜索,助力用户迅速定位到视频的关键部分或相关细节。
© 版权声明

相关文章