上海AI实验室携手南京大学与中科院开放的多媒体视频模型 InternVideo2.5

AI工具4周前发布 ainav
72 0

InternVideo2.5指的是什么?

InternVideo2.5是由上海人工智能实验室携手南京大学及中科院深圳先进技术研究院联合开发并开源的一款先进的视频多模态大模型。该模型在视频理解方面取得了重要突破,尤其是在长视频处理和细粒度时空感知技术上表现出众。它能够高效地分析包含数万帧的长时间视频内容,并将前代产品的视频处理长度提升了6倍。通过精准定位关键帧,实现了类似“大海捞针”的精确检索功能。此外,InternVideo2.5还支持广泛的通用视频问答服务,并能执行如目标跟踪与分割等专业的视觉任务。

InternVideo2.5

InternVideo 2.5的核心特性

  • 长时间视频编辑:InternVideo2.5具备处理长达一万帧视频的能力,相较于其前身,它的视频处理能力增强了六倍(由3000帧扩展至10000帧)。该软件能够在长时间的视频内容中精确找到目标画面,犹如在浩瀚的数据海洋中寻获针尖般的目标,大大提高了对视频资料分析的工作效率。
  • 精细的时空意识该模型具备精确辨识及定位视频内对象、环境与行为的能力,并能深入解析其细微的时间空间联系。它能够处理通用性的视频问答任务,并胜任目标追踪与分割等专业图像作业。尤其在复杂环境中,可准确捕捉物体运动路径及其状态演变,为自动驾驶和安全监控等行业供应高精度的视觉辅助支持。
  • 多种模式的整合:InternVideo2.5实现了视觉认知与语义解析的紧密结合,能够依据视频素材创建详尽的叙述,并回应用户的疑问。
  • 提供专业的视觉作业支援借助于任务偏好优化(TPO)技术,InternVideo2.5具备了执行多样化的高级视觉作业的能力,涵盖对象追踪、图像分割和时刻定位等领域。该系统能够依据具体的任务要求灵活变换其工作模式,确保在各种环境下都能呈现出最佳的视觉解析效果。
  • 高效的预先训练及优化调整InternVideo2.5运用了分步式的多层次培训策略,并利用超30万小时的视频材料进行了初步训练。这一过程不仅增强了模型的功能性,同时也减少了培训的成本。

InternVideo 2.5的核心技术机制

  • 长时间段详尽上下文建模(LDCM)通过延长模型的上下文范围并增强其对细节的敏感度,LRC使得InternVideo2.5能够解析包含数万帧图像序列的视频内容。关键点是:
    • 视频时长的自动调整标记表現依据视频时长及内容特性灵活变更帧率抽取策略。比如,对于较短视频段(例如几秒钟的片段),采取高密度抽帧方式(如每秒提取15帧);而对于较长视频序列(譬如几分钟乃至更长时间的录像),则实行低密度抽帧方案(即每秒仅取一帧)。这种做法旨在确保能在多种时间跨度下有效记录动作变化信息。
    • 层次化语境压缩(LayerCo)利用层次化的压缩技术,降低视频数据的时域和空域冗余度,并确保重要信息不丢失。具体内容涵盖:
      • 时间空间凭证整合通过利用语义相近性来整合标记,并摒弃了单纯的位置为基础的汇聚方法。这不仅保持了信息的细致度,还大幅降低了重复内容的比例。
      • 多种模式的背景信息融合于语言模型加工环节中,更深层次地融合并精简视觉标记,以保障视觉与言语数据的高度结合。
  • 任务倾向性改进(TPI)TPO借助转换细粒度视觉任务的标记数据为可微调的任务倾向性来引导模型训练过程,这使得InternVideo2.5能够胜任多个专业的视觉相关工作,比如物体追踪、区域划分及时间点识别等任务。其具体的实施策略包含:
    • 针对具体任务的模块整合在模型里集成专门针对具体任务的模块(例如时间头部或遮罩适应器),并利用相关的专项数据集来完成培训过程。
    • 视像概念的前期训练通过利用丰富的图片与视频描述数据来进行前期培训,可以显著增强模型的视觉解析技能。
  • 逐步分阶段的培训计划:InternVideo2.5运用了分步式的多层次训练策略,循序渐进地增强模型的表现能力。
    • 初级学习阶段执行任务辨识命令的优化及同步视频与语言的培训工作。
    • 微粒度识别训练环节借助整合的任务专属模块与视觉元素的预先培训,提升对视觉信息的理解水平。
    • 全面提升阶段通过对混合数据集实施多任务学习与指令微调来提升各个模型模块的性能。
  • 高性能分布式的软件架构为支撑大规模视频资料的培训与验证工作,InternVideo2.5构建了一个依托于多元模式序列平行计算的分布体系结构。该架构融合了顺序及矩阵式的分散式管理手段,并运用灵活的数据封装策略,极大地提升了训练过程的速度和效能。

InternVideo2.5的仓库位置

  • GitHub代码库访问该链接以查看OpenGVLab团队开发的最新视频理解模型 InternVideo 的2.5版本相关代码和资源:https://github.com/OpenGVLab/InternVideo/blob/main/InternVideo2.5
  • HuggingFace的模型集合:访问该模型的页面地址为 https://huggingface.co/OpenGVLab/InternVideo2_5
  • 关于arXiv的技术文章在该论文中(可访问链接: https://arxiv.org/pdf/2501.12386),研究者们探讨了他们的最新发现和方法。

InternVideo2.5的使用情境

  • 对视频中的信息进行解析和查找:利用InternVideo2.5,用户能够基于文本搜索迅速定位到相应的视频资料,该工具具备处理复杂视频搜寻工作的能力。
  • 制作与编辑影像内容InternVideo2.5能够为视频制作过程中的编辑任务提供智能化辅助功能,比如自动提炼出影片中最吸引人的部分,并且可以自动生成字幕或是配音脚本。该工具还能根据用户的具体要求来执行视频剪辑和修改操作,从而显著提升视频创作的工作效率。
  • 安全 surveillance在安全 surveillance 领域中,InternVideo2.5 可以即时解析监控录像,迅速识别出异常状况,并及时触发警告。
  • 自动驾驶技术:InternVideo2.5具备即时分析自动驾驶汽车摄像机信息的能力,并能够精准地辨识出道路上的各种标识、交通灯及障碍物。
© 版权声明

相关文章