字节跳动发布的新一代视觉解析大型模型 — Tarsier2

AI工具 2个月前 ainav
85 0

Tarsier2指的是什么

Tarsier2是由字节跳动开发的一款先进大规模视觉语言模型(LVLM),它擅长生成详尽且精准的视频描述,并在多种视频理解应用中展现了卓越性能。该模型通过三项重要改进实现了性能飞跃:首先,将预训练数据集从1100万扩展至4000万个视频文本对,极大地增加了数据规模和多样性;其次,在监督微调阶段进行了精细的时间同步调整;最后,利用基于模型采样的自动偏好数据分析,并采用直接偏好优化(DPO)技术进行训练。在DREAM-1K基准测试中,Tarsier2-7B的F1分数比GPT-4高出2.8%,比Gemini-1.5-Pro高出5.8%。此外,在涵盖视频问答、视频定位、幻觉检测和具身问答等任务在内的十五个公开基准测试上取得了最优成绩。

Tarsier2

Tarsier2的核心特性

  • 详尽的视频说明Tarsier2能够创建详尽且高品质的视频说明,涵盖画面内的众多细微之处,如动作、背景及故事情节等元素。
  • 视像提问与回答能够对视频相关的问题作出解答,体现了其卓越的时空理解与推理技能。
  • 视频定置Tarsier2具备识别和确定视频内特定事件发生时刻的功能,并能够对多个视频片段进行精确定位。
  • 错觉检验通过对训练方法的优化,Tarsier2大幅降低了产生不实信息的风险。
  • 多种语言兼容性サポート该功能通过生成多语言的视频说明,大大扩展了其应用范围。

Tarsier2的核心技术机制

  • 大量预先训练的数据集Tarsier2将预训练的数据集从1100万个扩展至4000万个视频-文本组合,显著增加了数据量与多样性。该数据涵盖了网络上的短视频、电影或电视剧解说片段,并包含由多模态语言模型自动生成的视频说明及问答对。
  • 基于精细时间同步的监督微调(SFT)于监督微调期间,Tarsier2采用了包含15万条精确标记时间点的视频解说数据集。每一条解说都与特定的时间戳相匹配。这种同步训练的方法极大地提升了模型在描述视频内容时的精准度和细节把握能力,并有效降低了生成不实信息的风险。
  • 直接偏好评价优化(DPEO)Tarsier2利用模型采样的方式自动化地创建偏好的数据集,并采用直接偏好优化(DPO)技术来进行培训。根据该模型产生的正面和负面示例对,进一步提升其输出的质量,以保证所生成的视频说明更加贴近人的喜好。

Tarsier2的程序库链接

  • Git代码库:在GitHub上可以找到ByteDance开发的Tarsier项目,其仓库地址为上述链接。
  • 关于arXiv上的科技学术文章在学术资源共享平台ArXiv上,有一篇编号为2501.07888的论文可供查阅。

Tarsier2的使用情境

  • 这段文字的阐述如下:对该段落进行了重新表述,确保其核心含义未变,只是采用了不同的表达形式。Tarsier2 可以创建包含视频中各项细节的高品质详尽叙述,如动作、环境及故事情节等。
  • 视觉错觉检验Tarsier2 在降低产生不实内容的概率上有着优异的表现。借助直接偏好优化(DPO)与精细的时间同步训练方法,该系统大幅减少了虚构信息的出现几率。
  • 多种语言兼容性支持Tarsier2 能够生成多种语言的视频描述,适用于各种不同的语言场景。
  • 身体化回答在执行具身问答任务时,Tarsier2 同样展现了卓越的能力,它能够整合视觉与语言数据,为实体智能体提供精准的操作指引。
版权声明:ainav 发表于 2025-01-25 16:01:29。
转载请注明:字节跳动发布的新一代视觉解析大型模型 — Tarsier2 | AI导航站