ByteVision – 由字节跳动携手上海交通大学等多个单位开发的自回归视频创作模型

AI工具2个月前发布 ainav
178 0

VideoPlanet是指什么

VideoWorld是由北京交通大学、中国科学技术大学以及字节跳动联合启动的研究计划,目标是探究深度生成模型能否仅利用未标记的视频资料掌握复杂的信息,涵盖规则理解、逻辑推理及规划技巧等方面。此项目的重点在于一个自回归式的视频生产模型,该模型通过分析视频内容来获取知识,并且不需要依靠传统的文本说明或标注数据作为基础。

VideoWorld

VideoWorld的核心特性

  • 从未加标签的视频里获取复杂的知识信息VideoWorld 具备从未经标记的视频资料中掌握复杂技能的能力,涵盖规则理解、逻辑推演及策略制定等方面,并且这一过程不需借助任何言语指导或预先标注的信息。
  • 基于自身反馈的视频创作过程借助 VQ-VAE 技术与自回归 Transformer 结构,VideoWorld 能够创建高清晰度的视频画面,并利用这些画面来解析与特定任务相关的行为步骤。
  • 长时间的推断与策划于围棋挑战之中,VideoWorld 展现了其卓越的远见能力,能够精心挑选最优棋步,并战胜技艺高超的竞争者(例如 KataGo-5d)。而在机器人的应用上,该系统亦能设计出一套套复杂的操作流程,从而成功执行一系列机器人操控任务。
  • 跨越不同环境的适应力VideoWorld 具备将在各种任务与环境下学到的知识进行转移的能力,并展现了出色的泛化性能。
  • 精简的视觉数据展示LDM 技术通过将繁复的视觉数据精简成简洁的潜在编码,有效地降低了冗余度并加速了学习进程。这种高效的表达方式让模型在处理复杂视觉变化时更为得心应手,并且能够支撑起长时间的逻辑推理与决策过程。
  • 不需要依赖强化学习的自我学习能力VideoWorld 并不采用常规的强化学习技术(比如搜索策略或者奖惩系统)进行操作,它能够凭借纯粹的视觉数据独立掌握复杂的工作。
  • 有效的知识掌握和逻辑推断在执行围棋任务时,VideoWorld 达到了专业5段的水平(Elo评分2317),仅凭借3亿个参数便展现了其卓越的知识学习效率。于机器人相关任务中,该系统的成功率几乎与oracle模型持平,体现了它具备高效的推理和决策能力。
  • 对视觉数据进行深入解析:VideoWorld 利用产生的视频帧与潜藏编码来解析复杂视觉数据,助力于目标导向的逻辑推断及决定制定。
  • 提供多样的任务模式支持VideoWorld 并不局限于围棋和机器人操控领域,它还有可能延伸应用至更加复杂的场景中,例如自动驾驶技术和智能化监视系统等。

VideoTech的工作机制

  • 矢量量化变分自动编码器(VQ-VAE)该技术旨在把视频画面转换成一系列独立的标记序列。VQ-VAE 利用矢量量化方法,将连贯的画面特性转化为一个有限集合中的离散符号,从而形成一种断续的表现形式。
  • 基于自身历史数据的变换器模型通过分析离散化的标记序列来预估后续的一个标记。在 Transformer 模型中,采用自回归方法依据先前的数据片段推断下一个数据片段的内容,以此方式构建出连续的视频流。
  • 潜动模型(PDM)采用 LDM 技术后,能够把多个步骤的视觉变换浓缩成简洁的潜码序列,从而增强知识获取的速度与质量。LDM 具备识别视频内容中即时及持续变动的能力,并且可以辅助进行高级别的分析和策划工作。
  • 视频制作和任务执行之间的关联关系在创建视频画面之后,VideoWorld 还利用逆动态模型(Inverse Dynamics Model, IDM)将这些图像转换为具体的行动步骤。作为单独训练的部分,IDM 通常构建于多层感知机(MLP)之上,并能够基于当前的画面和预测的下一帧来推断出对应的动作指令。
  • 基于数据的学习知识VideoWorld 利用大量未经标记的视频资料进行训练,从而减轻了对人工标记数据的需求,并有效缩减了前期的数据准备工作成本。

VideoWorld项目的网址位置

  • 官方网站:访问 https://maverickren.github.io/VideoWorld 以获取更多信息。
  • Git存储库:可在GitHub上找到ByteDance开发的VideoWorld项目页面。
  • 关于arXiv的技术文章访问该论文的PDF版本,请点击这里:https://arxiv.org/pdf/2501.09781

    注:由于原文仅为一个指向学术论文的链接,内容上无法进行实质性改写,因此提供了相似表达方式引导读者访问同一资源。

VideoWorld的使用情境

  • 自动驾乘借助于车辆内置摄像头捕获的画面信息,VideoWorld 能够掌握路况的变化趋势,并且能够辨识出各类交通标识、行人群体以及潜在障碍。
  • 智能化监视系统通过对监控录像的分析,VideoWorld能够识别出常规与不寻常的行为模式,并能即时发现任何异常情况。
  • 问题排查观看生产流程的录像后,VideoWorld 能够识别出常规与不正常的状况特征,并即时发现可能出现的问题。
  • 电子竞技人工智能要求该模型能够依据游戏场景制定出恰当的行动策略,并且能够同玩家或其它AI进行竞争。借助对游戏录像的研究,VideoWorld具备了掌握游戏机制及环境变化的能力。
  • 问题诊断观看生产流程的视频后,VideoWorld 能够识别出常态与异常情况的特点,并实现即时故障监测。
© 版权声明

相关文章