Meta发布V-JEPA:一款通过分析视频内容以掌握物理世界知识的视觉系统

AI工具2个月前发布 ainav
63 0

什么是V-JEPA?

V-JEPA(Video Joint-Embedding Predictive Architecture,即视频联合嵌入预测架构),是一项由Meta团队开发的新颖视频自监督学习技术。该方法主要目标是利用特征预测来获取视觉信息表示。其核心概念在于模型能根据一个区域(称为源区x)的特征表达来推测另一特定区域(命名为目标区y)的特性表述,整个过程不依赖于任何外部指导,如标注数据或预训练图像编码器等,仅依靠视频内容本身的特性和结构来进行学习和预测。

Meta V-JEPA

V-JEPA 独特的地方在于它采用了一种自我监督的学习方式,这种方法能够预测视频中在抽象特征空间里的缺失部分,而不是用生成的方法填补丢失的像素点。这项技术无需依赖人工标注数据,而是通过类似于人类被动观看的方式建立起对视频片段的理解。

  • 该项目详情请见:https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
    这篇文章介绍了由Yann LeCun及其团队开发的AI模型,该模型专注于视频联合嵌入和预测性架构的研究。
  • 学术文章:https://scontent-hkg1-2.xx.fbcdn.net/v/t39.2365-6/427986745_768441298640104_1604906292521363076_n.pdf
  • Facebook研究部门的代码仓库位于:https://github.com/facebookresearch/jepa

V-JEPA的关键特性

  • 自我监督学习V-JEPA并未采用预先训练的图像编码器、文本信息、负面样本、像素重建或任何其他类型的外界监管机制。该方法纯粹依靠对视频内部特性进行预测,从而实现视觉表征的学习。
  • 特性预报目的V-JEPA的主要目的是预估视频帧间的特性表达。这一目的使模型能够掌握视频内的时间连贯性与空间架构,而不仅仅局限于像素层面的数据。
  • 集成嵌入结构V-JEPA运用了独特的网络设计,该设计包含了两个主要组件:一个是用于抽取视频图像特性的编码模块(x-encoder),另一个是根据所抽取特性来进行下一帧图像特性预估的预报模块(predictor)。
  • 多重遮盖方法于训练阶段,V-JEPA采用多种遮盖方法应对视频帧。此技术借助对视频内不同时段实施不同区域的遮挡,驱动模型掌握更为强健且综合的视频表征。
  • 高效率的预先训练数据集合V-JEPA利用了一个包含超过两百万个视频的大型数据集进行了预先训练,该数据集中包含了来自诸如HowTo100M、Kinetics-400/600/700及Something-Something-v2等多个公开数据集的素材。
  • 不需要对模型的参数进行修改由V-JEPA训练得到的模型能在多个后续应用中展现出优异性能,并且不需要更改其内部参数设置。这表明该模型可以在不改变原有结构的情况下直接用于测试,或是仅需经过细微调整即可适用于不同的应用场景。
  • 标记效能即使是在标记数据稀缺的情况下,V-JEPA依然能够展现出出色的性能,这一点突显了其在标签使用效率上的优越性,对于那些面临高数据标注成本挑战的应用场景而言尤为关键。
  • 多模式效能V-JEPA不但擅长处理包括动作识别与运动划分在内的视频相关工作,同时也能有效应对诸如ImageNet图片分类之类的影像类挑战。
  • 迅速培训在训练期间,V-JEPA展现了高效的学习能力,能够迅速掌握有效的视觉表达方式。这一特性使其适用于处理大型视频数据库。

V-JEPA的操作机制

V-JEPA利用自监督学习的机制运作,其方法是通过对视频帧间特性表现的预测来进行模型训练。

V-JEPA的工作原理

下面是执行V-JEPA程序的具体步骤详解:

  1. 视频前期处理首先,从输入视频中随机选取一定数量的画面样本(比如16张),并把这些画面转化为模型可以处理的形式。这通常涉及调整图像尺寸至模型要求的标准大小(例如224×224像素),并将这些连续帧序列编码成一系列时空特征“标记”。
  2. 编码模块(Encoding Unit)视频画面经由视觉变换模型(ViT)的编译过程,该模型把每一帧图像转化为一组特征表达。这一编译模块一般包含若干个变换层级结构,具备识别并分析各帧间时空联系的能力。
  3. 遮盖(Covering)在对视频帧进行特征表达时,选取部分随机区域实施遮盖处理,被遮盖的部分将成为预测的对象。这种遮盖方式既可以是针对局部的短距遮盖,也可以是对较大范围的长距遮盖,以确保模型能够捕捉到视频内容中的多种尺度特征。
  4. 预报器(Forecaster):该预报模型接纳了由编码组件产生的特性表达作为输入,旨在重建那些已被遮盖部分的特点信息。这个预报模块一般采用一个较为简洁的Transformer架构,依靠解析视频序列内帧与帧之间特点联系的方式来完成其预测任务。
  5. 误差函数在利用V-JEPA时,会采用一种损失函数来评估预计的特性值与真实特性的偏差程度。一般情况下,该过程选用的是L1损失方法,通过求取预期特性值与标准特性值间绝对差额的均值得以实现这一计算目标。
  6. 培训流程于训练阶段中,借助反向传播技术调校编码组件与预测模块间的权值配置,旨在减少误差指标。此外,采用指数滑动平均策略动态调整编码单元的参数设置来确保整个系统的平稳运行。
  7. 对后续任务进行评价分析完成预训练后,V-JEPA模型能够应用于多种后续任务评价当中,包括但不限于行为辨识和动态归类等场景。在执行这些具体应用时,该模型会利用一种名为“注意力探测器”的简易网络结构来获取视频内容的特征描述,并将这些信息用于分类或其它相关处理过程之中。
  8. 精细调整(Fine-adjustment)当有必要时,可以对V-JEPA模型执行针对性的调整以适应特定的任务需求。这一过程一般包括向已预先训练好的模型中加入一层或多层完全连接网络,并利用带有标注的信息集合对其进行进一步的学习和优化。
© 版权声明

相关文章