GOOGLE推出的新模型IMAGE2ANIMATOR——从图片生成动态人物视频

AI工具3个月前发布 ainav
86 0

VLOGGER指的是视频博客作者,他们通过分享个人生活、经验或专业内容来与观众交流。

由谷歌研究团队开发的多模态扩散模型VLOGGER AI旨在通过单一图像与声音样本生成真实且连贯的人物动态视频片段。其核心功能是借助人工智能技术,把静态图片转化为生动的角色动画,并确保人物形象的高度真实性。不仅如此,该系统还能依据音频内容精确控制角色的动作表现,涵盖了面部表情、唇形同步及头部转动、眼神交流和眨眼等细节动作,并进一步扩展到上半身以及手部姿态的动态处理。这标志着在音频驱动视频合成技术领域的一大进步。

Google VLOGGER AI

访问VLOGGER的官方站点入口

  • 该项目的官方网站地址为:https://enriccorona.github.io/vlogger/
  • 在arXiv平台上发布的一篇学术文章可以找到这个链接:https://arxiv.org/abs/2403.08764v1

视频博主的特色功能

  • 由图片及声音驱动的视频创作利用VLOGGER工具,可以通过上传一个人物的照片及对应的语音文件来创建动态讲话人的视频内容。使用者仅需输入一张图像以及一段声音片段,该软件就能制作出一位在影片中的角色,确保其脸部神态、口型变化和肢体动作与提供的音频材料保持同步协调。
  • 多元化与真实感VLOGGER创建的视频展现了丰富的多样化内容,可以呈现原始对象的各种姿态与面部表情变化,同时确保了背景统一及影片的真实感。
  • 影像剪辑VLOGGER能够用来修改现有的视频内容,比如调整画面中人物的面部表情,并确保这些改动与原视频中的其他未经修改的部分完美融合。
  • 创建能够移动并讲话的角色VLOGGER能够利用一张输入图片和引导声音来创建一个人物讲话时的脸部动态视频,即便缺乏该人物原有的任何视频素材。
  • 视频译制VLOGGER具备将一段视频中的原始语音翻译成目标语言的功能,并通过对嘴型及面部表情进行调整来确保与新音轨同步,从而完成不同语言间的内容转换。

VLOGER的操作机制

VLOGGER的操作机制依赖于一种双步骤的方法,这种方法融合了由声音引导的动作创造以及确保时间连续性的影片制作。

VLOGGER AI的工作原理

首个阶段:由声音引导的动作创造过程

  1. 声音加工VLOGGER最初会获取一个音频素材作为输入来源,该来源可能是言语内容或是乐曲片段。当提供的资料是以文字形式存在时,则需要借助于文字转语音(TTS)技术将其转变为声音信号输出。
  2. 三维动作预报随后,该系统采用了一种以变换器(Transformer)结构为基础的神经网络处理声音数据输入。此网络经过训练能够预测与语音信号同步的三维面部表情及身体姿态。通过运用多层次注意力机制,网络能够识别音频的时间属性,并输出一系列的三维姿态参数。
  3. 生成管理指示该网络产生一系列预计的面部表情(θe i)及身体姿态的变化量(∆θb i),后续利用这些参数来创建驱动视频制作流程的二维表现形式。

第二个阶段:连续时序的视频制作

  1. 视频创建模型在VLOGGER的发展过程中,第二步采用了一个时间扩展算法模型。该模型利用了前一阶段产生的三维动作指导以及给定的一张参照图片(也就是用户提供的单人照片)作为其输入信息。
  2. 基于条件的视频创建该视频合成系统是一种采用扩散机制的图象转换技术,通过预估二维调控数据产生多张连续画面,并依据提供的声音及三维动态设定来进行视觉呈现的变化。
  3. 超高解析度为了增强视频的质量,VLOGGER集成了一种超分辨率扩散算法,该算法能够把初始分辨率为128×128的视频升级至更高清晰度,例如达到256×256或512×512的水平。
  4. 延长时段VLOGGER运用了时间扩展技术来创建具有任何所需时长的视频内容。该过程始于生产一系列图像帧,并随后通过参考上一个画面的数据连续添加新帧,以此方法延长视频的整体持续时间。

训练数据与集合

  • VLOGGER是在一个叫MENTOR的巨大数据库中接受培训的,该数据库拥有2200小时的数据及80万不同的身份样本,涵盖了大量的个体及其动态手势信息。通过这一过程,模型掌握了如何利用3D姿态参数与输入图像来创建连贯且质量上乘的视频片段。
© 版权声明

相关文章