阿里研究院开发的语音驱动表情动画视频技术——EMO2

AI工具2个月前发布 ainav
162 0

EMO2代表的是什么?

EMO2(由末端效应器引导的声音驱动头像视频生成技术),是阿里巴巴智能计算研究院研发的一种创新性方法,全称即“以终端执行器为导向的声音驱动角色动画制作”。该系统利用语音输入和一张静态的人脸图片来创造出充满情感的动态视频内容。其关键突破在于它能够结合声音信号与手势及面部表情的变化,并运用扩散模型生成连续的画面帧,从而实现自然且流畅的动作表现。此外,EMO2还提供出色的视觉质量、精准的声音同步以及多样化的动作展示。

EMO2

EMO2的核心作用

  • 基于声音控制的个性动画形象创建EMO2 利用音频素材与单张人物静止图像,能够制作出充满情感变化的动态人脸视频。
  • 卓越的视觉呈现效果利用扩散模型创建视频画面,并融合手势操作来产生连贯且逼真的面部表情及肢体动作。
  • 精准的音频同步技术保证生成的视频和音频输入之间的时间同步性极高,增强整体的自然流畅度。
  • 多样的动作创造提供对多样且顺畅的肢体与身姿操作的支持,适应广泛的应用情境。

EMO2的核心技术机制

  • 基于声音驱动的动作模拟EMO2 利用音频编码器把输入的音讯信号转化为特征向量,以捕获其中的情感波动、节奏特点及语义内容。
  • 终端执行器指引此技术着重于创建手指和手掌的动作(即终端执行器),鉴于这些动作与声音数据有显著的相关关系。该系统起初会设计出手部的姿态配置,并将这些细节整合进整个影片制作流程中,以保证所产生行动的真实感和连贯性。
  • 传播模型及特性整合EMO2 利用扩散模型作为其主要的生成架构。在此过程中,该模型融合了参照图片的特点、声音特性及多个带有噪音的画面,并借助连续的降噪步骤来创建出高清晰度的视频画面。
  • 视频帧的编码及解码过程于帧编码的过程中,ReferenceNet 负责从给定的静止图片里捕捉脸部特性,并将此信息同声音特点融合起来参与后续的扩展流程。该模型在经过解码阶段后,能够产出一段包含生动表情及流畅动作的视频片段。

EMO2的工程链接

  • 官方网站项目页面:访问此链接以查看生动的表情肖像展示 – https://humanaigc.github.io/emote-portrait-alive-2/
  • 关于arXiv上的科技文章这篇论文可以在网址 https://arxiv.org/pdf/2501.10687 上找到。

EMO2的使用场合

  • 仿真现实与动画图形可以用来创建生动且自然的讲话人物动画。
  • 跨越不同的语言与文化界限提供多语言的语音录入功能,并能为各类风格的角色创建动画效果。
  • 扮演角色与游玩体验可以把特定的角色应用到电影及游戏的环境中。
© 版权声明

相关文章