阿里发布的AI肖像视频创作平台 —— EMO

AI工具2个月前发布 ainav
134 0

EMO代表的是情绪摇滚或情感硬核,是一种音乐风格。

EMO(Emote Portrait Alive)是由阿里巴巴集团智能计算研究院团队打造的一款音频驱动的人工智能肖像视频创建工具。用户只需提供一张参考图片与相应的语音录音,系统就能制作出带有丰富表情及多样化头部动作的视频片段。这款软件能够精准把握人类情感表达的特点以及个人面部特征的独特性,进而生成栩栩如生且极具表现力的人物动画效果。

EMO框架

进入EMO的官方网站入口

  • 该项目的官方网站地址为:https://humanaigc.github.io/emote-portrait-alive/
  • 在arXiv平台上发布的一篇学术文章:https://arxiv.org/abs/2402.17485
  • 在GitHub上可以找到这个项目:https://github.com/HumanAIGC/EMO(目前该仓库包含了模型与源代码,即将对外开放访问权限)。

EMO生成肖像视频

EMO的核心特性

  • 由声音引导的影像创作EMO具备将输入的音频资料,例如人声对话或是歌声,转化为相应的视觉内容的能力,整个过程不需要使用事先准备好的视频剪辑或者三维人脸建模作为基础。
  • 出色的表达能力和高度的真实感由EMO制作出的视频展现了极强的情感表达能力,能精准地反映和复制人的脸部情绪变化细节,涵盖细致入微的表情,并同步配合声音节拍进行头部动作调整。
  • 流畅的帧切换EMO保障了视频帧切换的平滑与自然性,有效防止了脸部变形及帧间震动现象的发生,显著提升了视频的质量水平。
  • 维持身份借助FrameEncoding组件,EMO能在制作视频时维持角色形象的一致性,保证角色的模样与提供的参照图片相匹配。
  • 可靠的调控系统EMO运用了包括速度调节器和脸部区域管理器在内的多种稳控机制,旨在提升视频制作流程的稳定性,并防止出现如视频失效之类的状况。
  • 可变的视频长度EMO能够根据提供的音频长度创建任意时长的视频,从而赋予用户极大的创作自由度。
  • 跨越不同的语言与文体EMO的训练资料包含了多样的语言与表现形式,如汉语及英语,并且涉及写实、动画及三维等多种视觉样式,从而让EMO具备了兼容各种文化背景和艺术流派的能力。

EMO的操作机制

EMO的工作原理

  1. 准备材料用户需要提供一幅参照图片(一般是所要制作的目标人物的静止照片)以及一段相关的音效输入(比如讲话声或者歌声)。这两项内容将会成为创建视频的主要依据。
  2. 特性抽取通过运用类似于主干网络架构的ReferenceNet来从参照图片中抽取特性细节。在这里,ReferenceNet特化于捕捉输入影像中的精细特点。
  3. 声音处理经过预先训练的音频编码器对输入的声音进行处理,从而获取声音特性。此类特性包含了讲话的速度、声调及发声方式等方面的细节,并会被用于控制视频内人物的表情变化与头部动态。
  4. 传播流程于扩散的过程中,主模型利用多帧含有噪音的数据作为输入信息,并在每一个时间阶段努力将这些带有噪声的画面净化为连续的视频片段。这一流程依赖两种关键的关注机制:参考注意力和音频注意力。其中,参考注意力确保了人物形象的一致性,而音频注意力则负责调节角色的动作表现。
  5. 日期与时间组件为了解决时间因素并对动作速度进行调节,EMO采用了时序组件。这些组件利用自注意力机制处理每一帧中的特性,以此来识别视频中的动态元素,并维持各相邻帧间的协调与统一性。
  6. 脸部位置识别与速率调节为了保障创建角色动作的稳定与可操控性,EMO采用了面部追踪器(Face Tracker)及速率层级(Rate Layers)。其中,面部追踪器利用简洁的卷积网络对脸部边界框进行编码;而速率层级则通过在生成过程中融入头部旋转速度来调节动作的速度和节奏。
  7. 培训方案EMO的培训过程包含三个步骤:图像初步训练、视频深化训练及融合速率层级。首先在图像初步训练中,主模型与参照网络从独立的画面帧学习特征;接着,在视频深化阶段增加了时间模块和声音层来解析连续画面的信息;最终于融合速率层级环节,则专注于时间模块与速度层次的优化调整,以强化音频对角色动态表现的影响效果。
  8. 制作影片于推断过程中,EMO借助DDIM采样技术来创建视频剪辑。经由反复的降噪步骤后,能够产出与提供的声音轨道相匹配的人物影像录像。
© 版权声明

相关文章