阿里发布开源项目EchoMimicV2 —— 用于创建完整的数字人物上半身动画

174 0 0

EchoMimicV2指的是什么

EchoMimicV2是由阿里蚂蚁集团开发的半身数字人AI项目，它利用参考图像、音频片段和手部动作序列来创建高质量的动画视频，并确保音画同步一致。相较于其前身EchoMimicV1仅能生成逼真的头部动画，现在的版本能够制作出完整的半身数字人物动态效果，并实现从中文或英文语音到相应肢体语言转换的流畅体验。该系统采用了音频与姿势之间的协调策略，包括了动作样本选取和声音扩散技术来增强细节表现并降低不必要的条件冗余。此外，EchoMimicV2运用头部局部注意力机制处理面部数据，并通过特定阶段去噪损失的设计来优化整体动画品质。

EchoMimicV2的核心特性

由声音引导的动画创作通过利用音频编辑来控制角色的表情及肢体动态，达成声音效果与动画画面的精准协调。
部分身体的动画创作由最初只创建头像动画，现已拓展至制作涵盖整个上半身的动画内容。
简化了的操控标准简化动画创作流程中的繁琐要求，使动画制作更加容易。
动作与面部表情的协调一致通过融合手部动作序列及声音信息，创造流畅并协调的手势与 facial expressions。
多种语言兼容性支持提供中文及英文的驱动支持，依据文字的语言自动生成对应的动画效果。

EchoMimicV2的运作机制

音姿动协（AVDH）由于提供的原文为空，没有具体内容可以进行伪原创改写。如果您提供具体的段落或句子，我很乐意帮您完成这项任务。
- 姿态选取（Pose Selection）逐渐降低对姿态要求的依赖性，使声音因素在动画制作中占据更显著的位置。
- 声音扩展(Audio Expansion)把音频效果的作用范围从唇部扩展至全脸乃至全身，以此来提高声音和动作之间的协调一致。
部分头注意力（Partial Head Attention,PHA）在训练过程中结合顶级数据以细化面部表情，且不需要任何附加的插件或组件。
针对不同阶段的降噪损耗（Stage-targeted Noise Reduction Loss, SNRL）把去除噪声的过程细分成三个步骤：首先是强调姿态，其次是聚焦于细微之处，最后是提升整体品质。每一步都专注于实现其特有的优化目的。
潜扩散模型（LDM）运用变分自编码器（VAE）把图片转换至潜伏空间，并在培训阶段逐渐增加杂音，随后评估和消除每一时刻的杂音。
Backbone Utilizing Reference Network通过利用ReferenceNet从参照图片中抽取特性，并将这些特性融入去噪U-Net里，确保了生成的图片能够维持与参照图片在外貌上的一致性。