上海交通大学发布的对嘴动画生成工具——AniTalker

AI工具2年前 (2025)发布 ainav

451 0 0

AniTalker指的是什么？

由上海交通大学X-LANCE实验室与思必驰AISpeech团队共同开发的AI技术框架——AniTalker，能够将一张静态人物图片及音频素材转化为生动逼真的说话视频片段。该系统采用自监督学习方法精确捕捉面部的各种动态变化，涵盖细微的表情调整和头部运动。通过运用通用动作表示法与身份分离技术，减少了对标注数据的需求，并借助扩散模型结合方差适配器生成多样且可调控的面部动画效果，其表现力媲美阿里EMO及腾讯AniPortrait产品。

AniTalker的核心特性

将静止的人物画像转化为动态动画：利用AniTalker技术，可以将单一的人脸照片转化为具有动态效果的视频，让该人物在视频中展现言语表达及面部表情的变化。
音轨对齐此框架能确保输入的声音与角色的口型及语速协调一致，从而达到更加真实的交谈体验。
脸部动作捕获不仅仅实现嘴型匹配，AniTalker还能够模仿多种复杂 facial expressions 和精细的 muscle movements。
多样的动画创作通过运用扩散模型，AniTalker可以创建出带有随机变异的多样的面部动画效果，从而提升了生成作品的真实感和不可预知性。
即时脸部动画调节用户能够利用控制信号即时引导动画创作过程，涵盖头部姿态、脸部表情及眼部动作等多个方面。
由声音控制的动画创建该系统能够利用语音信号直接创建动画，不需要任何附加的视频素材。
长时间视频持续创建AniTalker具备生成持久动画视频的能力，非常适合用于长时段对话或是演讲的情况。

访问AniTalker的官方网站入口

官方网站地址：https://x-lance.github.io/AniTalker/
代码仓库地址：https://github.com/X-LANCE/AniTalker
学术文章探索了如下主题：https://arxiv.org/abs/2405.03121

AniTalker的操作机制

运动表现的学问研究AniTalker采用自监督学习技术训练了一个能捕获脸部动作的通用运动编码器。这一流程包括从视频素材中挑选出源图与目标图，然后通过对目标图进行重构以掌握运动细节。
身份和活动的分离为保证动作表现中不含个人特有的标识，AniTalker利用了度量学习及减少互信息的技术手段。通过度量学习，该系统能够识别并分离出各个主体的独特标记；同时，降低互信息的策略促使动作编码器更加注重于记录动态变化而非个体特征。
层次聚合同步层（HSL）为了提升运动编码器在处理多种规模的动态变化时的表现，我们融入了层级聚合层（Hierarchical Aggregation Layer, HAL）。HAL 利用平均池化技术和加权叠加机制来合并来自图像编码器各层次的数据信息。
生成运转完成运动编码器的训练后，AniTalker能够依据用户的操控信号来创建动作表达。这一过程涵盖了由视频和声音引导的不同路径。
- 由视频推动的通道利用跟随演示者动作的视频片段，为目标图片创建动态效果，精确再现演示者的姿态与 facial expressions。
- 声音控制通道不同于视频驱动的方式，语音驱动技术依据语音信号或其它控制指令来创建相应的视觉内容，并确保其与提供的声音保持同步。
传播模型与变异调节器在利用语音驱动技术的过程中，AniTalker借助扩散模型创建动作潜势序列，并通过方差调整模块实现特征操控，以此达到生成多样且可调控的面部动画的效果。
呈现组件最终，通过图像渲染工具依据所创建的动作潜势系列来逐帧构建出完整的动画影片。
培训与精进在训练AniTalker的过程中，采用了多种损耗函数来提升模型的表现力，这些损耗函数涵盖了重构损耗、感知损耗、竞争损耗、相互信息损耗以及身份衡量学习损蚝等方面。
管理特性要素使用AniTalker，用户可以调整头部的姿态以及相机设置，比如改变头的位置或脸的比例大小，从而创建出符合特定需求的动画效果。