AniPortrait指的是什么
AniPortrait是由腾讯开发并开源的一个AI视频制作工具,类似于阿里之前发布的EMO项目,它能根据提供的音频与参考照片创造出高品质的人脸动画视频。该框架的操作过程包括两个步骤:首先是从音频文件中捕捉三维脸部特征,并将其转换为二维面部标记点;接着通过扩散模型和动作组件的协作,将这些标记转化为流畅且真实的动态图像。AniPortrait的一大特点是能够生成自然度高、变化丰富的动画内容,并允许用户灵活地调整和重复制作人脸的动作效果。
访问AniPortrait的官方网站入口
- 代码仓库地址:https://github.com/Zejun-Yang/AniPortrait
- 在arXiv平台上发布的一篇学术文章中可以找到相关内容:https://arxiv.org/abs/2403.17694
- ZJYang的动画肖像模型可以在Hugging Face平台上找到,访问链接为:https://huggingface.co/ZJYang/AniPortrait/tree/main
- Hugging Face演示:https://huggingface.co/spaces/ZJYang/AniPortrait官方版
AniPortrait的特色功能
- 由声音引导的动画创作由于提供的内容为空,没有具体文字可供改写。如果有具体的段落或句子需要进行伪原创改写,请提供相关内容。我会根据您给出的文本,调整其表述形式以达到您的要求。AniPortrait具备依据上传的音频资料自动创建匹配声音节奏的脸部动画的功能,涵盖唇形变化、情感表达及头部姿态调整。
- 卓越的视觉呈现由于提供的内容为空,没有具体的内容可以进行伪原创改写。如果有具体的文本需要处理,请提供相关内容。借助扩散模型与运动模块的应用,AniPortrait可以生成高清晰度且外观极为真实的肖像动画,从而带来极佳的视觉享受。
- 时刻的一致性请提供需要伪原创改写的具体内容。由于您当前的消息中没有包含具体内容,我暂时无法完成您的请求。如果您能提供详细信息或文本段落,我会很乐意帮您进行相应的修改和优化。此架构保障了动画在时间流程上的统一性,令其中的角色动作显得平滑且真实,避免了任何突然的断裂或是不协调的情况出现。
- 适应性和可管理性由于提供的内容为空,没有具体内容可以进行伪原创改写。如果您能提供一段具体的文本或信息,我很乐意帮您完成这项任务。通过运用3D人脸模型作为中介特性,AniPortrait增强了动画修改的灵活度,让用户能够对其创建的动画实施额外的设计与微调。
- 精准捕获脸部表情与唇部动态由于提供的原文为空,无法进行伪原创改写。如果您有具体的段落或文章需要改写,请提供相关内容。这样我就能更好地帮助您完成需求了。借助优化后的PoseGuider组件及多尺度方法,AniPortrait可以精准地捕获并还原嘴部细微的动作以及丰富的脸部表情。
- 与参照图片的相似度由于提供的内容为空,没有具体的内容可以进行伪原创改写。如果有具体的文本需要处理,请提供相关内容。该系统集成参考图片的视觉特征,以保证创造出来的动画角色在外形上与初始画像相吻合,从而防止出现身份不符的情况。
AniPortrait的操作原理
AniPortrait 包含两个核心组件:Audio2Lmk 和 Lmk2Video。
1. 音频至二维面部特征点转换组件(Audio2Lmk)
模块Audio2Lmk旨在从输入的音频信号中生成一系列代表面部表情及口型动作的三维人脸模型与头部姿态数据。该过程首先依赖于一个预先训练好的wav2vec模型来捕捉声音特征,此模型具备高精度的声音识别能力,能准确把握发音和语调的变化,这对于创造高度逼真的面部动画至关重要。随后利用提取出的音频特性通过两个完全连接层转化为三维人脸网格结构。针对头部姿态预测部分,则采用一个独立权重配置的wav2vec网络作为其基础架构支撑点,不与前述过程共享参数设定,原因是该模块更加关注于节奏和语调变化对姿势的影响。此外还应用了变压器解码器来处理姿态序列,并借助交叉注意力机制融合音频特征至解码阶段之中。最终步骤是利用透视投影技术将三维网格模型及头部姿态数据转换为一系列二维面部标记点信息。
2. 面部标记转视频模块(Lmk2Video) (从二维面部标志点生成视频)
Lmk2Video组件旨在依据参照肖像图及一系列面部标志生成时间连贯的高质视频流,并借鉴了AnimateAnyone的技术框架作为设计灵感。该系统以Stable Diffusion 1.5为核心,融入了时序运动机制,通过处理多帧噪声输入来合成连续的视频画面。同时,增加了一个结构与SD1.5相仿的ReferenceNet模块,旨在从参照图像中抽取特征信息,并将其融合到主网络架构内,以确保输出视频中的面部身份一致性。为了提升对口型动作捕捉精度,优化了PoseGuider的设计思路,在ControlNet多尺度框架的基础上操作,并将参考图上的标志点作为附加输入元素引入系统之中,借助交叉注意力机制强化参照标志与每帧目标标志之间的信息交互能力,助力网络深入理解面部标记特征与其外观表现间的关系。