FaceShot是什么
FaceShot是由同济大学、上海人工智能实验室和南京理工大学联合推出的一项创新性的无需训练的肖像动画生成技术。该系统通过引入外观引导的地标匹配模块和基于坐标的地标重定位模块,能够为各类角色提供精确且鲁棒的地标序列。借助潜在扩散模型的语义对应关系,FaceShot实现了跨角色类型的脸部动作序列生成,并将这些序列输入到预训练的动画模型中,最终生成高质量的动画视频。与传统方法不同,FaceShot突破了对现实肖像地标的限制,可广泛应用于各种风格化角色和驱动视频,或作为插件兼容于任何地标驱动的动画系统,从而显著提升了整体性能。

FaceShot的主要功能
- 角色动画生成:能够为各种类型的角色量身定制流畅自然的面部动画,同时完整保留角色的独特特征。
- 跨领域动画转换:支持将人类视频的动作驱动应用到非人类角色(如玩具、动物等)上,极大地扩展了肖像动画的应用场景。
- 零样本学习能力:无需针对特定角色或驱动视频进行额外的训练或微调,即可直接生成高质量的动画效果。
- 高度兼容性:可作为插件无缝集成到任何基于地标驱动的动画模型中,提升现有系统的性能和功能。
FaceShot的技术原理
- 外观引导的地标匹配机制:利用潜在扩散模型的语义对应关系,并结合外观先验知识,为任意角色生成精确的面部关键点。通过DDIM逆过程从参考图像和目标图像中提取扩散特征,基于图像提示减少不同领域之间的视觉差异。采用余弦距离进行关键点匹配,确保其在语义上的一致性,并引入外观画廊进一步优化匹配效果。
- 基于坐标的地标重定位算法:通过坐标系变换捕捉驱动视频中的细微面部动作变化,生成与之对齐的关键点序列。该模块分为全局运动和局部运动两个阶段:首先计算面部的整体平移和旋转(全局运动),然后分别对眼睛、嘴巴、鼻子、眉毛和面部边界等部分进行相对运动和点运动的重定位(局部运动)。基于简单的坐标变换公式,该模块能精准捕捉到面部的全局和局部运动变化,从而生成稳定可靠的关键点序列。
- 地标驱动的动画模型:将生成的关键点序列输入到预训练的动画模型(如MOFA-Video)中,最终输出高质量的动画视频。通过将关键点序列作为额外条件输入到动画模型的U-Net结构中,确保模型能精确跟踪关键点序列中的运动变化。借助这种方式,动画模型能够根据输入的关键点生成逼真的面部动作,实现自然流畅的动画效果。
FaceShot的优势与应用前景
FaceShot凭借其独特的零样本学习能力和高度的兼容性,在多个领域展现出广泛的应用潜力。无论是在虚拟角色 animation、影视特效制作,还是在实时互动娱乐中,FaceShot都能提供高效可靠的解决方案。此外,其创新的技术架构为未来的动画生成技术发展提供了新的研究方向和可能性。
© 版权声明
文章版权归作者所有,未经允许请勿转载。