OmniSync:人民大学联合快手、清华推出通用对口型框架

AI工具5天前发布 ainav
6 0

OmniSync是什么

OmniSync是由中国人民大学、快手科技和清华大学联合开发的一款通用对口型框架,它采用了先进的扩散变换器技术(Diffusion Transformers)来实现视频中人物口型与语音之间的精准同步。与其他方法不同,OmniSync采用无掩码训练范式,可以直接对视频帧进行编辑而无需参考帧或显式掩码,从而支持无限时长的推理过程。这种创新的方法不仅能够保持自然的面部动态,还能确保身份的一致性。

在技术实现上,OmniSync引入了两项关键机制:流匹配基础的渐进噪声初始化和动态时空分类器自由引导(DS-CFG)。前者通过注入控制噪声到原始帧中,并仅执行最后的去噪步骤来保持空间一致性;后者则通过提供对音频影响的精细控制,平衡音频条件强度。这种双重机制能够有效解决音频信号较弱的问题,确保口型同步的精确性。

为了评估AI生成视频中的口型同步性能,OmniSync团队还特别建立了一个名为AIGC-LipSync的基准测试标准。这一标准为研究人员和开发者提供了一种客观评价方法,以衡量不同算法在口型同步方面的表现。

OmniSync:人民大学联合快手、清华推出通用对口型框架

OmniSync的主要功能

  • 无掩码训练:无需参考帧或显式掩码,直接对视频帧进行编辑,支持无限时长的推理过程。
  • 身份保持:在保持头部姿态和身份一致性的基础上,实现对嘴部区域的精准修改。
  • 增强音频条件:通过动态时空引导机制,有效应对弱音频信号环境下的口型同步挑战。
  • 通用兼容性:不仅适用于风格化角色,还可处理非人类实体和AI生成内容。
  • 无限时长推理:保持自然的面部动态表现,确保时间一致性。
  • 遮挡鲁棒性:在面部区域存在遮挡等复杂场景下,仍能实现高质量的口型同步效果。

OmniSync的技术原理

  • 无掩码训练范式:基于扩散变换器进行直接跨帧编辑,无需显式掩码或参考帧。通过迭代去噪学习映射函数,并引入时间步依赖采样策略,根据不同去噪阶段使用不同的数据集,确保模型的稳定性和高效性。
  • 渐进噪声初始化:采用流匹配注入控制噪声到原始帧中,仅执行最后一步的去噪操作。这种方法不仅保持了空间一致性,还能够实现对嘴部区域的精确修改,有效避免姿态不一致和身份漂移问题。
  • 动态时空分类器自由引导(DS-CFG):通过提供对音频影响的精细控制,平衡音频条件强度。该机制包括时间维度上的动态调整和空间维度上的精准定位,确保在不同时间和空间条件下都能实现最佳的口型同步效果。

项目地址

应用场景

  • 影视后期制作:用于电影、电视剧等视频内容的配音和口型对齐,提升专业性和效率。
  • 虚拟现实与增强现实:在VR/AR应用中实现更加自然的人脸动画和语音同步效果。
  • 电子竞技与直播:为游戏主播提供实时语音和口型同步解决方案,提升观感体验。
  • 教育培训:用于语言学习、发音矫正等领域,提供视觉和听觉的同步反馈。

通过以上介绍可以看出,OmniSync不仅是一项前沿的技术突破,更在多个领域展现出广泛的应用潜力。其创新的技术架构和强大的功能组合使其成为当前口型同步技术领域的佼佼者。

© 版权声明

相关文章