声波 – 腾讯与浙江大学共同开发的音驱肖像动画系统

AI工具1个月前发布 ainav
101 0

Sonic指的是什么

Sonic是由腾讯与浙江大学共同研发的一款音频驱动的人物形象动画系统,该系统利用全局音频感知技术生成高度真实的面部表情及动作。它通过上下文增强的音频学习方法和运动解耦控制器来分别捕捉声音片段中的长时间段内音讯特征,并独立管理头部和表情的动作,以提升局部区域对声音细节的理解能力。Sonic还采用了时间感知的位置偏移融合策略,使局部的声音感应效果能够应用于整个面部动画中,从而有效缓解了在长视频生成过程中可能出现的画面抖动与突变现象。相比当前最先进的技术方案,Sonic在视频质量、唇形同步精度、动作多样性和时序连贯性方面表现出色,并显著提升了肖像动画的自然度和一致性,同时允许用户进行细致的操作调整。

Sonic

Sonic的核心特性

  • 高度真实的嘴唇动作同步确保语音和口形精准同步,使所说的内容与嘴唇的动作完全吻合。
  • 多样化的面部表情与头部动作创造出丰富而自然的面部表情及头部动作,使动画更加鲜活和富有表现力。
  • 长期持续产出穩定結果在应对长视频的处理过程中,能够维持输出的一致性和稳定性,防止出现晃动或突然变化的情况,从而保证内容的整体流畅与统一。
  • 用户自定义设置能力允许用户通过调节各项设置来掌控头部动作、面部表情的力度以及嘴唇同步的效果,从而实现极高的个性化程度。

声速技术的工作机制

  • 基于环境信息的音讯研究提升从音频片段中捕捉长期的声学特性,并把声音信号里的音调、说话速率等元素转化为关于面部表情和口部动作的知识基础。Whisper-Tiny模型负责分析音频特点,通过多层次的理解机制将这些特点与跨尺度的空间注意力层相融合,进而指导图像帧的生成过程。
  • 运动分离控制单元通过分离头部分动与面部表情的变化,并利用各自的独立设置进行调控,可以提升动画的表现力及真实性。同时提供给用户定制化增强动作的功能,该功能允许通过调节动态区间设定值来掌控头部与面部表达的程度。
  • 时空定位整合OffsetTable采用一种具有时间意识的滑动窗口方法,该策略能够将对音频片断的理解从局部扩展至整个段落,从而有效应对长时间视频制作过程中可能出现的画面抖动和突然变化问题。在每一个处理阶段中,系统都会以一个新的起点重新分析音频片段,并逐步整合整体音频内容的信息,以此保证长时视频的流畅过渡与连贯性。
  • 系统范围的音频控制器Sonic利用音频信号来推动动画的创建,摆脱了以往对视觉元素如动作帧的需求,从而提升了动画生成时的自然度与时间连贯性。作为整体指导信息来源的音频信号,为面部表情和头部动态提供了潜在的基础参考依据,使得最终产生的动画更贴近于其所对应的音源内容。

关于Sonic试验的结果分析

  • 对比分析数量差异由于提供的内容仅有冒号,并没有实际的文字信息供以改写,因此无法完成您的请求。如果您能提供具体的内容或段落,我很乐意帮助您进行伪原创的改写工作。请再次尝试给出详细的信息吧!
    • 在HDTF与CelebV-HQ数据集的测试中,Sonic的表现超越了当前领先的SOTA方法,在多个评价标准上取得了更佳的成绩,这些标准包括Fréchet Inception Distance (FID)、Fréchet Video Distance (FVD),以及唇部同步精度(Sync-C和Sync-D)和视频流利度(Smoothness)。
    • Sonic 在 FID 和 FVD 评分上明显优于其它技术,这说明它所创造的视频具有更高的品质,并且更接近真实的视觉效果。
  • 品质对比分析Sonic 在创建更加自然及多样化的面部表情与头部姿态方面表现卓越,尤其在应对复杂的背景环境及多种样式的画像时展现出更高的稳定性和适应能力。

Sonic产生的创作成果

  • 相比开源技术方案Sonic能够创造出更加贴合音效的表情变化,从而带动更为流畅自如的头部动作。
© 版权声明

相关文章