英伟达开源Audio2Face模型:AI实时生成面部动画,支持多语言口型同步

AI资讯2个月前发布 ainav
59 0

9月25日讯,英伟达于昨日(9月24日)在其官方博客上宣布,正式开源了生成式AI面部动画技术——Audio2Face。此次开放的内容不仅包括核心模型,还涵盖了软件开发工具包(SDK)、完整训练框架等模块。这一举措旨在推动游戏与3D应用领域中AI智能虚拟角色的开发进程。

英伟达开源Audio2Face模型:AI实时生成面部动画,支持多语言口型同步

该技术通过深入分析音频中的音素、语调等声学特征,能够实时驱动虚拟角色的面部动作,生成精确的口型同步和丰富的情感表情。这一技术可广泛应用于游戏开发、影视制作以及客户服务等多个领域。

英伟达开源Audio2Face模型:AI实时生成面部动画,支持多语言口型同步

Audio2Face提供了两种运行模式:一种是针对预录制音频的离线渲染,另一种则是支持动态AI角色实时流式处理的功能。根据英伟达官方博文中所述,此次开源的核心组件包括:

  • Audio2Face SDK

  • Autodesk Maya 2.0版本的本地执行插件

  • Unreal Engine 5.5及以上版本的2.5插件

  • 回归模型(v2.2)

  • 扩散模型(v3.0)

  • 开源训练框架,支持开发者利用自有数据对模型进行微调,以适应特定的应用场景。

英伟达开源Audio2Face模型:AI实时生成面部动画,支持多语言口型同步

目前,该技术已在行业内得到广泛应用。例如,游戏开发商Survios在《异形:侠盗入侵进化版》中采用了Audio2Face技术,显著简化了口型同步与面部捕捉的制作流程。

此外,波兰工作室Farm 51也将这一技术应用于《切尔诺贝利人 2:禁区》的开发中。通过直接利用音频生成细腻的面部动画,该技术帮助制作团队节省了大量时间,并显著提升了角色的真实感与沉浸式体验。 Farm 51的工作室创新总监Wojciech Pazdur称此技术为“革命性突破”。

© 版权声明

相关文章