JoyVASA – 由京东健康公开发布的音控数字人物程序

AI工具3个月前发布 ainav
121 0

JoyVASA指的是什么?

京东健康国际公司开源了名为JoyVASA的项目,这是一个由音频驱动的数字人头部模型,利用扩散模型技术依据声音信号创建同步的脸部动作和头部移动。该项目不仅能精确匹配人物嘴唇的动作并控制表情变化,还能应用于动物头像的动画制作,在支持多种语言及跨物种动画化方面展现出巨大的应用前景。

JoyVASA

JoyVASA的核心特性

  • 由声音引导的脸部动画效果依据输入的音源信号创建相应的同步面部动画,涵盖嘴部动态及情感表情的变化。
  • 嘴唇同步通过精准地同步声音和唇形运动,达到高度真实的交谈体验。
  • 情绪调控通过调控与创造独特的面部表情,提升动画的表达效果。
  • 动物面孔的动态表现JoyVASA具备创建动物脸部动态图像的能力,进一步拓宽了其应用场景。
  • 多种语言兼容性サポート经过在结合了中英文字数据的混合数据集上的训练,JoyVASA具备生成多语言动画的能力。
  • 创建高清晰度的视频内容该项目能够创建清晰度高且质量上乘的动画影片,从而增强观众的观影感受。

JoyVASA的核心技术机制

  • 分离面部表达的组成部分通过采用独立的面部表现架构,JoyVASA能够将动态 facial expressions 与静止的三维人脸模型分离开来,从而制作出更为延长的视频内容。
  • 传播模型该项目利用扩散模型由音频线索直接创建运动轨迹,且这些轨迹不依赖于任何特定的角色身份。
  • 分步式培训流程由于提供的内容仅有冒号,并没有实际的文字信息供我参考和改写,请提供完整的内容以便我能更好地帮助您。如果您有具体段落或句子需要伪原创处理,请一并告知。
    • 首个阶段通过区分固定的脸部特性和活动的运动特性,固定的特性反映个人的独特脸部标志,而活动的特性则记录了诸如 facial expressions、大小变化、方向改变和位置移动之类的动态因素。
    • 第二个阶段通过训练一个扩散变压器模型来从声音特性产生动作特性。
  • 从音频中抽取特性利用wav2vec2编码器来抽取输入声音的声学特性,并将其作为产生动作序列的前提条件。
  • 生成运动系列利用扩散模型从滑动窗口内提取由音频引导的动作系列,该动作系列涵盖脸部表情与头部动作。

JoyVASA项目的仓库位置

  • 官方网站建设项目https://github.com/jdh-algo/JoyVASA
  • Git代码库:访问此链接以查看Jdh-algo开发的JoyVASA项目 – https://github.com/jdh-algo/JoyVASA
  • HuggingFace的模型集合访问此链接以查看Jdh-algo创建的JoyVASA模型:https://huggingface.co/jdh-algo/JoyVASA
  • arXiv科技文章访问该链接可以获得论文的PDF版本:https://arxiv.org/pdf/2411.09209,此链接提供了研究文档的直接下载。

JoyVASA的使用情境

  • 智能助理于智能家居、客户关怀及技术支持领域内,通过为虚拟助手指引生动的面部动画与表情变化,以增强用户的互动感受。
  • 休闲与文化传播该技术应用于创建及强化角色的表情与动态表现,降低了对常规动作捕捉技术的依赖性。它能够让游戏角色展现出更加逼真的面容变化与活动效果,从而增强玩家的游戏代入体验。
  • 社交平台借助JoyVASA,用户能够创建个人的虚拟角色,并将其应用于视频通话或是社交媒体的内容制作中。
  • 教育与培养于线上学习平台上构建仿真教学角色,以提升课程的吸引力度与互动性;同时,在医疗卫生及国防安全等行业里,则通过模仿人的行为模式和情绪表达来进行专业的技能演练与培训。
  • 宣传与推广设计引人注目的虚拟形象作为广告代表,以增强品牌的魅力和知名度。
© 版权声明

相关文章