京东开发的音控视频生成AI人物模型——JoyHallo

AI工具2年前 (2025)发布 ainav

519 0 0

JoyHallo指的是什么

JoyHallo 是一款由京东开发并公开发布的AI虚拟人物模型，专门针对普通话进行了优化设计，能够依据提供的音源创造出极为真实的说话视频图像。该系统特别擅长处理普通话中的复杂口形变化和语调特征，并且还具备跨语言生成视频的能力。此外，JoyHallo 还分享了一个开源的数据集及详细的训练指南，允许用户制作出说中文和英文的虚拟人物视频。该项目采用了基于中文wav2vec2模型的技术来提取音频特性，并利用了一种半解耦的设计方案以加快推理过程的速度，整体上提升了14.3%的效率。

JoyHallo的核心特性

基于声音制作的影片创作JoyHallo 可以依据提供的音频创建匹配的视频内容，尤其擅长制作普通话相关的视频。
多语言生成技能除了普通话之外，JoyHallo 还具备制作英语视频的能力，这展示了其跨越不同语言进行视频创作的实力。
嘴唇协调该模型能够精准匹配音频和视频中的嘴型动作，增强视频的现实效果。
脸部表情创造依据音频里的情感波动与语调变化来创建匹配的面部表情。

JoyHallo的核心技术机制

部分松散结合架构该技术旨在提升音频引导下的视频生成过程中唇形同步的精准度。通过对重要面部动画元素——包括口型变化、情感表达及头部动作进行综合分析与独立处理，达到了更为精细的模拟效果。
特性编码利用中国研发的 wav2vec2 模型提取音频特性，能够提升模型对音频与相应面部表情同步的理解和生成能力。
交错注意机制在部分解耦的设计里，交叉注意组件负责分析结合后的特性，并识别其间的关系。
卷积神经网络于解耦过程中，通过卷积网络来分割各类特性，从而使系统能够集中分析各特性的独特要素。
资料集合JoyHallo 的训练依托于 jdh-Hallo 数据集，该数据集包含了多样化年龄段及讲话风格的中文视频素材，内容涉及日常生活交流与专业医学讨论。

JoyHallo项目的所在地

官方网站项目的入口：访问地址为github上的Jdh-algo账户下的JoyHallo页面，链接为jdh-algo.github.io/JoyHallo
Git存储库：在GitHub上的jdh-algo账户中可以找到JoyHallo项目。
HuggingFace的模型集合：访问此链接以查看jdh-algo开发的JoyHallo-v1模型 – https://huggingface.co/jdh-algo/JoyHallo-v1
关于arXiv上的科技学术文章访问此链接以获取最新的学术研究文档：https://arxiv.org/pdf/2409.13268，该链接提供了详细的研究内容。