京东开发的音控视频生成AI人物模型——JoyHallo

AI工具3个月前发布 ainav
103 0

JoyHallo指的是什么

JoyHallo 是一款由京东开发并公开发布的AI虚拟人物模型,专门针对普通话进行了优化设计,能够依据提供的音源创造出极为真实的说话视频图像。该系统特别擅长处理普通话中的复杂口形变化和语调特征,并且还具备跨语言生成视频的能力。此外,JoyHallo 还分享了一个开源的数据集及详细的训练指南,允许用户制作出说中文和英文的虚拟人物视频。该项目采用了基于中文wav2vec2模型的技术来提取音频特性,并利用了一种半解耦的设计方案以加快推理过程的速度,整体上提升了14.3%的效率。

JoyHallo

JoyHallo的核心特性

  • 基于声音制作的影片创作JoyHallo 可以依据提供的音频创建匹配的视频内容,尤其擅长制作普通话相关的视频。
  • 多语言生成技能除了普通话之外,JoyHallo 还具备制作英语视频的能力,这展示了其跨越不同语言进行视频创作的实力。
  • 嘴唇协调该模型能够精准匹配音频和视频中的嘴型动作,增强视频的现实效果。
  • 脸部表情创造依据音频里的情感波动与语调变化来创建匹配的面部表情。

JoyHallo的核心技术机制

  • 部分松散结合架构该技术旨在提升音频引导下的视频生成过程中唇形同步的精准度。通过对重要面部动画元素——包括口型变化、情感表达及头部动作进行综合分析与独立处理,达到了更为精细的模拟效果。
  • 特性编码利用中国研发的 wav2vec2 模型提取音频特性,能够提升模型对音频与相应面部表情同步的理解和生成能力。
  • 交错注意机制在部分解耦的设计里,交叉注意组件负责分析结合后的特性,并识别其间的关系。
  • 卷积神经网络于解耦过程中,通过卷积网络来分割各类特性,从而使系统能够集中分析各特性的独特要素。
  • 资料集合JoyHallo 的训练依托于 jdh-Hallo 数据集,该数据集包含了多样化年龄段及讲话风格的中文视频素材,内容涉及日常生活交流与专业医学讨论。

JoyHallo项目的所在地

  • 官方网站项目的入口:访问地址为github上的Jdh-algo账户下的JoyHallo页面,链接为jdh-algo.github.io/JoyHallo
  • Git存储库:在GitHub上的jdh-algo账户中可以找到JoyHallo项目。
  • HuggingFace的模型集合:访问此链接以查看jdh-algo开发的JoyHallo-v1模型 – https://huggingface.co/jdh-algo/JoyHallo-v1
  • 关于arXiv上的科技学术文章访问此链接以获取最新的学术研究文档:https://arxiv.org/pdf/2409.13268,该链接提供了详细的研究内容。

JoyHallo的使用场合

  • 数字主播在新闻报道、气象预测及体育赛事评论等多个领域,JoyHallo 制作虚拟主持人的视频内容,并实现全天候连续节目的自动化生产。
  • 网络教学在教学领域如语言学习和在线课程中,JoyHallo 创造了教师的虚拟角色,带来了更为丰富的教育互动体验。
  • 客户支持在客户支持行业里,JoyHallo 创造了虚拟客服人员,以更友好和专业的方式服务顾客。
  • 文化产业在影视作品、电子游戏及动漫创作等行业中,JoyHallo负责创造人物的面部表情动画,这不仅提升了生产效率,还有效减少了成本开支。
  • 社交平台用户通过JoyHallo创建个人的虚拟角色,并在社交平台上分享视频资料,以此来提升互动体验和娱乐价值。
  • 创建广告在营销领域,JoyHallo 制作个性化的广告影片,增强广告的吸引力与定制化水平。
© 版权声明

相关文章