京东与香港大学联合发布音频引导的3D人物讲话视频创建平台 JoyGen

AI工具 1个月前 ainav
69 0

JoyGen指的是什么

JoyGen是一款由京东科技及香港大学联合开发的音频驱动3D人像讲话视频生成系统,它特别注重于实现精准的声音-口型匹配以及呈现高质量的画面效果。该框架利用音频特性和面部深度信息来模拟唇部动作,并借助单步UNet架构完成高效的视频处理工作。在训练阶段,JoyGen使用了一个包含130小时中文视频内容的优质数据集,并通过开源的HDTF数据集展现了其卓越的表现能力。实验数据显示,就声音-口型同步及视觉呈现质量而言,JoyGen达到了业界顶尖水准,并为讲话人像视频编辑领域带来了一种创新的技术路径。

JoyGen

JoyGen的核心特性

  • 嘴唇动作与声音保持一致利用由声音控制的嘴唇运动生成技术,保证视频内人物的嘴型变化与所播放的声音材料精确匹配。
  • 卓越的视觉体验所创建的视频展现了极其真实的视觉体验,涵盖了自然流露的面部情绪及精细分明的嘴唇动作。
  • 视频的剪辑及提升对当前视频中的口型动作进行修改和完善,而不需要从头再制作一遍视频。
  • 多种语言兼容性支持该服务能够创建支持包括中文及英语在内的多语言视频,适用于各种不同的使用场景。

JoyGen的运作机制

  • 初始阶段由于提供的内容为空,没有具体内容可以进行伪原创改写。如果您能提供具体段落或句子,我很乐意帮您完成这项任务。
    • 基于声音驱动的嘴唇运动创建三维重构模型通过输入的面部图片,3D重建模型能够抽取代表个人面貌特性的身份参数,这些参数用于刻画个体的脸部特点。
    • 从声音到动作的转换模型通过运用音频至动作转化模型,把声音数据转化为面部表情参数,这些参数进一步用来驱动嘴唇的动作。
    • 生成深度图像通过融合身份因子与表情因子来构建面部的三维网格,并利用可微分渲染方法创建面部深度图像,此图像将应用于之后的视频组合过程。
  • 下一阶段请提供需要改写的具体内容。没有给出具体的文本,我无法完成您的请求。一旦提供了具体文本,我很乐意帮您进行伪原创的改写工作。
    • 视效组合 单阶段UNet结构利用单步UNet架构融合音频特性和深度图像数据至视频帧构建流程中。此网络通过其编码组件将原始影像转换进入一个维度较低的隐含空间,并在此基础上融入声音属性与深度视觉资料,以促进嘴唇动态的表现。
    • 跨越性注意机制通过运用跨注意力机制,音频特性与图像特性相互作用,保证了产生的口型动作能够精确匹配声音信号。
    • 解析及提升通过将产生的潜隐表征利用解码器转换回图像格式,从而创建出最终的视频画面。为了保证所产生视频的质量与时间的一致性,在潜隐维度及像素层面上应用L1损失函数来进行优化调整。
  • 提供数据集支援JoyGen经过一个囊括了130小时中文视频优质数据集的培训过程,以保证其能够胜任各种情境与言语氛围的需求。

JoyGen项目的网址位置

  • 官方网站PROJECT:访问链接 https://joy-mm.github.io/JoyGen/以获取更多信息。
  • Git代码库:可在GitHub上找到由JOY-MM创建的JoyGen项目页面。
  • 关于arXiv的技术文章这篇论文可以在网址 https://arxiv.org/pdf/2501.01798 上找到。

JoyGen的使用情境

  • 网络虚拟主持人及在线直播活动通过构建虚拟主播来执行新闻报道和电子商务直播等功能,并依据提供的声音信号即时产生高度真实的嘴部动作,从而增强用户的观看感受。
  • 动漫创作于动画电影行业之中,迅速创建与语音配对吻合的口型动作序列,旨在减轻绘图人员的工作负担,并提升整体生产效能。
  • 远程学习创建模拟教师的形象,并使该形象的口型与授课音频相匹配,从而使教育视频更加鲜活有趣,进而提高学生的学术参与度和兴趣。
  • 制作视频素材助力创作者迅速制作出高品质的人像发言视频,包括虚拟角色的小品或幽默片段等内容,从而多样化创作的表现手法。
  • 多种语言的视频创作该功能具备多种语言的支持能力,能够迅速地把一段视频中的原始语音转译成用户所需的语言,并确保新的声音文件与人物口型完美匹配,极大地促进了全球范围内的文化内容分享和交流。