InfinityHuman:字节与浙大联合打造的AI数字人视频生成模型

AI工具3个月前发布 ainav
73 0

InfinityHuman是什么

InfinityHuman是由字节跳动与浙江大学联合开发的一款商用级长时序音频驱动人物视频生成模型。该技术在AI数字人领域实现了重大突破,为虚拟角色的制作与应用开辟了新的道路。InfinityHuman采用分阶段优化策略,首先生成低分辨率的动作基础,随后通过姿态引导细化器逐步提升至高分辨率的长时间视频输出。特别值得注意的是,该模型引入了专门针对手部动作的优化机制,有效提升了手部动作的自然度和同步性,解决了传统技术中存在的身份一致性差、画面不稳定以及动作僵硬等问题。在权威数据集EMTD和HDTF上的测试中,InfinityHuman均表现出色,展现出广阔的应用前景,特别是在虚拟主播、在线教育、智能客服等领域。

InfinityHuman:字节与浙大联合打造的AI数字人视频生成模型

InfinityHuman的核心优势

  • 持续性与稳定性:能够生成高分辨率、长时间的高质量人物动画视频,确保画面的一致性和长期稳定。
  • 自然流畅的手部动作:通过专门设计的手部奖励机制,实现了手部动作的细腻表达和与语音的高度同步。
  • 身份稳定性:借助姿态引导细化器和首帧视觉锚点技术,有效抑制累积误差,确保虚拟角色形象的一致性。
  • 精准的口型同步:保证生成视频中人物的唇部动作与音频内容高度匹配,大大提升了视觉真实感。
  • 多样化风格支持:能够创建不同风格和特点的人物角色,满足各种场景下的个性化需求。

InfinityHuman的技术架构

  • 低分辨率动作基础生成:模型通过音频驱动的方式,先生成与声音节奏同步的低分辨率动作表示(pose),这一阶段相当于”草稿”阶段,主要确保整体动作和口型的大致对齐。
  • 姿态引导细化器(Pose-Guided Refiner):在基础动作上,进一步通过该模块逐步优化生成高分辨率视频。
    • 稳定的时间序列:使用姿态序列作为中间表示,有效抵抗时间推移带来的视觉退化问题。
    • 动态校正机制:首帧作为关键参考点,持续进行身份和画面的校准,确保长期一致性。
    • 手部优化模块:基于高质量的手部动作数据集训练,并通过专门设计的奖励机制,显著提升了手部动作的真实性和同步性。
  • 多模态信息融合:系统整合了参考图像、文本提示和音频等多种模态信息,确保生成视频在视觉和听觉上的高度一致与自然流畅。

InfinityHuman的实际应用

  • 虚拟主播:可实现新闻播报、节目主持等场景,为观众带来更加生动的观看体验,同时显著降低人力成本。
  • 在线教育:AI教师在讲解知识时能够配合自然的手势动作,使教学过程更生动有趣,从而提高学生的学习兴趣和专注度。
  • 智能客服服务:通过自然的动作表达,在语音交流中提供更加人性化的服务,改善传统客服的机械感,显著提升客户满意度。
  • 影视制作:在动画电影、电视剧等作品中快速生成高质量的长时人物动画,大幅减少人工绘制和后期修正的工作量。
  • 虚拟社交:为VR/AR环境中的虚拟角色赋予自然的动作和表情,使虚拟社交更加真实生动,增强用户之间的互动体验。
© 版权声明

相关文章