InfinityHuman：字节与浙大联合打造的AI数字人视频生成模型

315 0 0

InfinityHuman是什么

InfinityHuman是由字节跳动与浙江大学联合开发的一款商用级长时序音频驱动人物视频生成模型。该技术在AI数字人领域实现了重大突破，为虚拟角色的制作与应用开辟了新的道路。InfinityHuman采用分阶段优化策略，首先生成低分辨率的动作基础，随后通过姿态引导细化器逐步提升至高分辨率的长时间视频输出。特别值得注意的是，该模型引入了专门针对手部动作的优化机制，有效提升了手部动作的自然度和同步性，解决了传统技术中存在的身份一致性差、画面不稳定以及动作僵硬等问题。在权威数据集EMTD和HDTF上的测试中，InfinityHuman均表现出色，展现出广阔的应用前景，特别是在虚拟主播、在线教育、智能客服等领域。

InfinityHuman的核心优势

持续性与稳定性：能够生成高分辨率、长时间的高质量人物动画视频，确保画面的一致性和长期稳定。
自然流畅的手部动作：通过专门设计的手部奖励机制，实现了手部动作的细腻表达和与语音的高度同步。
身份稳定性：借助姿态引导细化器和首帧视觉锚点技术，有效抑制累积误差，确保虚拟角色形象的一致性。
精准的口型同步:保证生成视频中人物的唇部动作与音频内容高度匹配，大大提升了视觉真实感。
多样化风格支持：能够创建不同风格和特点的人物角色，满足各种场景下的个性化需求。

InfinityHuman的技术架构

低分辨率动作基础生成:模型通过音频驱动的方式，先生成与声音节奏同步的低分辨率动作表示（pose），这一阶段相当于”草稿”阶段，主要确保整体动作和口型的大致对齐。
姿态引导细化器(Pose-Guided Refiner):在基础动作上，进一步通过该模块逐步优化生成高分辨率视频。
- 稳定的时间序列:使用姿态序列作为中间表示，有效抵抗时间推移带来的视觉退化问题。
- 动态校正机制:首帧作为关键参考点，持续进行身份和画面的校准，确保长期一致性。
- 手部优化模块:基于高质量的手部动作数据集训练，并通过专门设计的奖励机制，显著提升了手部动作的真实性和同步性。
多模态信息融合:系统整合了参考图像、文本提示和音频等多种模态信息，确保生成视频在视觉和听觉上的高度一致与自然流畅。