复旦推出的音频驱动视频生成模型

AI工具2个月前发布 ainav
30 0

什么是Stable Avatar?

Stable Avatar是由复旦大学与微软亚洲研究院联合开发的创新性音频驱动虚拟形象视频生成模型。该系统采用先进的端到端视频扩散变换器技术,并通过时间步感知音频适配器、原生音频引导机制和动态加权滑动窗口策略,实现了高质量的无限长度虚拟形象视频生成。相比传统方案,Stable Avatar显著优化了长视频生成中的身份一致性、音画同步以及视频流畅度等关键指标,在自然度和连贯性方面达到行业领先水平,可广泛应用于虚拟现实、数字人制作等多个领域。

复旦推出的音频驱动视频生成模型

Stable Avatar的核心功能

  • 超长视频生成能力:支持一次性生成超过3分钟的高质量虚拟形象视频,确保人物形象的一致性与音频同步准确性。
  • 自然流畅的表现效果:通过优化算法有效解决传统模型在长时间运行中出现的画面卡顿和音画不同步问题,显著提升视觉真实感。
  • 广泛适用的应用场景:为虚拟现实、数字人创建、在线教育等领域提供高性能的视频生成解决方案,推动虚实结合体验的创新发展。
© 版权声明

相关文章