12月25日讯,清华大学TSAIL实验室携手生数科技正式发布了开源视频生成加速框架TurboDiffusion。该框架在保证视频质量的同时,实现了端到端扩散模型推理速度的显著提升,具体可达到100至200倍的速度飞跃。
在技术创新方面,TurboDiffusion通过引入SageAttention和稀疏线性注意力机制(SLA)优化了注意力计算流程,显著降低了模型处理高分辨率视频时的算力消耗。这种创新性的技术方案使得模型在保持生成效果的同时,大幅提升了运行效率。
此外,研究团队还采用了时间步蒸馏(rCM)技术,有效减少了扩散模型的采样步骤数量。这些技术手段的有机结合,不仅保证了生成视频的质量,更将计算延迟降到了最低水平。
在实际测试中,TurboDiffusion展现出了令人惊叹的性能提升。针对Wan-2.1-T2V-1.3B-480P模型,单块RTX 5090显卡运行时,生成5秒视频的时间从原版的184秒大幅缩短至仅需1.9秒。
而对于参数量更大的Wan-2.2-I2V-A14B-720P模型,TurboDiffusion同样表现优异。原本需要耗时4549秒(约1.2小时)的生成任务,在应用该框架后仅需38秒即可完成。相关测试数据和对比截图如下:
即使在Wan-2.1-14B-480P模型上,TurboDiffusion依然保持了极高的运行效率。原本需要1676秒的任务,现在仅需9.9秒即可完成,远远领先于现有FastVideo等加速方案。
目前,TurboDiffusion已提供多种规格的预训练模型权重下载,并针对不同硬件配置进行了优化适配。对于RTX 5090、RTX 4090等显存容量有限的消费级显卡,团队提供了量化版(Quantized)权重,并建议开启线性层量化功能;而对于具备80GB以上显存的H100等工业级显卡,则推荐使用非量化版本以获得最佳性能表现。