英伟达推出Fast-dLLM框架 AI推理速度提升27.6倍

AI资讯3天前发布 ainav
7 0

6月3日讯,科技媒体MarkTechPost昨日发布博文指出,英伟达与麻省理工学院(MIT)及香港大学合作推出Fast-dLLM框架,旨在显著提升扩散模型(Diffusion-based LLMs)的推理效率。

扩散模型作为新兴的语言生成技术,其核心优势在于采用双向注意力机制,能够实现多词元同步生成。然而,尽管在理论上具备高效潜力,实际应用中仍面临显著挑战:每次生成步骤均需重复计算全部注意力状态,导致高计算成本;同时,多词元并行解码时容易破坏词元间的依赖关系,影响生成质量。

针对这些瓶颈,英伟达团队通过创新性研发,提出了Fast-dLLM框架。该框架主要引入两项核心技术:块状近似KV缓存机制和置信度感知并行解码策略。这种创新组合有效解决了扩散模型在实际应用中的效率与质量难题。

具体而言,块状近似KV缓存机制将序列划分为多个块,并预计算存储其他块的激活值。这一方法能够在后续解码过程中重复利用已计算结果,大幅减少冗余计算。特别值得注意的是,DualCache版本进一步优化了前后缀词元的缓存策略,通过相邻推理步骤间的高相似性,显著提升了整体效率。

与此同时,置信度感知解码策略引入了一个关键阈值机制:系统会选择性地解码那些具有足够高的置信度的词元,从而避免了同步采样过程中可能产生的依赖冲突问题,同时确保生成内容的质量不受影响。

在实际测试中,Fast-dLLM展现出令人印象深刻的性能表现。例如,在GSM8K数据集上,当生成长度为1024词元时,该框架实现了8-shot配置下的27.6倍加速,并达到了76.0%的准确率;在MATH基准测试中,加速倍数达到6.5倍,准确率为39.3%。而在HumanEval和MBPP测试中,则分别实现了3.2倍和7.8倍的加速效果,同时保持了稳定的生成质量(准确率分别为54.3%和接近基线水平)。

综合来看,Fast-dLLM不仅在速度上实现了显著提升,而且仅付出轻微的质量损失代价。这一成果标志着扩散模型技术向前迈出了重要一步,为实际应用提供了更高效的解决方案。相关资料参考如下:

  • Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding 论文

  • Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding 项目界面

© 版权声明

相关文章