英伟达发布 TiDAR:单步生成多 Token,AI 吞吐量提升近 600%

AI资讯2个月前发布 ainav
73 0

12月2日,科技媒体Tom’s Hardware发布了一篇博文,详细介绍了英伟达在最新论文中提出的一种名为TiDAR的新型AI解码方法。该技术巧妙地结合了自回归(Autoregressive)与扩散(Diffusion)两种模型的优势,并利用GPU的“空闲槽位”来提升文本生成效率。

自回归模型是一种按顺序逐个生成内容的方式,类似于文字接龙。AI需要根据前一个字才能预测出下一个字,这种生成方式必须严格遵循顺序。

扩散模型常用于图像生成领域,其原理是通过逐步去除“噪声”来获得最终结果。在TiDAR中,扩散机制被用来同时预测多个可能的词选项,从而为后续筛选提供了丰富的候选内容。

目前主流的语言模型通常采用逐个Token(词元)生成的方式,这种串行处理模式导致了计算资源的巨大消耗和延迟问题。

TiDAR的核心创新在于充分利用GPU在推理过程中未被占用的“空闲算力”。通过单步生成多个Token的技术,在不降低生成质量的前提下,显著提升了响应速度并减少了GPU运行时间。

在技术实现上,TiDAR采用了独特的模型架构。一个单一的Transformer模型同时承担两项任务:标准自回归式的“下一个词预测”以及基于扩散机制的“并行起草”。

与传统投机解码(Speculative Decoding)技术不同,后者通常依赖于独立的小模型进行初步草稿生成,再由大模型修正。而TiDAR通过设计特殊的注意力掩码(Attention Mask),将输入内容划分为前缀区、验证区和起草区三个部分,实现了在同一模型内完成两步流程。

英伟达发布 TiDAR:单步生成多 Token,AI 吞吐量提升近 600%

这种结构化设计使得模型在利用扩散机制并行生成多个候选词的同时,还能通过自回归机制对这些草稿进行验证。更重要的是,该方法保持了KV缓存(KV Cache)的有效性,成功解决了早期扩散解码器在实际部署中遇到的难题。

英伟达发布 TiDAR:单步生成多 Token,AI 吞吐量提升近 600%

实验结果显示,在HumanEval和GSM8K等基准测试中,TiDAR的准确率与传统模型持平甚至略有提升。

性能方面,15亿参数版本的TiDAR实现了4.71倍的吞吐量提升;而80亿参数版本更是达到了Qwen3-8B基准的5.91倍水平。这表明在现有测试规模下,TiDAR能够有效利用GPU显存带宽,在不增加额外显存访问开销的情况下显著提高Token生成效率。

尽管实验结果令人鼓舞,但该技术目前仍面临一些限制。论文中的测试仅针对80亿参数以下的中小模型,并未涉及定制化内核优化(如fused kernels),所有实验均基于标准PyTorch环境完成。

随着模型规模和上下文窗口的扩大,计算密度可能会达到饱和点,从而削弱“多Token扩展”的成本优势。研究团队计划未来在更大规模的模型上进行验证,以评估该技术是否能成为云端大规模AI部署的有效替代方案。

参考文献

  • TiDAR: Think in Diffusion, Talk in Autoregression

© 版权声明

相关文章