3月19日讯,英伟达在今日举办的NVIDIA GTC 2025大会上宣布,其NVIDIA Blackwell DGX系统在大模型推理性能方面实现了重大突破。该系统基于Blackwell架构,并结合TensorRT软件平台,在DeepSeek-R1等大规模语言模型上展现出了卓越的计算效率。
与前代Hopper架构相比,Blackwell架构配合TensorRT软件展现出显著的性能提升。在多项基准测试中,基于FP4和FP8精度的DeepSeek-R1模型均取得了优异的成绩。
具体而言,在包括DeepSeek-R1、Llama 3.1 405B和Llama 3.3 70B在内的多个大型语言模型上,DGX B200和H200平台在运行TensorRT软件时,均实现了超过3倍的推理吞吐量提升。
英伟达强调,在生产部署中,通过量化技术实现低精度计算优势的同时,如何最小化精度损失是关键因素。实验表明,在DeepSeek-R1模型上,TensorRT Model Optimizer的后训练量化(PTQ)技术能够最大限度地减少精度损失。
精度 | MMLU | GSM8K | AIME 2024 | GPQA Diamond | MATH-500 |
DeepSeek R1-FP8 | 90.8% | 96.3% | 80.0% | 69.7% | 95.4% |
DeepSeek R1-FP4 | 90.7% | 96.1% | 80.0% | 69.2% | 94.2% |
值得注意的是,在DeepSeek-R1模型上,TensorRT的后训练量化技术仅导致了微小的精度损失。这一成果表明,在生产环境中,低精度计算不仅能够显著提升性能,同时还能保持较高的准确性。
总的来说,Blackwell架构与TensorRT软件平台的结合,为大规模语言模型的推理任务提供了高效的解决方案。这不仅提升了计算速度,同时也降低了能源消耗和成本,为AI技术的广泛应用奠定了坚实的基础。
© 版权声明
文章版权归作者所有,未经允许请勿转载。