英伟达创DeepSeek-R1模型AI推理性能世界纪录

AI资讯2周前发布 ainav
17 0

3月19日讯,英伟达在今日举办的NVIDIA GTC 2025大会上宣布,其NVIDIA Blackwell DGX系统在大模型推理性能方面实现了重大突破。该系统基于Blackwell架构,并结合TensorRT软件平台,在DeepSeek-R1等大规模语言模型上展现出了卓越的计算效率。

与前代Hopper架构相比,Blackwell架构配合TensorRT软件展现出显著的性能提升。在多项基准测试中,基于FP4和FP8精度的DeepSeek-R1模型均取得了优异的成绩。

具体而言,在包括DeepSeek-R1、Llama 3.1 405B和Llama 3.3 70B在内的多个大型语言模型上,DGX B200和H200平台在运行TensorRT软件时,均实现了超过3倍的推理吞吐量提升。

英伟达强调,在生产部署中,通过量化技术实现低精度计算优势的同时,如何最小化精度损失是关键因素。实验表明,在DeepSeek-R1模型上,TensorRT Model Optimizer的后训练量化(PTQ)技术能够最大限度地减少精度损失。

精度 MMLU GSM8K AIME 2024 GPQA Diamond MATH-500
DeepSeek R1-FP8 90.8% 96.3% 80.0% 69.7% 95.4%
DeepSeek R1-FP4 90.7% 96.1% 80.0% 69.2% 94.2%

值得注意的是,在DeepSeek-R1模型上,TensorRT的后训练量化技术仅导致了微小的精度损失。这一成果表明,在生产环境中,低精度计算不仅能够显著提升性能,同时还能保持较高的准确性。

总的来说,Blackwell架构与TensorRT软件平台的结合,为大规模语言模型的推理任务提供了高效的解决方案。这不仅提升了计算速度,同时也降低了能源消耗和成本,为AI技术的广泛应用奠定了坚实的基础。

© 版权声明

相关文章