英伟达创DeepSeek-R1模型AI推理性能世界纪录

55 0 0

3月19日讯，英伟达在今日举办的NVIDIA GTC 2025大会上宣布，其NVIDIA Blackwell DGX系统在大模型推理性能方面实现了重大突破。该系统基于Blackwell架构，并结合TensorRT软件平台，在DeepSeek-R1等大规模语言模型上展现出了卓越的计算效率。

与前代Hopper架构相比，Blackwell架构配合TensorRT软件展现出显著的性能提升。在多项基准测试中，基于FP4和FP8精度的DeepSeek-R1模型均取得了优异的成绩。

具体而言，在包括DeepSeek-R1、Llama 3.1 405B和Llama 3.3 70B在内的多个大型语言模型上，DGX B200和H200平台在运行TensorRT软件时，均实现了超过3倍的推理吞吐量提升。

英伟达强调，在生产部署中，通过量化技术实现低精度计算优势的同时，如何最小化精度损失是关键因素。实验表明，在DeepSeek-R1模型上，TensorRT Model Optimizer的后训练量化（PTQ）技术能够最大限度地减少精度损失。

值得注意的是，在DeepSeek-R1模型上，TensorRT的后训练量化技术仅导致了微小的精度损失。这一成果表明，在生产环境中，低精度计算不仅能够显著提升性能，同时还能保持较高的准确性。

总的来说，Blackwell架构与TensorRT软件平台的结合，为大规模语言模型的推理任务提供了高效的解决方案。这不仅提升了计算速度，同时也降低了能源消耗和成本，为AI技术的广泛应用奠定了坚实的基础。

文章版权归作者所有，未经允许请勿转载。

ainav

72 0

ainav

151 0

ainav

35 0

ainav

38 0

ainav

49 0

ainav

71 0