英伟达A100 GPU创MLPerf新纪录:10分钟训练4050亿参数AI模型

AI资讯1周前发布 ainav
18 0

11 月 13 日消息,科技媒体 Wccftech 昨日(11 月 12 日)发布博文,称在 MLPerf AI 训练基准测试中,英伟达凭借其最新的 Blackwell Ultra 架构打造的 GB300 NVL72 平台,在全部 7 个项目中均摘得桂冠,展现了强大的技术实力。

英伟达A100 GPU创MLPerf新纪录:10分钟训练4050亿参数AI模型

据博文介绍,此次测试中最令人瞩目的成绩是,GB300 NVL72 平台仅用 10 分钟便完成了拥有 4050 亿参数的 Llama 3.1 大模型的训练任务。

除此之外,在其他关键测试中也表现卓越。例如,完成 Llama 2 70B 模型的 LoRA 微调仅需 0.4 分钟,而训练 Llama 3.1 8B 模型也只需 5.2 分钟。

英伟达A100 GPU创MLPerf新纪录:10分钟训练4050亿参数AI模型

与上一代产品相比,Blackwell Ultra 架构实现了性能的重大突破。测试结果显示,在 Llama 2 70B 微调任务中,8 块 GB300 GPU 的性能是同等数量 H100 GPU 的 5 倍。

英伟达A100 GPU创MLPerf新纪录:10分钟训练4050亿参数AI模型

在 Llama 3.1 405B 预训练任务中,GB300 的性能同样表现出色,达到了 H100 的 4 倍以上,并且相比同为 Blackwell 架构的 GB200 快了近 2 倍。

英伟达A100 GPU创MLPerf新纪录:10分钟训练4050亿参数AI模型

据该媒体分析,这一性能突破得益于软硬件的协同创新。硬件方面,GB300 NVL72 系统配备了速率高达 800 GB/s 的 Quantum-X800 InfiniBand 高速网络,并为每块 GPU 配置了 279GB 的 HBM3e 高带宽内存,整个系统的总内存容量(GPU+CPU)更是达到了惊人的 40TB。

在软件层面,FP4 精度的全面应用是关键。英伟达通过在模型训练的每一层都采用 FP4 精度,将计算速度提升了 FP8 的两倍,而 Blackwell Ultra 架构则进一步将这一优势放大至 3 倍。

英伟达A100 GPU创MLPerf新纪录:10分钟训练4050亿参数AI模型

© 版权声明

相关文章