华为发布AI推理新成果:降低HBM依赖,提升大模型性能

AI资讯1个月前发布 ainav
39 0

8月10日,据《科创板日报》报道,华为计划于8月12日在”2025金融AI推理应用落地与发展论坛”上发布一项在AI推理领域的重大技术突破。这一成果有望减少中国对HBM(高带宽内存)技术的依赖,显著提升国内AI大模型的推理性能,并为中国AI推理生态的完善提供重要支持。

值得关注的是,华为在AI推理领域并非首次实现技术突破。早在2025年3月,北京大学就曾联合华为推出了DeepSeek全栈开源推理方案。该方案基于北京大学自主研发的SCOW算力平台系统和鹤思调度系统,并整合了包括DeepSeek、openEuler、MindSpore以及vLLM/RAY等多个社区的开源组件,成功实现了在昇腾处理器上的高效推理。

在性能表现方面,华为昇腾处理器已取得显著进展。例如,在CloudMatrix 384超节点部署DeepSeek V3/R1时,系统在50ms延迟约束下实现了单卡解码吞吐量突破1920 Tokens/s;而Atlas 800I A2推理服务器则在100ms延迟约束下单卡吞吐达到了808 Tokens/s。

此外,科大讯飞与华为的合作也取得了重要进展。双方成功实现了基于国产算力的MoE模型大规模跨节点专家并行集群推理,使得推理吞吐量提升了3.2倍,同时将端到端时延降低了50%,为AI技术的实际应用提供了有力支持。

© 版权声明

相关文章