华为发布AI推理新成果：降低HBM依赖，提升大模型性能

39 0 0

8月10日，据《科创板日报》报道，华为计划于8月12日在”2025金融AI推理应用落地与发展论坛”上发布一项在AI推理领域的重大技术突破。这一成果有望减少中国对HBM（高带宽内存）技术的依赖，显著提升国内AI大模型的推理性能，并为中国AI推理生态的完善提供重要支持。

值得关注的是，华为在AI推理领域并非首次实现技术突破。早在2025年3月，北京大学就曾联合华为推出了DeepSeek全栈开源推理方案。该方案基于北京大学自主研发的SCOW算力平台系统和鹤思调度系统，并整合了包括DeepSeek、openEuler、MindSpore以及vLLM/RAY等多个社区的开源组件，成功实现了在昇腾处理器上的高效推理。

在性能表现方面，华为昇腾处理器已取得显著进展。例如，在CloudMatrix 384超节点部署DeepSeek V3/R1时，系统在50ms延迟约束下实现了单卡解码吞吐量突破1920 Tokens/s；而Atlas 800I A2推理服务器则在100ms延迟约束下单卡吞吐达到了808 Tokens/s。

此外，科大讯飞与华为的合作也取得了重要进展。双方成功实现了基于国产算力的MoE模型大规模跨节点专家并行集群推理，使得推理吞吐量提升了3.2倍，同时将端到端时延降低了50%，为AI技术的实际应用提供了有力支持。

# AI资讯