华为发布昇腾超节点技术，助力384卡高速总线互联

AI资讯1年前 (2025)发布 ainav

227 0 0

5月25日消息，在2025年5月23日举办的鲲鹏昇腾开发者大会——昇腾AI开发者峰会上，华为重磅推出了昇腾超节点技术。这一突破性进展标志着人工智能计算领域迈入了新的纪元：该技术实现了业内领先的384卡高速总线互联。

当前，大语言模型的发展呈现出一种参数和计算效率相互促进的趋势：一方面，Scaling Law持续推动模型能力逼近理论极限；另一方面，以DeepSeek为代表的创新架构与工程技术正在加速AI技术在各行业的落地应用。在此背景下，MoE（混合专家）模型逐渐成为主流结构，其复杂的并行策略带来了巨大的挑战——每次TP、SP、EP通信量高达GB级且难以优化。

传统服务器的跨机互联主要依赖以太网络，这种架构存在带宽限制。实际测试表明，当分布式训练中的并行策略（如TP、SP或EP）跨越超过8个计算节点时，网络通信带宽就会成为性能瓶颈，导致系统效率显著下降。

此次发布会上，华为昇腾超节点技术的推出具有里程碑意义。该技术打破了传统以CPU为中心的冯诺依曼架构，创新性地提出了对等计算架构，并通过高速总线互联技术实现了重大突破——将总线从服务器内部扩展至整机柜甚至跨机柜级联。在昇腾超节点集群中，通信带宽相比传统以太网络提升了15倍，单跳通信时延从2微秒缩短至200纳秒，降低了10倍，使得整个集群能够像一台超级计算机一样协同工作，有效突破了系统性能的天花板。

据华为中国官方介绍，此次发布的昇腾384超节点由12个计算柜和4个总线柜组成，是目前全球范围内规模最大的超节点架构。凭借华为在ICT领域的深厚积累和技术底蕴，该超节点通过最佳负载均衡组网方案，可进一步扩展至包含数万张显卡的Atlas 900 SuperCluster集群，为未来更大规模的AI模型发展提供了有力支撑。

性能测试数据显示，在昇腾超节点集群上运行LLaMA 3等千亿参数级稠密模型时，相比传统集群性能提升了2.5倍以上；在Qwen、DeepSeek等对通信要求更高的多模态和MoE模型上，性能提升更是高达3倍以上，较行业其他解决方案领先约10%。这一突破不仅展现了中国AI技术的创新能力，更标志着人工智能计算正式迈入了新纪元。

# AI资讯