华为发布昇腾超节点技术,助力384卡高速总线互联

AI资讯1周前发布 ainav
11 0

5月25日消息,在2025年5月23日举办的鲲鹏昇腾开发者大会——昇腾AI开发者峰会上,华为重磅推出了昇腾超节点技术。这一突破性进展标志着人工智能计算领域迈入了新的纪元:该技术实现了业内领先的384卡高速总线互联

华为发布昇腾超节点技术,助力384卡高速总线互联

当前,大语言模型的发展呈现出一种参数和计算效率相互促进的趋势:一方面,Scaling Law持续推动模型能力逼近理论极限;另一方面,以DeepSeek为代表的创新架构与工程技术正在加速AI技术在各行业的落地应用。在此背景下,MoE(混合专家)模型逐渐成为主流结构,其复杂的并行策略带来了巨大的挑战——每次TP、SP、EP通信量高达GB级且难以优化。

传统服务器的跨机互联主要依赖以太网络,这种架构存在带宽限制。实际测试表明,当分布式训练中的并行策略(如TP、SP或EP)跨越超过8个计算节点时,网络通信带宽就会成为性能瓶颈,导致系统效率显著下降。

此次发布会上,华为昇腾超节点技术的推出具有里程碑意义。该技术打破了传统以CPU为中心的冯诺依曼架构,创新性地提出了对等计算架构,并通过高速总线互联技术实现了重大突破——将总线从服务器内部扩展至整机柜甚至跨机柜级联。在昇腾超节点集群中,通信带宽相比传统以太网络提升了15倍,单跳通信时延从2微秒缩短至200纳秒,降低了10倍,使得整个集群能够像一台超级计算机一样协同工作,有效突破了系统性能的天花板。

据华为中国官方介绍,此次发布的昇腾384超节点由12个计算柜和4个总线柜组成,是目前全球范围内规模最大的超节点架构。凭借华为在ICT领域的深厚积累和技术底蕴,该超节点通过最佳负载均衡组网方案,可进一步扩展至包含数万张显卡的Atlas 900 SuperCluster集群,为未来更大规模的AI模型发展提供了有力支撑。

性能测试数据显示,在昇腾超节点集群上运行LLaMA 3等千亿参数级稠密模型时,相比传统集群性能提升了2.5倍以上;在Qwen、DeepSeek等对通信要求更高的多模态和MoE模型上,性能提升更是高达3倍以上,较行业其他解决方案领先约10%。这一突破不仅展现了中国AI技术的创新能力,更标志着人工智能计算正式迈入了新纪元。

© 版权声明

相关文章