商汤与华为昇腾384超节点全面适配,创新突破显著提升训练效率

AI资讯5天前发布 ainav
9 0

9月6日,商汤科技官方宣布,其大装置SenseCore与昇腾384超节点已完成全面适配,双方在功能和性能验证方面均达到预期目标。

商汤与华为昇腾384超节点全面适配,创新突破显著提升训练效率

超节点(SuperPod)是一种通过高速互联技术整合多个GPU/NPU,形成统一计算单元的新型架构。这种创新架构有效解决了AI大模型训练中面临的算力协同和通信效率问题。

昇腾384超节点(Atlas 900 A3 SuperPoD)是华为推出的全球领先超节点方案,采用革命性的”全对等架构”。该技术成功突破了高速互联总线的技术瓶颈,将总线从单一服务器扩展至整机柜甚至跨机柜级别。通过这一创新,CPU、NPU、DPU、存储和内存等资源实现了全面互联与池化,构建出一台真正的”超级计算机”,显著提升了算力密度和互联带宽。

基于双方产品特点,商汤科技SenseCore团队与昇腾384超节点团队紧密合作,在多个技术领域实现了突破创新:

  • 调度优化:在调度能力方面, SenseCore平台不仅支持单机、多机、跨 POD等基础调度场景,还结合灵衢网络特点,实现了逻辑超节点的自动划分。这使得EP/TP通信策略能够充分发挥网络性能,显著提升了模型训练效率。

  • 跨POD训练稳定性:针对多POD场景下master/work任务rank乱序问题,SenseCore团队提交了多个修复方案(MR)。这些改进从根本上解决了跨POD训练任务可能发生的失败问题。

  • 多维度故障检测与恢复:在故障检测方面实现了全维度覆盖,包括服务器硬件、高速互联总线、RoCE网络以及任务、进程等软硬件层面。同时建立了Job/Pod/进程的多层次恢复机制,大幅提升了昇腾384超节点在训练场景中的可靠性和容错能力。

据官方消息,未来双方还将进一步拓展应用场景,重点包括大模型推理加速、智能体应用部署以及面向垂直行业的大模型训练与推理优化等方面。这将进一步推动基于SenseCore的昇腾384超节点在各行业的深度应用。

© 版权声明

相关文章