中科曙光SCALE X万卡超集群发布

131 0 0

12月18日，在江苏昆山举办的光合组织2025人工智能创新大会（HAIC2025）上，中科曙光正式发布了其最新研发的智能计算系统——scaleX万卡超集群。这是国产AI集群系统中首个实现万台级规模部署的产品，并以真机形式首次亮相。

中科曙光高级副总裁李斌表示，scaleX万卡超集群是基于该企业在大型计算机系统研发领域的丰富经验，专为应对万亿参数大模型训练、科学计算等复杂任务场景而设计的智能算力解决方案。针对AI基础设施在性能、效率、可靠性和扩展性等方面的高标准要求，该系统在多个技术层面实现了重要突破：

创新1：全球首个单机柜640卡设计。scaleX超集群由16个曙光scaleX640超节点通过scaleFabric高速网络互联组成，可支持部署高达10240块AI加速卡，总算力超过5EFlops。作为全球首款单机柜级640卡超节点，scaleX640采用了超高密度刀片设计和浸没相变液冷技术，将单机柜算力密度提升了20倍，PUE值优化至1.04。
创新2：自主RDMA高速网络。基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片，scaleFabric网络可实现400Gb/s的带宽和1微秒以内的端到端通信延迟，显著提升了超节点间的通信效率。相比传统IB网络，该方案将集群扩展能力提升了2.33倍，并降低了30%的网络成本。
创新3：存算传深度协同优化。通过”超级隧道”和AI数据加速技术，在芯片级、系统级到应用级实现三级数据传输的全面优化，有效解决了大模型训练中的万卡并发读写带宽难题，并使AI推理响应速度提升45%，资源利用率提高55%。
创新4：智能孪生与调度系统。通过物理集群的数字孪生技术，实现了从故障定位到修复的全生命周期智能化管理。运维平台可保证集群长期可用性达到99.99%，智能调度引擎能够同时管理万台级节点和十万级用户，支持每秒处理上万个作业。

scaleX万卡超集群兼容多品牌加速卡和主流计算生态，并针对400+各类大模型（包括世界模型）进行了优化适配。在实际应用中，该系统可广泛服务于大模型训练、金融风险控制、地质勘探、能源开发及科学智能等领域。