12月18日,在江苏昆山举办的光合组织2025人工智能创新大会(HAIC2025)上,中科曙光正式发布了其最新研发的智能计算系统——scaleX万卡超集群。这是国产AI集群系统中首个实现万台级规模部署的产品,并以真机形式首次亮相。

中科曙光高级副总裁李斌表示,scaleX万卡超集群是基于该企业在大型计算机系统研发领域的丰富经验,专为应对万亿参数大模型训练、科学计算等复杂任务场景而设计的智能算力解决方案。针对AI基础设施在性能、效率、可靠性和扩展性等方面的高标准要求,该系统在多个技术层面实现了重要突破:
-
创新1:全球首个单机柜640卡设计。scaleX超集群由16个曙光scaleX640超节点通过scaleFabric高速网络互联组成,可支持部署高达10240块AI加速卡,总算力超过5EFlops。作为全球首款单机柜级640卡超节点,scaleX640采用了超高密度刀片设计和浸没相变液冷技术,将单机柜算力密度提升了20倍,PUE值优化至1.04。
-
创新2:自主RDMA高速网络。基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片,scaleFabric网络可实现400Gb/s的带宽和1微秒以内的端到端通信延迟,显著提升了超节点间的通信效率。相比传统IB网络,该方案将集群扩展能力提升了2.33倍,并降低了30%的网络成本。
-
创新3:存算传深度协同优化。通过”超级隧道”和AI数据加速技术,在芯片级、系统级到应用级实现三级数据传输的全面优化,有效解决了大模型训练中的万卡并发读写带宽难题,并使AI推理响应速度提升45%,资源利用率提高55%。
-
创新4:智能孪生与调度系统。通过物理集群的数字孪生技术,实现了从故障定位到修复的全生命周期智能化管理。运维平台可保证集群长期可用性达到99.99%,智能调度引擎能够同时管理万台级节点和十万级用户,支持每秒处理上万个作业。
scaleX万卡超集群兼容多品牌加速卡和主流计算生态,并针对400+各类大模型(包括世界模型)进行了优化适配。在实际应用中,该系统可广泛服务于大模型训练、金融风险控制、地质勘探、能源开发及科学智能等领域。