中科曙光发布国内首个支持百万卡扩展的开放架构AI超集群系统

75 0 0

2025年9月5日，在重庆举办的全球智能产业博览会上，中科曙光正式推出了国内首个基于AI计算开放架构理念打造的创新产品——曙光AI超集群系统。

作为一款面向未来AI计算需求设计的尖端系统，曙光AI超集群采用了以GPU为核心的高度集成化架构，实现了算力、存储、网络、能耗管理、散热以及软件控制等多维度的深度整合。这一突破性设计为万亿参数规模的大模型训练与推理、行业大模型微调优化、多模态AI模型开发以及AI在科学计算领域的广泛应用提供了强大的算力支撑。

与传统封闭系统相比，曙光AI超集群不仅通过高效的紧耦合设计实现了如同单机般强大的计算效率，更在硬件和软件生态方面展现了卓越的开放性。该系统支持多品牌AI加速卡，并完美兼容CUDA等主流AI开发环境，为用户提供高度灵活的选择空间的同时，显著降低了硬件部署成本和软件适配投入，充分保护了用户的前期投资。

以下是曙光AI超集群系统的详细技术特点：

单机柜配置突破性提升至96张GPU卡，峰值算力达百P级，内存带宽更高达180TB/s。系统支持多精度和混合精度运算，并可轻松扩展至百万规模的AI集群。
在千卡规模下，大模型训练性能较行业平均水平提升了2.3倍，开发效率提升4倍，人力投入减少70%。通过存算传一体化设计，GPU计算效率提升55%，采用先进的冷板液冷技术，实现PUE值低于1.12的绿色节能指标。
系统具备121项设备和链路RAS可靠性设计，MTBF（平均无故障时间）提升至2.1倍，MTTR（平均修复时间）缩短47%。经过严格测试，系统可稳定运行超过30天，并支持百万级部件的自动故障分析与秒级隔离。
基于开放架构理念设计，硬件层面兼容多品牌AI加速卡，软件生态全面适配主流AI计算平台，同时提供多项技术能力的开放接口与共享功能，推动行业协同发展。

此次发布的曙光AI超集群系统不仅标志着国内AI基础设施建设的重大突破，更为行业大模型开发、AI科学研究和产业智能化升级提供了强有力的技术保障。这一创新成果将在全球范围内推动AI技术的发展与应用落地。

# AI资讯