我国超大规模智算集群管控领先:中国移动实现万卡池长周期训练稳定运行

AI资讯1个月前发布 ainav
34 0

10月14日讯 据悉,中国移动近期在智算万卡池长周期训练领域取得重大突破。其稳定运行能力达到行业领先水平,标志着我国在超大规模智算集群管控技术上已处于世界领先地位。

我国超大规模智算集群管控领先:中国移动实现万卡池长周期训练稳定运行

当前,人工智能技术正处于高速发展阶段,大模型的参数规模正在向万亿级迈进。这一趋势对智算基础设施提出了更高的要求,尤其是在算力密度、系统稳定性和资源协同效率方面。目前,万卡级规模的协同训练已成为全球范围内普遍面临的难题。

基于哈尔滨数据中心的智算集群,中国移动成功研发了全调度以太网(GSE)技术体系。该体系整合了多项创新技术:包括慢卡慢网络风险识别、断点续训机制以及AI运维智能体等。这些技术突破性地解决了超大规模智算基础设施在运行过程中面临的诸多挑战。

  • 创新慢卡慢网络风险识别技术:实现对典型场景故障的全面感知,显著提升诊断准确率。

  • 研发断点续训机制:在发生硬件故障时,系统能够自动隔离故障节点,并在分钟级别内完成训练状态回滚。这一技术使因硬件故障导致的训练中断量减少了50%。

  • 引入AI运维智能体:通过多层架构日志分析系统,实现故障的快速定位(分钟级)。该系统可覆盖25类软硬件故障,并提供相应的解决方案。将故障处理时间从数天缩短至分钟级别。

据《人民邮电报》报道,中国移动此次技术突破使大模型训练周期平均缩短了三分之一,资源利用率接近100%。这一成果为AI技术的工业化量产奠定了坚实基础,并将推动自动驾驶、生物医药、新材料研发等领域的技术进步。此外,中国移动还在黑龙江和广东建设了智算运维示范项目。

值得注意的是,在今年10月11日举办的“2025 中国移动全球合作伙伴大会”主论坛上,中国移动宣布升级其“AI+”行动计划。根据规划,到2028年底,中国移动将显著加大在人工智能领域的投入力度,总体投资规模翻倍增长。目标是建设国内规模最大、技术领先的智算基础设施,并探索十万卡级智算集群的建设,同时实现全国产智能算力规模突破100 EFLOPS。

相关阅读:

  • 《中国移动:到2028年底建成国内规模最大智算基础设施》

© 版权声明

相关文章