中国联通实现全球最长距离大模型异构混训:1500公里跨域仅损失5%算力

AI资讯22小时前发布 ainav
6 0

7月20日讯,在近日举办的中国联通合作伙伴大会上,中国联通研究院携手上海人工智能实验室等多家行业领先企业,于7月19日成功发布了具有里程碑意义的全球最长距离大模型异构混训试验成果

中国联通实现全球最长距离大模型异构混训:1500公里跨域仅损失5%算力

随着人工智能技术的迅猛发展和大模型时代的全面到来,对算力基础设施提出了更高的要求——需要具备高吞吐、低时延和高性能等特性。然而,当前的算力资源呈现出明显的异构化和多中心化趋势,面临着诸多挑战:跨域资源互联互通机制不够完善、长距离传输存在带宽与时延瓶颈、异构资源统一调度与高效融合能力有待提升。

针对这些行业痛点,中国联通联合上海人工智能实验室,以及包括阿里云、浪潮、基流科技、加佳科技等在内的多家头部企业,共同开展了大模型跨域训练和碎片化算力整合的关键技术攻关。项目基于国产异构GPU环境,依托“算力智联网 AINet”长距无损传输技术和上海人工智能实验室的“DeepLink”超大规模跨域混训方案,在上海临港与山东济南鲍山数据中心之间构建了长达1500公里的跨域异构混训系统。

据大会披露,该联合团队通过优化多种并行策略和跨域收敛比下的MoE模型及Dense模型参数配置,成功完成了超长距离千亿参数AI大模型异构混训试验。经权威测试验证,其等效算力已达到单芯片集群等效算力的95%以上,这一突破标志着中国在大规模分布式训练领域的技术实力。

  • 在网络互联层面,采用了中国联通自主研发的内置长距RDMA协议栈的RoCE交换机,有效满足了数据中心内部及跨数据中心之间的高性能网络需求;

  • 在资源调度与管理方面,通过“智驭”平台实现了对跨域网络和计算集群的统一管控和任务调度优化;

  • 在算力协同层面,借助DeepLink在训练加速、异构通信及并行策略等核心技术优势,完成了千亿参数大模型在超长距离异构GPU环境下的高效训练。

中国联通实现全球最长距离大模型异构混训:1500公里跨域仅损失5%算力

中国联通表示,此次技术突破不仅推动了算力基础设施在跨域协同调度、异构资源融合和高性能分布式训练等关键领域的实质性进步,更为下一代互联网产业的创新发展奠定了坚实的技术基础。

© 版权声明

相关文章