近日,腾讯技术团队对DeepSeek开源的DeepEP通信框架进行了深度优化,实现了在多种网络环境下的性能显著提升。
经过全面测试,优化后的通信框架在RoCE网络环境下性能提升了100%,而在IB(InfiniBand)网络环境中则提升了30%。这一技术突破为企业级AI大模型训练提供了更为高效可靠的解决方案。
该技术方案得到了DeepSeek团队的高度认可,他们特别致谢腾讯的技术贡献,称这是对项目的一次”重大性能改进“,为社区带来了实质性的技术提升。
值得注意的是,DeepEP是一个专为专家混合(MoE)和专家并行(EP)设计的通信库。它提供高吞吐量和低延迟的全对全GPU内核,这些内核也被称为MoE分发和组合。此外,该库还支持多种低精度运算,包括FP8。
据了解,在DeepEP开源后,腾讯星脉网络团队迅速展开了技术攻关,并成功识别出两个关键性能瓶颈:双端口网卡带宽利用率不足以及CPU控制面交互时延问题。这两个问题严重制约了通信框架的整体效率。
在腾讯的技术优化下,DeepEP不仅在RoCE网络环境下实现了性能翻倍,在反哺到IB网络环境后,也使原有的通信效率提升了30%。这一成果标志着该技术已达到新的性能高度。
目前,这项技术成果已经全面开源,并且在腾讯混元大模型等多个项目的训练推理中得到实际应用。通过与腾讯星脉网络和H20服务器的深度集成,这套方案展现出了卓越的通用性和扩展性。
此次技术突破不仅提升了AI大模型训练效率,也为高性能计算领域提供了新的参考方案。腾讯将继续在相关领域深耕,推动技术创新与开源生态的发展。
© 版权声明
文章版权归作者所有,未经允许请勿转载。