摩尔线程开源MT-MegatronLM和MT-TransformerEngine两大AI框架

AI资讯13小时前发布 ainav
3 0

近日,国内领先的半导体公司摩尔线程对外发布重要公告称,该公司已正式向开源社区开放其两项全新AI框架——MT-MegatronLM和MT-TransformerEngine。这一举措标志着中国在大语言模型训练技术领域又迈出了重要一步。

据官方介绍,这两款框架主要面向大规模语言模型的开发与训练需求。其中,MT-MegatronLM基于Megatron-LM架构打造,专为分布式训练优化;而MT-TransformerEngine则专注于高效Transformer算子实现,旨在充分释放国产GPU硬件性能。

在技术特性方面,这两个框架展现出显著优势:通过创新的混合精度训练策略(支持FP16和FP8),模型收敛速度得到大幅提升。实验数据显示,在某知名大语言模型上进行测试时,MT-MegatronLM实现了超过90%的MFU利用率,充分展现了其优异性能。

值得注意的是,这两项开源框架还对多项前沿技术进行了深度优化:

  • 创新性地实现了双管道并行策略(DualPipe),有效降低了训练过程中的通信开销;
  • 采用了新型异步检查点机制,显著提升了容错能力和训练效率;
  • 通过引入多种FP8优化策略,在保证模型精度的同时,进一步提高了训练的稳定性和性能。

摩尔线程表示,未来将持续优化这两个框架,并计划增加以下功能:

  • 支持FlashMLA和DeepGemm库的深度集成;
  • 开发更先进的重计算策略以降低显存占用;
  • 引入多种容错训练算法以增强系统稳定性。

目前,开发者已可通过以下链接访问相关开源项目:

这一系列开源框架的发布,不仅体现了中国在AI基础技术领域的持续突破,也为全球开发者提供了新的研究工具和开发平台。未来,随着更多功能的逐步完善,这些框架有望在全球大语言模型训练领域发挥更大作用。

© 版权声明

相关文章