蚂蚁集团推出MoE大模型,国产芯片助力降低成本

AI资讯2周前发布 ainav
19 0

近日,蚂蚁集团 Ling 团队在预印版 Arxiv 平台发布重要研究成果,宣布推出两款创新性大语言模型——百灵轻量版(Ling-Lite)与百灵增强版(Ling-Plus)。该研究发表的论文题为《每一个 FLOP 都至关重要:无需高级 GPU 即可扩展 3000 亿参数混合专家 LING 大模型》,详细阐述了团队在混合专家(MoE)大语言模型领域的最新突破,特别是在低性能硬件环境下实现高效训练方面的创新。

据悉,百灵轻量版模型的参数规模为168亿(激活参数27.5亿),而增强版基座模型则达到2900亿(激活参数288亿)。实验数据显示,其3000亿参数的 MoE 大模型能够在配备国产 GPU 的低性能设备上完成高效训练,且性能表现与采用英伟达芯片的同规模稠密模型及 MoE 模型持平。这一成果标志着在不依赖高端硬件的情况下,实现了大语言模型的高性能训练。

当前,MoE 模型的训练普遍需要依赖英伟达 H100 / H800 等高性能 GPU,这不仅带来了高昂的成本,还因芯片短缺问题限制了其在资源受限环境中的应用。针对这一挑战,蚂蚁集团 Ling 团队提出了“不使用高级 GPU”来扩展模型的目标,并通过一系列创新性训练策略成功突破了硬件和预算的限制。这些策略包括:

  • 架构与训练策略的革新,采用了动态参数分配与混合精度调度技术;
  • 升级训练异常处理机制,并引入自适应容错恢复系统以缩短中断响应时间;
  • 优化模型评估流程,通过自动化评测框架将验证周期压缩超过50%;
  • 突破工具调用能力限制,利用基于知识图谱的指令微调技术提升复杂任务执行精度。

在五种不同的硬件配置下,Ling 团队完成了对 Ling-Plus 模型总计9万亿个 token 的预训练。实验结果表明,使用高性能硬件配置训练1万亿 token 的预训练成本约为635万元人民币。而通过采用蚂蚁优化方法后,低规格硬件的训练成本降至约508万元,实现了近20%的成本节省,且模型性能与阿里通义 Qwen2.5-72B-Instruct 和 DeepSeek-V2.5-1210-Chat 相当。

此前,DeepSeek 通过算法创新及工程优化,利用英伟达 H800 成功训练出性能顶尖的 V3 与 R1 模型,在降低大模型成本、提升训练效率方面取得了显著成效。蚂蚁集团此次的技术突破若得到广泛验证和推广,将为国产大模型提供更加经济高效的发展路径,助力其探索更低成本、更高效率的国产芯片或其他替代方案,从而进一步减少对英伟达芯片的依赖。

© 版权声明

相关文章