蚂蚁集团新模型训练成本降低:基于多芯片调优,将逐步开源

AI资讯2周前发布 ainav
16 0

3月24日,据科技媒体报道,针对外界关注的蚂蚁”百灵”大模型训练成本问题,蚂蚁集团表示已通过优化算法和架构,在多种芯片平台上实现效率提升,并取得显著的成本降低。相关技术成果已开始规划开源计划。

这一进展源于近期的重大技术创新。蚂蚁集团 Ling 团队在国际顶级预印平台Arxiv发表论文,展示了其突破性的研究方法:通过创新技术大幅降低了大模型训练对高性能硬件的依赖。

据介绍,该团队推出了两款具有里程碑意义的语言模型——百灵轻量版(Ling-Lite)和百灵增强版(Ling-Plus)。其中:

  • 百灵轻量版参数规模达168亿,激活参数27.5亿

  • 增强版基座模型则高达2900亿参数(激活参数288亿)

实验数据显示,该团队的创新方法使3000亿参数的混合专家模型能够在国产GPU等低性能硬件上实现高效训练,且其性能表现与使用英伟达芯片的传统稠密模型和现有MoE模型持平甚至更优。

这一突破性进展标志着AI技术在硬件适配性和成本控制方面取得了重要进步,相关成果已在技术社区引发广泛关注。

© 版权声明

相关文章