3月24日,据科技媒体报道,针对外界关注的蚂蚁”百灵”大模型训练成本问题,蚂蚁集团表示已通过优化算法和架构,在多种芯片平台上实现效率提升,并取得显著的成本降低。相关技术成果已开始规划开源计划。
这一进展源于近期的重大技术创新。蚂蚁集团 Ling 团队在国际顶级预印平台Arxiv发表论文,展示了其突破性的研究方法:通过创新技术大幅降低了大模型训练对高性能硬件的依赖。
据介绍,该团队推出了两款具有里程碑意义的语言模型——百灵轻量版(Ling-Lite)和百灵增强版(Ling-Plus)。其中:
-
百灵轻量版参数规模达168亿,激活参数27.5亿
-
增强版基座模型则高达2900亿参数(激活参数288亿)
实验数据显示,该团队的创新方法使3000亿参数的混合专家模型能够在国产GPU等低性能硬件上实现高效训练,且其性能表现与使用英伟达芯片的传统稠密模型和现有MoE模型持平甚至更优。
这一突破性进展标志着AI技术在硬件适配性和成本控制方面取得了重要进步,相关成果已在技术社区引发广泛关注。
© 版权声明
文章版权归作者所有,未经允许请勿转载。