字节发布MARS框架——旨在提升大模型训练效能

AI工具3个月前发布 ainav
79 0

MARS代表的是什么?

MARS(让方差缩减大放异彩)是由字节跳动开发的一款创新性优化框架,旨在提高大型模型训练的速度与效率。该框架结合了预条件梯度法和方差减少技术,并通过缩放随机递归动量技巧来改进梯度的估计方法。MARS具有高度灵活性,能够支持全矩阵或对角Hessian近似的应用,并据此衍生出了三种基于AdamW、Lion及Shampoo优化算法的具体实现方案。实验数据显示,在训练GPT-2模型的过程中,相较于传统的AdamW优化器,MARS展现了更为优异的性能表现。

MARS

MARS的核心作用

  • 提升训练效能MARS融合了预条件梯度技术和方差缩减策略,旨在提升大规模模型训练的速度与效能,特别在深度神经网络及大体量语言模型的培训过程中表现突出。
  • 一体化改进方案:构建一个能够兼容多种Hessian逼近技术的通用平台,涵盖完整矩阵及对角线矩阵的逼近方案。
  • 算法的具体实现于MARS架构中,我们具体实现了三个优化算法的例子:采用不同预条件梯度调整方法的MARS-AdamW、MARS-Lion及MARS-Shampoo。
  • 降低变异度采用缩放随机递归动量方法,显著降低训练期间的梯度波动,促进模型更快达到收敛状态。

MARS的核心技术机制

  • 预先设定的梯度技术通过采用预先设定的梯度策略来优化学习速率,确保每一个参数或者每一群组都能获得个性化的学习速率,以匹配它们各自的局部曲线特征。
  • 降低方差的技术通过采用诸如STORM(基于随机递归动量)等降低方差的技术手段,可以减小随机梯度的变化幅度,并加快优化流程的速度。
  • 随机缩放递归动量在STORM框架中加入比例因子以调节方差衰减的程度,并由此构建了一个改良版的梯度估算方法。
  • 梯度修剪与指数滑动平均值为了提升训练的稳定性能,MARS采用了梯度裁剪技术来调整其梯度估算,并利用指数移动平均(EMA)方法来处理递归动量的计算。

MARS项目的网址位置

  • arXiv科技文章访问该链接可查阅论文的PDF版本:https://arxiv.org/pdf/2411.10438,其中包含了最新的研究成果。

MARS的使用情境

  • 对深度学习算法进行培训:对深度神经网络进行培训,特别是那些拥有大量参数的复杂架构。
  • 大型语言模型提升像GPT这类大型语言模型的训练流程效果,旨在增强其培训速度与整体表现。
  • 图像识别作业在如图像分类与目标检测这样的计算机视觉技术范畴内,加快模型训练的速度并增强其泛化性能。
  • 增强型学习方法在执行强化学习的过程中,调整策略网络或是价值函数的参数尤为关键,特别是在处理具有高度波动性的梯度情况时。
  • 建议使用系统架构在开发推荐系统的过程中,调整和完善模型的参数设置,以更有效地管理大量用户的个性化特性和项目属性。
© 版权声明

相关文章