## 记性差点,反更聪明:金鱼损失随机剔除token助力大模型学习

AI资讯1周前发布 ainav
5 0

适度遗忘:训练大模型时的“糊涂”智慧

在大语言模型的训练过程中,如果不加以约束,模型很容易照搬训练数据中的原文内容。为了应对这一挑战,来自马里兰大学、图宾根大学和马普所的研究团队提出了一种创新性的解决方案——金鱼损失(Goldfish Loss)

## 记性差点,反更聪明:金鱼损失随机剔除token助力大模型学习

正如其名,金鱼损失的灵感来源于金鱼的记忆特点——它们不会记住每一个细节。

在模型训练中,这一特性被转化为一种特殊的损失计算方式:通过随机剔除一小部分token,使模型无法逐字复现训练数据。

实验表明,采用金鱼损失后,LLaMA-2模型展现出显著改进:

  • 记忆能力大幅削弱:模型不再复现训练集内容

  • 生成性能保持稳定:依然能够流畅输出文本结果

正如网友的精炼总结:“dropout,但损失函数!”

## 记性差点,反更聪明:金鱼损失随机剔除token助力大模型学习

随机屏蔽机制:金鱼损失的核心原理

金鱼损失的创新性在于其独特的梯度计算方式:在模型训练过程中,随机剔除一部分训练文本中的 token,使其不参与损失计算。

这样一来,在推理阶段,当模型遇到这些位置时,将无法逐字复现训练数据的完整序列,转而依靠上下文进行预测。

为确保屏蔽的一致性,研究团队采用了基于哈希(hashing)的掩码策略。

## 记性差点,反更聪明:金鱼损失随机剔除token助力大模型学习

相比传统的正则化方法,如 dropout,金鱼损失的独特之处在于其采用了一种更为系统性的遗忘机制。

实验表明,在标准训练场景下,金鱼损失模型仍然保持了与对照组相当的生成能力。

## 记性差点,反更聪明:金鱼损失随机剔除token助力大模型学习

需要注意的是,金鱼损失的核心在于忽略部分 token 的梯度计算。这种设计要求模型必须通过更多数据来补偿这些空缺,这可能导致一定的计算效率下降。

本文来自微信公众号:量子位(ID:QbitAI),作者:henry,原标题《大模型“记性差一点”反而更聪明!金鱼损失随机剔除 token,让 AI 不再死记硬背》

© 版权声明

相关文章