适度遗忘:训练大模型时的“糊涂”智慧
在大语言模型的训练过程中,如果不加以约束,模型很容易照搬训练数据中的原文内容。为了应对这一挑战,来自马里兰大学、图宾根大学和马普所的研究团队提出了一种创新性的解决方案——金鱼损失(Goldfish Loss)。
正如其名,金鱼损失的灵感来源于金鱼的记忆特点——它们不会记住每一个细节。
在模型训练中,这一特性被转化为一种特殊的损失计算方式:通过随机剔除一小部分token,使模型无法逐字复现训练数据。
实验表明,采用金鱼损失后,LLaMA-2模型展现出显著改进:
-
记忆能力大幅削弱:模型不再复现训练集内容
-
生成性能保持稳定:依然能够流畅输出文本结果
正如网友的精炼总结:“dropout,但损失函数!”
随机屏蔽机制:金鱼损失的核心原理
金鱼损失的创新性在于其独特的梯度计算方式:在模型训练过程中,随机剔除一部分训练文本中的 token,使其不参与损失计算。
这样一来,在推理阶段,当模型遇到这些位置时,将无法逐字复现训练数据的完整序列,转而依靠上下文进行预测。
为确保屏蔽的一致性,研究团队采用了基于哈希(hashing)的掩码策略。
相比传统的正则化方法,如 dropout,金鱼损失的独特之处在于其采用了一种更为系统性的遗忘机制。
实验表明,在标准训练场景下,金鱼损失模型仍然保持了与对照组相当的生成能力。
需要注意的是,金鱼损失的核心在于忽略部分 token 的梯度计算。这种设计要求模型必须通过更多数据来补偿这些空缺,这可能导致一定的计算效率下降。
本文来自微信公众号:量子位(ID:QbitAI),作者:henry,原标题《大模型“记性差一点”反而更聪明!金鱼损失随机剔除 token,让 AI 不再死记硬背》
© 版权声明
文章版权归作者所有,未经允许请勿转载。