## 记性差点，反更聪明：金鱼损失随机剔除token助力大模型学习

AI资讯3个月前发布 ainav

60 0 0

适度遗忘：训练大模型时的“糊涂”智慧

在大语言模型的训练过程中，如果不加以约束，模型很容易照搬训练数据中的原文内容。为了应对这一挑战，来自马里兰大学、图宾根大学和马普所的研究团队提出了一种创新性的解决方案——金鱼损失（Goldfish Loss）。

正如其名，金鱼损失的灵感来源于金鱼的记忆特点——它们不会记住每一个细节。

在模型训练中，这一特性被转化为一种特殊的损失计算方式：通过随机剔除一小部分token，使模型无法逐字复现训练数据。

实验表明，采用金鱼损失后，LLaMA-2模型展现出显著改进：

正如网友的精炼总结：“dropout，但损失函数！”

随机屏蔽机制：金鱼损失的核心原理

金鱼损失的创新性在于其独特的梯度计算方式：在模型训练过程中，随机剔除一部分训练文本中的 token，使其不参与损失计算。

这样一来，在推理阶段，当模型遇到这些位置时，将无法逐字复现训练数据的完整序列，转而依靠上下文进行预测。

为确保屏蔽的一致性，研究团队采用了基于哈希（hashing）的掩码策略。

相比传统的正则化方法，如 dropout，金鱼损失的独特之处在于其采用了一种更为系统性的遗忘机制。

实验表明，在标准训练场景下，金鱼损失模型仍然保持了与对照组相当的生成能力。

需要注意的是，金鱼损失的核心在于忽略部分 token 的梯度计算。这种设计要求模型必须通过更多数据来补偿这些空缺，这可能导致一定的计算效率下降。

本文来自微信公众号：量子位（ID：QbitAI），作者：henry，原标题《大模型“记性差一点”反而更聪明！金鱼损失随机剔除 token，让 AI 不再死记硬背》

文章版权归作者所有，未经允许请勿转载。

ainav

39 0

ainav

122 0

ainav

145 0

ainav

4 0

ainav

68 0

ainav

46 0