记忆层级 —— Meta 发布无需提升计算能力即可扩大模型规模的技术

131 0 0

Memory Layers指的是什么

Meta推出的Memory Layers技术利用可训练的键值查找机制为模型引入额外参数，且不会提高浮点运算次数(FLOPs)。通过稀疏激活方式，Memory Layers增强前馈层的处理效率，并以较低的成本存储和检索信息。在大规模语言模型中，该方法表现出色，特别是在事实性任务上能显著提升模型性能。通过对Transformer架构中的一个或多个前馈网络(FFN)进行替换并集成记忆层，在不大幅增加计算开销的前提下，有效增强了模型的事实准确性和知识获取能力。

Memory Layers的核心作用

参数拓展允许模型通过添加更多参数来扩大其容量，同时不会提升计算复杂度（即保持FLOPs不变）。
数据保存及查找：设有特定的系统来保存和查找信息。
增加填充层：作为对计算密集型前馈层的有效补充，通过利用稀疏激活机制来实现专门的信息储存与检索能力。
增强信息精确度于事实相关的任务里，大幅增强了语言模型的精确度，使该模型能够更加精准地记住并运用其训练过程中接触到的事实信息。
增强效能在确保计算效率与参数优化的前提下，该模型的性能能够超越传统密集型及混合专家系统。

Memory Layers的核心技术机制

基于键的搜索方法该系统采用简化的键值搜索模式运行，其特征在于将键和对应的值转化为嵌入式矢量形式。对于提供的查询矢量q以及包含一组特定键K和相应值V的数据集而言，输出结果是基于这些值得到的一种加权组合；各权重由查询矢量q与各个相关联的键之间的相似度决定。
稀疏激发不同于传统注意力机制的是，在Memory Layers中，键和值被视为可以学习调整的参数，并非直接来自激活函数的结果。鉴于键和值的数量往往十分庞大，Memory Layers采用了一种稀疏访问及更新策略，仅选取与查询最匹配的前k个键及其对应的值用于输出计算之中。
寻找商品关键词为了克服在大规模存储中进行查询和关键字检索时遇到的关键障碍，Memory Layers利用了产品量化技术对关键字进行了处理，通过使用两个规模较小的关键字集合来高效地完成整个关键字集合中的前k项搜索任务。
平行化执行鉴于Memory Layers需要大量内存，通过在多块GPU之间并行执行嵌入查找与聚合操作来达成其大规模的扩展性。
共用的记忆模块参数通过利用一个共有的记忆参数库，在不扩大参数总量的前提下，依靠多层次的记忆结构来提升系统效能。

Memory Layers项目的仓库位置

官方网站项目：在大规模应用中记忆层的研究 https://ai.meta.com/publications/research/memory-layers-at-scale/
Git存储库：访问此链接以查看Facebook研究团队的Memory项目 – https://github.com/facebookresearch/memory
关于arXiv上的科技文章该论文的详细信息可以在如下链接中找到：https://arxiv.org/pdf/2412.09764，提供了研究的具体内容和发现。