DeepSeek开源大模型记忆模块:梁文锋新研究揭示下一代稀疏模型

AI资讯4周前发布 ainav
24 0

### DeepSeek 开源大模型记忆模块 Engram:下一代稀疏模型的技术突破

DeepSeek团队近期开源了一项名为Engram的记忆机制技术,并在论文中详细阐述了其在大规模语言模型中的应用。这项创新由核心成员梁文锋主导,旨在解决当前大模型面临的知识容量与计算效率之间的矛盾。

#### 1. Engram记忆模块的设计理念
Engram作为一种条件记忆机制,核心在于将特征存储与实时计算分离。通过利用查找表和降维索引,该技术能高效检索特定语境下的知识片段。这种设计不仅降低了计算复杂度,还显著提升了模型的推理效率。

#### 2. 知识存储与检索的关键创新
– **确定性寻址机制**:基于输入序列直接生成访问地址,确保了查找操作的高度并行化。
– **分层缓存策略**:高频知识片段优先驻留在GPU显存中,次级访问则通过CPU内存和NVMe SSD分级处理,有效降低了访问延迟。

#### 3. 实验结果与性能提升
在多个标准测试集上(包括MMLU、CMMLU等),Engram实现了显著的性能提升。特别是在代码理解和数学推理任务中,模型表现出色:
– **通用推理**:BBH任务提升了5分,ARC-Challenge提升了3.7分。
– **数学能力**:MATH和GSM8K分别提升了2.4分和2.2分。

#### 4. 硬件优化与效率提升
通过将1000亿参数的嵌入表卸载至CPU内存,并利用PCIe异步预取技术,Engram在推理阶段实现了极低的性能开销。具体表现为:
– **处理速度**:4B密集模型从9031 token/s降至8858 token/s。
– **延迟控制**:始终保持在3%以内的额外开销。

#### 5. 预期与未来展望
DeepSeek团队认为,条件记忆机制将成为下一代稀疏模型的核心组件。Engram不仅验证了这一技术路径的可行性,还为大规模模型的高效部署提供了新的思路。

#### 6. 论文获取与项目信息
如需深入了解Engram的技术细节,可访问以下链接:
[Engram论文](https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf)

DeepSeek的下一代稀疏模型预计将在春节前发布,敬请期待。

本文由量子位(ID:QbitAI)首发,未经授权不得转载。

© 版权声明

相关文章