MHA2MLA：复旦大学、上海AI Lab等提出优化LLM推理效率的新方法

85 0 0

MHA2MLA是什么

MHA2MLA是由复旦大学、华东师范大学及上海AI实验室等顶尖机构联合开发的一种高效微调方法，该技术通过引入DeepSeek的多头潜在注意力机制（MLA），显著优化了基于Transformer架构的大语言模型（LLM）的推理效率并降低了计算成本。

MHA2MLA的核心优势在于其采用了两项创新策略：第一项是Partial-RoPE，即通过去除对注意力分数贡献较小的查询和键向量中的旋转位置编码（RoPE）维度；第二项则是基于联合奇异值分解（SVD）的低秩近似技术，通过对键值（KV）参数进行压缩来降低内存占用。这种创新方法仅需使用原始数据集0.3%到0.6%的比例即可完成微调过程，并且在大幅减少KV缓存的同时将性能损失控制在最小范围内。

MHA2MLA的主要功能

显著降低内存占用：通过低秩压缩技术，最多可使KV缓存大小减少96.87%，从而大幅降低推理时的内存需求。
保持卓越模型性能：仅需极少量数据（0.3%到0.6%原始训练数据）即可完成微调过程，并将性能损失严格控制在0.5%以内。
无缝兼容现有技术：可与量化技术（如4-bit量化）结合使用，进一步提升推理效率和模型性能。
快速部署能力：仅需少量数据即可完成从MHA到MLA的架构转换，特别适合资源受限环境下的快速部署需求。

MHA2MLA的技术原理

Partial-RoPE机制：该机制通过计算每个RoPE维度对注意力分数的贡献程度，选择性地去除那些贡献较小的维度。这种”部分旋转位置编码”的方法不仅降低了计算量和内存占用，还为后续的低秩压缩技术腾出了优化空间。
联合奇异值分解（SVDjoint）：MHA2MLA采用了创新性的键值矩阵联合分解策略。通过对键和值参数矩阵进行联合奇异值分解，用低维矩阵乘积近似原始高维矩阵。这种方法在保证键值交互信息完整性的前提下，显著降低了模型的内存占用需求。