Delta-CoMe – 由清华携手 OpenBMB 及其他高校共同开发的新一代开源增量压缩技术

124 0 0

Delta-CoMe代表的是一个特定的概念或项目，具体含义需要根据上下文来确定。这里假设它是某个技术、模型或者计划的名称，在不改变其本质的前提下进行表述变换：

什么是Delta-CoMe？

Delta-CoMe是由清华大学NLP实验室携手OpenBMB开源社区以及北京大学和上海财经大学共同研发的一种创新型增量压缩算法。它能够在80G的A100 GPU上高效加载超过50个7B规模的模型，显著减少了大约八倍的显存使用量，并且其性能与未压缩前微调过的模型相近。该算法通过融合低秩分解和低比特量化技术来捕捉模型参数增量（Delta）中的稀疏特征，实现了混合精度下的高效压缩。这种方式不仅大幅削减了存储空间及推理过程的成本，还保证了几乎无损的模型表现力，在处理如数学、编程语言解析以及多模态等复杂任务时尤为突出。

Delta-CoMe的核心作用

模型精简通过采用混合精度压缩方法，大幅降低了大规模语言模型的数据存储与内存占用量，使得在资源配置受限的情况下部署更多模型变得可行。
维持性能稳定性在进行压缩的过程中，需维持模型的效果不变，并特别保证其在处理复杂工作（比如数学难题解答、编程代码创作及多种模式的任务）时的表现，使得经过压缩调整后的模型能够达到与原版精细调节后同等水平的功能表现。
同时执行多种任务能够并行配置多种功能各异的模型，非常适合于多用户及复杂任务管理环境，从而增强了系统在模型配置上的灵活度与效能。
提高推理效率通过开发Triton内核操作符，相较于采用PyTorch的方式，推理速率提升了接近三倍，从而显著增强了模型执行的效能。

Delta-CoMe的核心技术机制

矩阵的降秩分解通过运用奇异值分解(SVD)技术来实现模型参数变动量(Delta)的降维处理，我们观察到这些Delta参数表现出明显的低秩属性——意味着它们的变化主要体现在几大关键因素之上。
结合高低精度计算根据低秩分解的成果，运用了混合精度量化技术，在此过程中为各个特征向量指定了差异化的比特宽度。具体而言，与较大特征值关联的特征向量采用了更高精度的数据格式进行表达；相反地，那些对应较小特征值的特征向量则使用较低精度表示方式来描述，从而有效地降低了存储空间的需求。
长尾分布的应用在对Delta-CoMe的研究中发现，Delta参数的特征值遵循长尾分布模式：大多数特征值相对较小，而仅有一部分显著较大。基于此观察，研究提出了一种策略：针对那些与小特征值相关的特征向量采取更为严格的压缩措施；而对于大特征值对应的特征向量，则保持较高的精度水平以保留其重要信息。
适应性和普遍适用性Delta-CoMe技术能够适应特定类型的模型及应用场景，并展现出强大的通用能力，它支持集成到多个基础架构中，比如Llama-2、Llama-3以及Mistral等，并且能在一系列的任务执行中维持高效的性能水平。
设备性能提升为了进一步加快推理过程的速度，Delta-CoMe开发了适用于混合精度量化的Triton内核操作符，从而使其在硬件上的应用更为高效。