MIT 发布的 SVDQuant 扩散模型后期量化方法

139 0 0

SVDQuant指的是什么？

MIT的研究团队开发了一种名为SVDQuant的后训练量化技术，专门用于处理扩散模型，并将这些模型中的权重和激活值压缩至4位精度级别，从而显著减少了内存使用并加快了推理速度。该技术通过引入高精度低秩分支来吸收量化过程产生的异常值，在不牺牲图像质量的前提下实现了这一点。具体来说，在16GB 4090 GPU上运行时，SVDQuant能够达到3.5倍的显存优化和8.7倍的速度提升。此外，它兼容DiT架构以及UNet模型结构，并且可以与现有的低秩适配器（LoRAs）无缝结合使用而无需再次量化处理。因此，对于在资源有限设备上部署大规模扩散模型的应用场景来说，SVDQuant提供了一个有效的技术手段。

SVDQuant的核心作用

数值压缩把扩散模型中的权重与激活值精简至4位，以减小模型体积并节省内存空间。
加快推断过程通过降低计算的复杂性来提升模型在GPU上进行推断的速度。
低秩分叉摄取离群值通过采用低秩支路来应对量化过程中的离群值问题，以降低量化的偏差。
核心整合开发了推理引擎Nunchaku，通过整合核心组件来降低内存调用频率，从而显著增强推理性能。
兼容多类体系结构支持与DiT及UNet结构相容的扩散模型。
整合LoRA功能实现与低秩适配器（LoRAs）的完美融合，过程中不需执行再量化步骤。

SVDQuant的核心技术机制

数值化处理将模型的权重与激活值量化至四位，会对维持其性能带来考验。
离群点管理采用平滑处理方法把激活函数里的极端数值调整到权重中，并通过奇异值分解（SVD）来拆解这些权重，将其细分为一个低秩部分与一个残余部分。
低阶分叉通过在低秩分支中融入具有16位精度的异常值来调整权重，并将残差压缩至4位表示，以此简化量化的复杂性。
Eckart-Young-Mirsky原理消除权重中占主导地位的奇异值，显著降低权重的规模及极端值。
推理论坛Nunchaku开发了一种推理引擎，其核心集成了低秩组件与低精度计算路径，以此来削减内存存取频率及对内核操作的需求量，并缩短响应时间。

SVDQuant项目的仓库位置

官方网站项目：访问网址 mit.edu/hanlab/projects/svdquant 获取相关项目详情。
Git存储库：在GitHub上可以找到由MIT Han实验室维护的nunchaku项目，其地址为 https://github.com/mit-han-lab/nunchaku
arXiv科技文章访问该链接可获取文件：https://arxiv.org/pdf/2411.05007，此文档包含了详细的研究内容。
网上试用演示版：访问此链接以获取更多信息 – https://svdquant.mit.edu/