MIT 发布的 SVDQuant 扩散模型后期量化方法

AI工具3个月前发布 ainav
107 0

SVDQuant指的是什么?

MIT的研究团队开发了一种名为SVDQuant的后训练量化技术,专门用于处理扩散模型,并将这些模型中的权重和激活值压缩至4位精度级别,从而显著减少了内存使用并加快了推理速度。该技术通过引入高精度低秩分支来吸收量化过程产生的异常值,在不牺牲图像质量的前提下实现了这一点。具体来说,在16GB 4090 GPU上运行时,SVDQuant能够达到3.5倍的显存优化和8.7倍的速度提升。此外,它兼容DiT架构以及UNet模型结构,并且可以与现有的低秩适配器(LoRAs)无缝结合使用而无需再次量化处理。因此,对于在资源有限设备上部署大规模扩散模型的应用场景来说,SVDQuant提供了一个有效的技术手段。

SVDQUANT

SVDQuant的核心作用

  • 数值压缩把扩散模型中的权重与激活值精简至4位,以减小模型体积并节省内存空间。
  • 加快推断过程通过降低计算的复杂性来提升模型在GPU上进行推断的速度。
  • 低秩分叉摄取离群值通过采用低秩支路来应对量化过程中的离群值问题,以降低量化的偏差。
  • 核心整合开发了推理引擎Nunchaku,通过整合核心组件来降低内存调用频率,从而显著增强推理性能。
  • 兼容多类体系结构支持与DiT及UNet结构相容的扩散模型。
  • 整合LoRA功能实现与低秩适配器(LoRAs)的完美融合,过程中不需执行再量化步骤。

SVDQuant的核心技术机制

  • 数值化处理将模型的权重与激活值量化至四位,会对维持其性能带来考验。
  • 离群点管理采用平滑处理方法把激活函数里的极端数值调整到权重中,并通过奇异值分解(SVD)来拆解这些权重,将其细分为一个低秩部分与一个残余部分。
  • 低阶分叉通过在低秩分支中融入具有16位精度的异常值来调整权重,并将残差压缩至4位表示,以此简化量化的复杂性。
  • Eckart-Young-Mirsky原理消除权重中占主导地位的奇异值,显著降低权重的规模及极端值。
  • 推理论坛Nunchaku开发了一种推理引擎,其核心集成了低秩组件与低精度计算路径,以此来削减内存存取频率及对内核操作的需求量,并缩短响应时间。

SVDQuant项目的仓库位置

  • 官方网站项目:访问网址 mit.edu/hanlab/projects/svdquant 获取相关项目详情。
  • Git存储库:在GitHub上可以找到由MIT Han实验室维护的nunchaku项目,其地址为 https://github.com/mit-han-lab/nunchaku
  • arXiv科技文章访问该链接可获取文件:https://arxiv.org/pdf/2411.05007,此文档包含了详细的研究内容。
  • 网上试用演示版:访问此链接以获取更多信息 – https://svdquant.mit.edu/

SVDQuant的使用情境

  • 便携装置与近端处理技术在手机、平板或其它便携式装置上应用扩展模型,以减小模型体积并加速推断过程,从而达成更高效的图片创建与编辑。
  • 台式计算机与专业工作平台针对内容创作者与专业设计师,在个人电脑或工作站点提升图像及视频制作效能。
  • 云服务计算环境在云环境中实施SVDQuant,以向用户供应高效的图片创作服务,涵盖虚拟换装、影像修饰及提升等功能。
  • 互动应用程序于要求即时响应的场景里,比如在游戏中或是处理虚拟现实(VR)及增强现实(AR),降低延时是提升用户操作顺畅感的关键所在。
  • 能耗较低的装置在物联网(IoT)装置及其他节能设备里,追求更高能耗效率的模型推断能力。
© 版权声明

相关文章