## 华为开源SINQ AI量化技术:显存占用减半 70%,RTX4090性能匹敌A100

AI资讯2个月前发布 ainav
41 0

近日,华为苏黎世计算系统实验室宣布推出全新开源量化技术——SINQ(Sinkhorn 归一化量化),该技术旨在显著降低大语言模型的显存占用和运行成本。

作为一项无需复杂校准流程的技术,SINQ可以直接集成到现有工作流中。其源代码已通过 Apache 2.0 许可证在 GitHub 和 Hugging Face 平台上开放,支持任何人自由使用、修改和商业化部署。

SINQ的核心优势在于其卓越的压缩能力。测试结果显示,该技术可使各类规模模型的显存占用减少 60% 到 70%,这意味着原本需要超过60GB显存运行的大型模型,现在仅需20GB即可部署。

## 华为开源SINQ AI量化技术:显存占用减半 70%,RTX4090性能匹敌A100

借助SINQ,过去需要企业级 GPU(如英伟达 A100 80GB 或 H100)才能完成的任务,现在仅需一张消费级显卡(如 RTX 4090)即可运行。对于云端用户而言,这不仅降低了硬件投入成本,还显著减少了每小时的算力支出。

SINQ的技术突破源于两大创新:首先,它采用了独特的“双轴采样”策略,通过分别为矩阵的行和列设置独立的缩放向量,更灵活地分散量化误差,从而有效抑制了异常值的影响。其次,SINQ引入了一种受 Sinkhorn 迭代启发的快速归一化算法,用于平衡矩阵行列的标准差,显著减少了“矩阵不平衡”现象,并提升了量化后的模型精度。

## 华为开源SINQ AI量化技术:显存占用减半 70%,RTX4090性能匹敌A100

在性能评估中,SINQ的表现全面超越了包括RTN、HQQ在内的多种主流免校准量化方法。通过对Qwen3、LLaMA等主流模型的测试,在WikiText2等标准数据集上,SINQ显著降低了困惑度(Perplexity),其性能表现已接近甚至超过了需要数据校准的传统方案。

## 华为开源SINQ AI量化技术:显存占用减半 70%,RTX4090性能匹敌A100

此外,SINQ的量化速度表现优异。相比HQQ快约2倍,较AWQ更是快出30倍以上,充分满足了研究和生产环境中对效率的高要求。

量化技术是一种模型压缩手段,通过降低模型内部数据的精度来减小其体积和显存占用。类似于将一张高精度照片(如浮点数)转换为文件更小但人眼几乎看不出差异的普通照片(如整数),从而使模型运行更快、资源消耗更少。

困惑度(Perplexity)是评估语言模型性能的重要指标,衡量的是模型对一段新文本的“惊讶”或“不确定”程度。困惑度越低,表示模型预测越准确,语言能力越强。

参考文献

  • Github

  • Hugging Face

  • SINQ: Sinkhorn-Normalized Quantization for Calibration-Free Low-Precision LLM Weights

  • Sinkhorn-Normalized Quantization

© 版权声明

相关文章