谷歌发布Gemma 3 QAT AI模型,14.1GB显存需求

AI资讯12小时前发布 ainav
2 0

谷歌公司近日宣布推出全新优化版本的Gemma 3模型,通过采用量化感知训练(QAT)技术,在降低内存占用的同时保持了卓越的性能表现。

作为Gemini系列的重要成员,Gemma 3自发布以来便以其高效的运行能力和广泛的适用性受到关注。该模型最初版本已经在单块NVIDIA H100 GPU上实现了BFloat16(BF16)精度的高效运算。

谷歌发布Gemma 3 QAT AI模型,14.1GB显存需求

为满足用户对更便捷部署的需求,谷歌团队在模型优化上进行了深入探索。通过引入量化技术,显著降低了模型参数的存储需求。这种技术类似于图像压缩时减少颜色数量,从而大幅降低数据占用。

具体而言,采用int4量化后,不同版本的Gemma 3显存需求实现了显著优化:27B参数模型从54GB降至14.1GB,12B参数模型从24GB减至6.6GB,而1B参数模型仅需0.5GB显存。

谷歌发布Gemma 3 QAT AI模型,14.1GB显存需求

这一优化使得Gemma 3能够支持更多场景的应用:从高性能显卡如NVIDIA RTX 3090,到轻薄笔记本上的RTX 4060 Laptop GPU,甚至智能手机也能流畅运行其小型版本。

为确保量化过程中性能不打折扣,谷歌采用了创新的量化感知训练技术(QAT)。该技术通过在训练阶段模拟低精度运算环境,帮助模型更好地适应量化后的部署需求。实验数据显示,在约5000步训练中,模型困惑度下降了54%,展现出优秀的稳定性。

目前,Ollama、LM Studio和llama.cpp等多个主流平台均已集成这一最新成果。开发者可以通过Hugging Face或Kaggle获取官方提供的int4和Q4_0格式模型,并在Apple Silicon芯片或普通CPU上轻松运行。此外,Gemmaverse社区还提供了更多量化选项选择,满足不同场景下的多样化需求。

© 版权声明

相关文章