谷歌发布最强AI翻译模型:手机也能运行TranslateGemma

AI资讯4周前发布 ainav
31 0

1 月 16 日消息,谷歌昨日(1 月 15 日)发布博文,宣布推出基于 Gemma 3 架构的 TranslateGemma 开放翻译模型系列。该系列包含三种参数规模:4B、12B 和 27B,支持包括西班牙语、中文、印地语在内的 55 种核心语言,并具备多模态图像翻译功能。目前,开发者可通过 Kaggle 和 Hugging Face 平台下载这些模型。

谷歌团队在 WMT24++ 基准测试中进行了严格评估,该基准包含 55 种语言,覆盖高、中、低资源语言,并采用 MetricX 指标进行性能测量。结果显示,TranslateGemma 的表现尤为出色:

12B 模型的翻译质量超越了参数量大两倍的 Gemma 3 27B 基线模型。这意味着开发者只需消耗一半的算力资源,即可获得更高保真的翻译结果,从而显著提升吞吐量并降低延迟。

4B 模型尽管参数最少,但其性能与 12B 基线模型相当,为移动端和边缘计算设备提供了强大的翻译能力。这一成果展示了小型模型在实际应用中的潜力。

TranslateGemma 的高性能源于独特的“两阶段微调”工艺:

第一阶段:监督微调(SFT),Google 利用 Gemini 模型生成的高质量合成数据与人工翻译数据混合,对 Gemma 3 底座进行训练;第二阶段:强化学习(RL),引入 MetricX-QE 和 AutoMQM 等先进奖励模型,引导模型生成更符合语境、更自然的译文。

在语言覆盖方面,TranslateGemma 重点优化并验证了 55 种核心语言,并进一步探索训练近 500 种语言。这一突破为学术界研究濒危语言提供了坚实基础,推动了多语种翻译技术的发展。

得益于 Gemma 3 的架构优势,TranslateGemma 完整保留了多模态能力。测试表明,无需额外针对视觉任务进行微调,其在文本翻译上的提升直接增强了图像内文字的翻译效果,实现了真正的多模态翻译能力。

为了满足不同开发需求,TranslateGemma 提供三种尺寸的模型,分别对应不同的部署场景:

  • 4B 模型专为手机和边缘设备优化,实现端侧高效推理;

  • 12B 模型适配消费级笔记本电脑,让本地开发具备研究级性能;

  • 27B 模型则面向追求极致质量的场景,可运行于单张 H100 GPU 或云端 TPU 上。

所有模型目前均已在 Kaggle、Hugging Face 及 Vertex AI 平台上架,为开发者提供了便捷的获取渠道。

© 版权声明

相关文章