苹果研发突破AI英语口音难题

AI资讯1天前发布 ainav
2 0

近日,一项由苹果公司携手多国顶尖学府及研究机构联合开展的研究项目取得了重要进展,研究人员在深入分析大语言模型时发现了一个普遍存在的”英语思维定式”问题,并在此基础上提出了创新性的解决方案。值得一提的是,在参与这项国际性研究的学者中,也有中国科研人员的身影。

苹果研发突破AI英语口音难题

在对多种语言的输出质量进行深入研究后,科学家们发现了一个显著问题:非英语语种的生成结果普遍存在语法和用词偏差。为此,研究团队特别选取了中文、法语以及基于维基百科的英文语料库进行了大规模测试。

测试结果显示,即便是经过专门优化的中文模型Qwen,在母语化表达方面仍未能完全达到人类水平;而Meta公司推出的Llama 3.1版本虽然在整体性能上表现最佳,但其生成内容的自然流畅度仍有较大提升空间。更值得注意的是,所有接受测试的语言模型在非英语输出中都不同程度地保留了英语语法结构。

这种现象表明,即使语言模型能够用中文或法语进行交流,但在底层处理机制上,它们依然倾向于使用英语作为基础思维框架。具体表现为:无论输出的是何种语言文本,其语法模式和词汇选择都难以摆脱英语的影响。

苹果研发突破AI英语口音难题

针对这一问题,研究团队创新性地提出了两项关键量化评估标准:

  • 词汇自然度(Lexical Naturalness):用于衡量模型选词是否符合母语者的习惯用法。

  • 语法自然度(Syntactic Naturalness):用来检验模型生成的句子结构是否贴合目标语言的语法规则。

为了解决这一难题,研究人员开发了一种名为”回译法”的新颖训练方法。具体来说,就是先将高质量的人工撰写中文内容翻译成英文,再将其反向翻译回中文,生成带有明显”翻译腔”的对照样本。通过这种对比学习的方式,模型能够更好地理解和模仿母语者的表达方式,在不降低基本性能的前提下显著提升了输出质量。

相关论文地址:

  • https://arxiv.org/abs/2410.15956

© 版权声明

相关文章