GPT-4.1 AI编程能力升级谷歌Gemini仍称王

AI资讯1年前 (2025)发布 ainav

305 0 0

4月16日最新消息显示，科技媒体bleepingcomputer昨日发布博文指出，OpenAI新近推出的GPT-4.1系列模型虽然在性能上较前代有显著提升，但在与谷歌Gemini系列的对比中仍显不足。

据官方数据显示，OpenAI此次发布的GPT-4.1、GPT-4.1 mini和GPT-4.1 nano版本在编程能力方面实现了长足进步。特别是在SWE-bench Verified测试中，GPT-4.1的表现尤为突出。

具体来看，在SWE-bench Verified跑分测试中，GPT-4o得分为21.4%，GPT-4.5为26.6%，而最新的GPT-4.1则达到了54.6%的水平。这一数据充分展现了新版本模型在编程能力上的显著提升。

尽管如此，GPT-4.1在与谷歌Gemini系列的对比中仍显示出一定劣势。

根据Stagehand浏览器自动化框架发布的基准测试数据，Gemini 2.0 Flash模型的表现尤为亮眼。其错误率仅为6.67%，精确匹配率达到90%。相比之下，GPT-4.1的错误率高达16.67%，且运行成本是Gemini 2.0 Flash的十倍以上。

来自哈佛大学的RNA科学家Pierre Bongrand也提供了相关数据，进一步证实了GPT-4.1在性价比方面不及Gemini 2.0 Flash和其他同类模型。

值得注意的是，尽管GPT-4.1被归类为非推理模型，但其在编码能力方面仍处于行业领先地位。

文章版权归作者所有，未经允许请勿转载。

ainav

212 0

ainav

176 0

ainav

214 0

ainav

191 0

ainav

388 0

ainav

216 0

GPT-4.1 AI编程能力升级 谷歌Gemini仍称王