4月16日最新消息显示,科技媒体bleepingcomputer昨日发布博文指出,OpenAI新近推出的GPT-4.1系列模型虽然在性能上较前代有显著提升,但在与谷歌Gemini系列的对比中仍显不足。
据官方数据显示,OpenAI此次发布的GPT-4.1、GPT-4.1 mini和GPT-4.1 nano版本在编程能力方面实现了长足进步。特别是在SWE-bench Verified测试中,GPT-4.1的表现尤为突出。
具体来看,在SWE-bench Verified跑分测试中,GPT-4o得分为21.4%,GPT-4.5为26.6%,而最新的GPT-4.1则达到了54.6%的水平。这一数据充分展现了新版本模型在编程能力上的显著提升。
尽管如此,GPT-4.1在与谷歌Gemini系列的对比中仍显示出一定劣势。
根据Stagehand浏览器自动化框架发布的基准测试数据,Gemini 2.0 Flash模型的表现尤为亮眼。其错误率仅为6.67%,精确匹配率达到90%。相比之下,GPT-4.1的错误率高达16.67%,且运行成本是Gemini 2.0 Flash的十倍以上。
来自哈佛大学的RNA科学家Pierre Bongrand也提供了相关数据,进一步证实了GPT-4.1在性价比方面不及Gemini 2.0 Flash和其他同类模型。
值得注意的是,尽管GPT-4.1被归类为非推理模型,但其在编码能力方面仍处于行业领先地位。
© 版权声明
文章版权归作者所有,未经允许请勿转载。