OpenAI GPT-5编程测试存疑:自删23题 设定标准遭质疑

AI资讯3个月前发布 ainav
59 0

虽然GPT-5在编程能力方面备受期待,但其实际表现可能并不如官方宣传的那样优秀。

SWE-bench Verified作为评估模型编程能力的重要基准,本应包含500道测试题。然而,OpenAI在测试中仅使用了其中的477道题目,将剩余23道题目排除在外。

这种做法引发了广泛质疑:如果评估基准由自己制定并删减部分题目,其公正性如何保证?

更令人困惑的是,OpenAI在推出GPT-4时就曾采取过类似的操作。当时他们声称SWE-bench无法全面评估模型能力,并与该基准的作者合作改进测试集。

经过一番努力,最终筛选出500道高质量题目,其中包括难度分级的测试题。

然而,在实际评估中,OpenAI却未完全采用这一成果。Claude 4 Opus在完整的SWE-bench基准测试中表现优于GPT-5,进一步凸显了后者的评分问题。

OpenAI GPT-5编程测试存疑:自删23题 设定标准遭质疑

专家指出,这种自删测试题的做法可能会影响评估结果的客观性。GPT-5在编程任务中的真实能力究竟如何?或许更值得参考的是最初的SWE-bench榜单。

在这个榜单中,Claude 4 Opus仍然占据领先地位,而GPT-5的表现则显得不够突出。

总的来说,GPT-5的编程能力究竟如何?或许还需要更多客观、独立的研究来验证。你是否也有类似的经历或看法?欢迎在评论区分享你的观点。

参考链接:

  • [1]https://www.swebench.com/

  • [2]https://openai.com/index/introducing-gpt-5/

  • [3]https://www.anthropic.com/news/claude-opus-4-1

  • [4]https://x.com/SemiAnalysis_/status/1955028150217478177

  • [5]https://x.com/DavidOndrej1/status/1954158161721487482

本文来自微信公众号:量子位(ID:QbitAI),作者:白交,原标题《GPT-5 编程成绩有猫腻!自删 23 道测试题,关键基准还是自己提的》

© 版权声明

相关文章