虽然GPT-5在编程能力方面备受期待,但其实际表现可能并不如官方宣传的那样优秀。
SWE-bench Verified作为评估模型编程能力的重要基准,本应包含500道测试题。然而,OpenAI在测试中仅使用了其中的477道题目,将剩余23道题目排除在外。
这种做法引发了广泛质疑:如果评估基准由自己制定并删减部分题目,其公正性如何保证?
更令人困惑的是,OpenAI在推出GPT-4时就曾采取过类似的操作。当时他们声称SWE-bench无法全面评估模型能力,并与该基准的作者合作改进测试集。
经过一番努力,最终筛选出500道高质量题目,其中包括难度分级的测试题。
然而,在实际评估中,OpenAI却未完全采用这一成果。Claude 4 Opus在完整的SWE-bench基准测试中表现优于GPT-5,进一步凸显了后者的评分问题。

专家指出,这种自删测试题的做法可能会影响评估结果的客观性。GPT-5在编程任务中的真实能力究竟如何?或许更值得参考的是最初的SWE-bench榜单。
在这个榜单中,Claude 4 Opus仍然占据领先地位,而GPT-5的表现则显得不够突出。
总的来说,GPT-5的编程能力究竟如何?或许还需要更多客观、独立的研究来验证。你是否也有类似的经历或看法?欢迎在评论区分享你的观点。
参考链接:
-
[1]https://www.swebench.com/
-
[2]https://openai.com/index/introducing-gpt-5/
-
[3]https://www.anthropic.com/news/claude-opus-4-1
-
[4]https://x.com/SemiAnalysis_/status/1955028150217478177
-
[5]https://x.com/DavidOndrej1/status/1954158161721487482
本文来自微信公众号:量子位(ID:QbitAI),作者:白交,原标题《GPT-5 编程成绩有猫腻!自删 23 道测试题,关键基准还是自己提的》