OpenAI GPT-5编程测试存疑：自删23题设定标准遭质疑

AI资讯3个月前发布 ainav

59 0 0

虽然GPT-5在编程能力方面备受期待，但其实际表现可能并不如官方宣传的那样优秀。

SWE-bench Verified作为评估模型编程能力的重要基准，本应包含500道测试题。然而，OpenAI在测试中仅使用了其中的477道题目，将剩余23道题目排除在外。

这种做法引发了广泛质疑：如果评估基准由自己制定并删减部分题目，其公正性如何保证？

更令人困惑的是，OpenAI在推出GPT-4时就曾采取过类似的操作。当时他们声称SWE-bench无法全面评估模型能力，并与该基准的作者合作改进测试集。

经过一番努力，最终筛选出500道高质量题目，其中包括难度分级的测试题。

然而，在实际评估中，OpenAI却未完全采用这一成果。Claude 4 Opus在完整的SWE-bench基准测试中表现优于GPT-5，进一步凸显了后者的评分问题。

专家指出，这种自删测试题的做法可能会影响评估结果的客观性。GPT-5在编程任务中的真实能力究竟如何？或许更值得参考的是最初的SWE-bench榜单。

在这个榜单中，Claude 4 Opus仍然占据领先地位，而GPT-5的表现则显得不够突出。

总的来说，GPT-5的编程能力究竟如何？或许还需要更多客观、独立的研究来验证。你是否也有类似的经历或看法？欢迎在评论区分享你的观点。

参考链接：

[1]https://www.swebench.com/
[2]https://openai.com/index/introducing-gpt-5/
[3]https://www.anthropic.com/news/claude-opus-4-1
[4]https://x.com/SemiAnalysis_/status/1955028150217478177
[5]https://x.com/DavidOndrej1/status/1954158161721487482

本文来自微信公众号：量子位（ID：QbitAI），作者：白交，原标题《GPT-5 编程成绩有猫腻！自删 23 道测试题，关键基准还是自己提的》

# AI资讯

文章版权归作者所有，未经允许请勿转载。

施密特警告：AI模型易被黑客利用

ainav

27 0

OpenAI推出“Pioneer Initiative”，旨在重定义AI模型评估标准

ainav

121 0

谷歌搜索AI模式升级：Gemini 2.5与智能问答功能

ainav

109 0

OpenAI计划2033年前建250吉瓦AI数据中心，耗能等同印度

ainav

11 0

Kimi Agent模式启动测试：网站开发与数据分析

ainav

53 0

英韧2026年发布PCIe 6.0 AI固态硬盘支持NVMe+CXL双协议

ainav

50 0

OpenAI GPT-5编程测试存疑：自删23题设定标准遭质疑

OpenAI神秘AI模型首次夺得信息学奥赛IOI 2025金牌

"AI视频创作工具'花生AI'助力3分钟成片，B站开启高效内容生产新模式！"

相关文章

搜索

热门文章

热门网址

OpenAI GPT-5编程测试存疑：自删23题 设定标准遭质疑

OpenAI神秘AI模型首次夺得信息学奥赛IOI 2025金牌

"AI视频创作工具'花生AI'助力3分钟成片，B站开启高效内容生产新模式！"

相关文章

搜索

热门文章

热门网址

OpenAI GPT-5编程测试存疑：自删23题设定标准遭质疑