陶哲轩解读OpenAI新模型助力IMO夺金，GPT-5测试版首次亮相

AI资讯1年前 (2025)发布 ainav

276 0 0

以下是对原文的改写版本：

—

**陶哲轩回应 OpenAI 新模型在 IMO 夺金：GPT-5 测试版曝光**

近日，OpenAI 宣布其新模型在国际数学奥林匹克（IMO）竞赛中获得金牌。这一消息引发了广泛关注和讨论。

### **主要事件回顾**
1. **OpenAI 模型的表现**
OpenAI 的实验性新模型在 IMO 竞赛中成功斩获金牌。该模型完成了所有题目，并且解题过程得到了评委的高度认可。

2. **陶哲轩的回应**
著名数学家陶哲轩对此表示，虽然结果令人瞩目，但需要明确的是：AI 的表现并不等同于人类在真实竞赛环境中的能力。他指出，若要在公平条件下（如限制时间、不使用外部工具），大多数现有模型仍无法达到 IMO 金牌水平。

3. **MathArena 独立测试**
数学评测平台 MathArena 发布了独立测试结果，发现即使是表现最好的 Gemini 2.5 Pro 模型也只能获得 13 分（31%），远低于 IMO 铜牌线（19 分）。测试采用 “best-of-32” 策略，并借助大语言模型评审系统评估答案质量。

4. **OpenAI 团队的自信与反思**
OpenAI 研究员 Alexander Wei 表示，自己在 2021 年曾预测到 2025 年 AI 在数学领域可能仅能达到 MATH 基准测试的 30% 水平。然而如今的结果远超预期。

### **关键争议点**
– **评测标准的差异**
OpenAI 的金牌结果是在特定条件下实现的，而 MathArena 的测试则展示了不同模型在更严格条件下的表现。

– **方法论的透明度**
尽管 OpenAI 宣布了实验成果，但并未公开具体的技术细节和实现路径。MathArena 表达了对其结果验证的需求。

### **未来展望**
OpenAI 已承诺将发布新模型及其解题过程（详见 [GitHub 链接](https://github.com/aw31/openai-imo-2025-proofs/)）。这一进展可能为数学 AI 的研究和应用带来新的突破。

—

**参考链接：**
[1] [Twitter](https://twitter.com/alexwei_/status/1946477742855532918)
[2] [X](https://x.com/btibor91/status/1946532308896628748)
[3] [陶哲轩社交媒体](https://social.vivaldi.net/@tao@mathstodon.xyz/114881418791593328)
[4] [Reddit 讨论](https://www.reddit.com/r/singularity/comments/1m43gar/looks_like_deepmind_has_also_won_imo_gold_but/)
[5] [MathArena 评测](https://matharena.ai/imo)

—

此版本对原文进行了精简和重新组织，保留了所有关键信息，并以更清晰的结构呈现。如需进一步调整，请随时告知！

# AI资讯