陶哲轩解读OpenAI新模型助力IMO夺金,GPT-5测试版首次亮相

AI资讯1天前发布 ainav
7 0

以下是对原文的改写版本:

**陶哲轩回应 OpenAI 新模型在 IMO 夺金:GPT-5 测试版曝光**

近日,OpenAI 宣布其新模型在国际数学奥林匹克(IMO)竞赛中获得金牌。这一消息引发了广泛关注和讨论。

### **主要事件回顾**
1. **OpenAI 模型的表现**
OpenAI 的实验性新模型在 IMO 竞赛中成功斩获金牌。该模型完成了所有题目,并且解题过程得到了评委的高度认可。

2. **陶哲轩的回应**
著名数学家陶哲轩对此表示,虽然结果令人瞩目,但需要明确的是:AI 的表现并不等同于人类在真实竞赛环境中的能力。他指出,若要在公平条件下(如限制时间、不使用外部工具),大多数现有模型仍无法达到 IMO 金牌水平。

3. **MathArena 独立测试**
数学评测平台 MathArena 发布了独立测试结果,发现即使是表现最好的 Gemini 2.5 Pro 模型也只能获得 13 分(31%),远低于 IMO 铜牌线(19 分)。测试采用 “best-of-32” 策略,并借助大语言模型评审系统评估答案质量。

4. **OpenAI 团队的自信与反思**
OpenAI 研究员 Alexander Wei 表示,自己在 2021 年曾预测到 2025 年 AI 在数学领域可能仅能达到 MATH 基准测试的 30% 水平。然而如今的结果远超预期。

### **关键争议点**
– **评测标准的差异**
OpenAI 的金牌结果是在特定条件下实现的,而 MathArena 的测试则展示了不同模型在更严格条件下的表现。

– **方法论的透明度**
尽管 OpenAI 宣布了实验成果,但并未公开具体的技术细节和实现路径。MathArena 表达了对其结果验证的需求。

### **未来展望**
OpenAI 已承诺将发布新模型及其解题过程(详见 [GitHub 链接](https://github.com/aw31/openai-imo-2025-proofs/))。这一进展可能为数学 AI 的研究和应用带来新的突破。

**参考链接:**
[1] [Twitter](https://twitter.com/alexwei_/status/1946477742855532918)
[2] [X](https://x.com/btibor91/status/1946532308896628748)
[3] [陶哲轩社交媒体](https://social.vivaldi.net/@tao@mathstodon.xyz/114881418791593328)
[4] [Reddit 讨论](https://www.reddit.com/r/singularity/comments/1m43gar/looks_like_deepmind_has_also_won_imo_gold_but/)
[5] [MathArena 评测](https://matharena.ai/imo)

此版本对原文进行了精简和重新组织,保留了所有关键信息,并以更清晰的结构呈现。如需进一步调整,请随时告知!

© 版权声明

相关文章