GPT-5编程测评完成率63.1% 不及格实则总分超Claude一倍

AI资讯2个月前发布 ainav
57 0

# 重新定义AI编程能力!SWE Bench Pro新基准测试显示:主流模型仅达中等水平

在编程领域,大语言模型的表现是否真的如想象中那般强大?最近发布的一项最新基准测试给出了答案。

### 基准测试背景
SWE Bench Pro是一项针对大型语言模型(LLMs)解决真实软件工程问题能力的全面评估。该测试由Scale AI团队联合多家研究机构共同推出,旨在衡量模型在实际编程任务中的表现。

与之前的SWE Bench相比,SWE Bench Pro采用了更为严格的测试标准:
– 使用经过人工筛选和优化的”fail2pass”测试方法
– 通过”pass2pass”测试确保原有功能不受破坏
– 对测试结果进行了多次验证以保证准确性

### 测试结果概览
整体来看,主流大语言模型在SWE Bench Pro上的表现只能算中等水平:

– **最高解决率**:23.3%
– **平均解决率**:低于15%
– **最低解决率**:仅3.4%

具体到不同代码库和编程语言的测试结果显示:
– **Python和Go**:部分模型在这些语言上的解决率超过30%
– **JavaScript/TypeScript**:表现波动较大,从0%到30%不等
– **商业场景问题**:最优模型的得分也低于20%

### 模型表现分析
#### 领先模型的表现
– **GPT-5**:
– 继续保持其”全或无”的特点
– 解决率最高的编程语言是Python和Go
– 表现较为稳定,但在未回答问题上比例较高(63.1%)

– **Claude Opus 4.1**:
– 在大多数编程语言和代码库中表现稳定
– 主要失败模式为语义理解不足(35.9%)和语法错误(24.2%)

#### 其他模型的表现
– **Claude Sonnet 4**:主要问题集中在上下文处理(35.6%)和文件导航策略上
– **GEMINI 2.5**:表现较为均衡,但工具使用方面仍有待提升
– **DeepSeek Qwen-3 32B**:工具错误率最高(42.0%)

### 失败模式分析
通过分析模型在测试中的失败原因,研究团队总结出以下几点关键发现:
1. **语义理解能力不足**:这是导致错误解答的主要原因之一
2. **语法错误问题普遍**:多个模型在这方面都有显著表现
3. **工具使用效率低下**:开源模型在这方面尤其明显

### 未来展望
当前的测试结果表明,大语言模型在解决真实软件工程问题方面仍有较大改进空间。研究团队提出了以下改进建议:
1. 提升模型对编程语言语法的理解能力
2. 加强上下文管理和文件导航策略的研究
3. 优化工具集成和使用效率

谁将成为第一个突破30%大关的模型?让我们拭目以待。

**参考链接:**
1. https://x.com/vbingliu
2. https://scale.com/leaderboard/swe_bench_pro_public
3. https://x.com/ChowdhuryNeil/status/1969817448229826798
4. https://scale.com/research/swe_bench_pro

**来源:量子位(ID:QbitAI) 作者:henry**

© 版权声明

相关文章