GPT-5编程测评完成率63.1% 不及格实则总分超Claude一倍

57 0 0

# 重新定义AI编程能力！SWE Bench Pro新基准测试显示：主流模型仅达中等水平

在编程领域，大语言模型的表现是否真的如想象中那般强大？最近发布的一项最新基准测试给出了答案。

### 基准测试背景
SWE Bench Pro是一项针对大型语言模型（LLMs）解决真实软件工程问题能力的全面评估。该测试由Scale AI团队联合多家研究机构共同推出，旨在衡量模型在实际编程任务中的表现。

与之前的SWE Bench相比，SWE Bench Pro采用了更为严格的测试标准：
– 使用经过人工筛选和优化的”fail2pass”测试方法
– 通过”pass2pass”测试确保原有功能不受破坏
– 对测试结果进行了多次验证以保证准确性

### 测试结果概览
整体来看，主流大语言模型在SWE Bench Pro上的表现只能算中等水平：

– **最高解决率**：23.3%
– **平均解决率**：低于15%
– **最低解决率**：仅3.4%

具体到不同代码库和编程语言的测试结果显示：
– **Python和Go**：部分模型在这些语言上的解决率超过30%
– **JavaScript/TypeScript**：表现波动较大，从0%到30%不等
– **商业场景问题**：最优模型的得分也低于20%

### 模型表现分析
#### 领先模型的表现
– **GPT-5**：
– 继续保持其”全或无”的特点
– 解决率最高的编程语言是Python和Go
– 表现较为稳定，但在未回答问题上比例较高（63.1%）

– **Claude Opus 4.1**：
– 在大多数编程语言和代码库中表现稳定
– 主要失败模式为语义理解不足（35.9%）和语法错误（24.2%）

#### 其他模型的表现
– **Claude Sonnet 4**：主要问题集中在上下文处理（35.6%）和文件导航策略上
– **GEMINI 2.5**：表现较为均衡，但工具使用方面仍有待提升
– **DeepSeek Qwen-3 32B**：工具错误率最高（42.0%）

### 失败模式分析
通过分析模型在测试中的失败原因，研究团队总结出以下几点关键发现：
1. **语义理解能力不足**：这是导致错误解答的主要原因之一
2. **语法错误问题普遍**：多个模型在这方面都有显著表现
3. **工具使用效率低下**：开源模型在这方面尤其明显

### 未来展望
当前的测试结果表明，大语言模型在解决真实软件工程问题方面仍有较大改进空间。研究团队提出了以下改进建议：
1. 提升模型对编程语言语法的理解能力
2. 加强上下文管理和文件导航策略的研究
3. 优化工具集成和使用效率

谁将成为第一个突破30%大关的模型？让我们拭目以待。

—

**参考链接：**
1. https://x.com/vbingliu
2. https://scale.com/leaderboard/swe_bench_pro_public
3. https://x.com/ChowdhuryNeil/status/1969817448229826798
4. https://scale.com/research/swe_bench_pro

**来源：量子位（ID：QbitAI）作者：henry**

# AI资讯

文章版权归作者所有，未经允许请勿转载。

台积电二季度AI业务营收100亿美元英伟达功绩显赫

ainav

103 0

SimilarWeb：全球AI流量趋势——谁与ChatGPT争锋？

ainav

15 0

SimilarWeb：全球AI流量趋势——谁与ChatGPT争锋？

ainav

8 0

AI初创公司Friend斥巨资百万美元在纽约地铁投放广告，部分被涂鸦破坏

ainav

47 0

亚马逊发布 Fire TV 电视产品矩阵，支持 AI 语音助手 Alexa+

ainav

35 0

谷歌报告：九成软件工程师的开发工作已融入AI工具

ainav

53 0

GPT-5编程测评完成率63.1% 不及格实则总分超Claude一倍

谷歌DeepMind更新安全框架以防模型风险

奥尔特曼预告 ChatGPT 新功能：Pro 会员专属服务，全面升级算力支持

相关文章

搜索

热门文章

热门网址