微软AI编程助手软件调试能力存疑

AI资讯7天前发布 ainav
10 0

4月13日消息,人工智能领域的顶尖实验室如OpenAI、Anthropic等开发的模型在编程辅助领域得到了广泛应用。谷歌首席执行官桑达尔·皮查伊曾在去年10月透露,该公司有25%的新代码是由AI自动生成的。这一趋势也得到了Meta CEO马克·扎克伯格的支持,他表达了在公司内部大规模部署AI编程工具的决心。

尽管AI技术发展迅速,但目前最先进的人工智能模型在解决软件漏洞方面仍显不足。微软研究院的一项最新研究表明,包括Anthropic的Claude 3.7 Sonnet和OpenAI的o3-mini在内的多款主流模型,在SWE-bench Lite这一软件开发基准测试中表现不佳。

这项研究对九种不同的AI模型进行了全面评估。这些模型作为”基于单提示词的智能体”核心,能够使用包括Python调试器在内的一系列工具进行操作。研究人员为这些智能体设置了一组经过严格筛选的300项软件调试任务。

测试结果显示,即使配备了更先进、功能更强的模型,智能体的成功率依然有限,大多不超过50%。其中,Claude 3.7 Sonnet表现最佳,平均成功率达到了48.4%,其次是OpenAI的o1(30.2%),而o3-mini则为22.1%。

微软AI编程助手软件调试能力存疑

那么,为何这些AI模型的表现不尽如人意?研究者指出,部分问题源于模型在使用调试工具和理解不同工具用途方面的局限性。但更深层次的问题在于数据稀缺性。当前的训练数据中缺乏足够的”顺序决策过程”数据,即人类在调试过程中留下的行为轨迹。

研究者认为:”我们相信通过专门的数据集对这些模型进行训练或微调,可以使其成为更优秀的交互式调试工具。这需要收集智能体与调试器交互的完整轨迹数据,包括信息获取过程和修复建议等。”

这一发现其实并不意外。大量研究表明,代码生成型AI在安全性和准确性方面存在明显缺陷,这与其对编程逻辑理解的薄弱环节密切相关。最近一项针对流行AI编程工具Devin的评估显示,在20项测试中仅通过了其中3项。

尽管如此,微软这项研究仍是迄今为止对该领域问题最为详尽的分析之一。虽然它可能不会浇灭投资者对AI编程辅助工具的热情,但希望它能让开发者和管理者在选择是否将编程工作完全交给AI时更加谨慎。

值得注意的是,越来越多的科技界领袖对”AI将取代编程职业”的观点提出了质疑。微软联合创始人比尔·盖茨认为编程作为一种职业将持续存在。持有相同观点的还包括Replit CEO亚历克斯·卡彭特、Stripe联合创始人帕克等多位知名企业家。

© 版权声明

相关文章