普林斯顿开放源代码的AI编程智能体——SWE-agent

405 0 0

SWE代理的含义是什么？

由普林斯顿大学自然语言处理团队打造的开源软件工程师工具SWE-agent，借助大型语言模型（例如GPT-4）的力量来自动应对GitHub仓库内的挑战。该系统通过智能体计算机接口(ACI)与代码库互动，并具备查看、修改、测试及运行代码的能力。在经过SWE-bench基准测试时，其准确率堪比专有的AI工程师Devin，在平均93秒内解决问题，达到了顶级性能水平。

在对SWE-bench测试集的四分之一进行评估时，SWE-agent 达到了与Devin相近的准确率——成功解决了其中12.29%的问题。该项目现已开放源代码，并托管于GitHub上，相关的研究论文计划于4月10日公开发布。

访问SWE-agent的官方网站入口

官方网站地址：https://swe-agent.com/
代码仓库地址：https://github.com/princeton-nlp/SWE-agent
在线演示地址：https://swe-agent.com/showcase

SWE代理的核心作用

处理拉取请求中的难题SWE-agent具备解析GitHub仓库中问题的能力，并力求通过提交拉取请求的方式解决这些难题。
编程代码的编写及调试优化SWE-agent具备查看及修改代码仓库内文件的能力，并能自动化修正其中的缺陷与安全漏洞。
智能语法校对在编写代码时，SWE-agent能够执行代码审查任务，以保证其遵循正确的语法规则。
文档阅览工具设计了一款专用于展示文件的内容浏览器，该工具可以分批次展现100行编码内容，并配备有滚屏及查找机制，从而让用户能够更加高效地审阅与修改源码。
完整目录文本查找SWE-agent提供全面的文本检索服务，在整个目录范围内精准定位并清晰展示符合查询要求的所有文档及代码段落。
指令及其响应借助于智能体-计算机接口（ACI），SWE-agent可以理解并响应用自然语言表达的指令，同时给予适当的回应。
测试的编制与实施SWE-agent具备编写和运行测试代码的能力，以确认修复措施是否有效。

SWE代理的操作步骤

把握问题的核心起初，SWE-agent运用自然语言处理(NLP)技巧来解读位于GitHub仓库内问题陈述的内容。此过程仰赖其内置的大规模语言模型（例如GPT-4），这类模型具备分析与领悟用户提交的文本描述的能力。
人工智能与计算设备连接系统（AI-CDCS）SWE-agent借助ACI来操作代码仓库。作为一套旨在让大型模型更加便捷地与计算环境互动的指令及响应框架，ACI使SWE-agent能够实现对代码存储库的浏览、文件检索、源码审查与修改以及程序运行等功能。
程序代码的审查及修正了解问题后，SWE-agent将评估相关代码，识别潜在的缺陷或漏洞，并制定修复策略。这一过程可能会涉及调整现有的编码部分、补充遗漏的部分或是优化整体的代码架构。
自动化的软件测试流程为保证修复效果的可靠性，SWE-agent具备自动生成并运行测试案例的能力。这类测试案例的目的在于确认对代码所做的修改不仅有效解决了初始的问题，同时也未带来任何新瑕疵。
表现反馈在进行每一项行动时，SWE-agent都会收到相应的回应信息，这些回应对于衡量它的任务完成质量至关重要。尤其是在使用SWE-bench标准进行测试的情况下，该代理还会检查它所创建的拉取请求是否有效地解决问题。
更新与提升SWE-agent的架构支持持续的更新与精进。研发小组依据实际应用中的用户反馈和技术表现数据，对ACI构架进行不断完善，从而增强了SWE-agent处理问题及修正代码的能力和精确度。