DeepSWE：Together.ai联合Agentica开源的AI Agent框架

122 0 0

什么是DeepSWE？

DeepSWE是由Together.ai与Agentica联合开发并开源的一款AI代理框架。该框架基于Qwen3-32B模型构建，并通过强化学习技术进行训练。在权威的SWE-Bench-Verified基准测试中，DeepSWE展现出卓越的性能：测试时扩展（TTS）后准确率高达59.0%，而未使用TTS时的Pass@1准确率也达到了42.2%，双双领先于其他开源代理框架。项目团队将完整的训练数据、源代码及训练日志等资源全部开放，为开发者提供了一个学习与优化AI代理技术的理想平台，同时也推动了强化学习在软件工程领域的研究与实践。

DeepSWE：Together.ai联合Agentica开源的AI Agent框架

DeepSWE的核心功能

作为一款先进的AI代理框架，DeepSWE提供了以下核心功能：

代码理解和编辑能力：能够准确理解现有代码结构，并根据需求进行修改和优化。这使得DeepSWE在修复软件缺陷、优化系统性能以及重构代码架构等方面表现出色。
复杂问题解决能力：通过与运行环境的交互，DeepSWE可以独立完成多种复杂的软件工程任务。例如，自动修复GitHub上的已知问题、快速实现新功能需求以及智能化地进行代码调试等。
自动化测试和验证机制：内置了强大的测试能力，支持执行shell命令来完成代码构建和运行测试。系统会通过多维度的验证器（包括基于执行的和无执行的）来确保代码修改的有效性，避免破坏现有功能。
多步骤推理与优化：在处理任务时，DeepSWE能够进行多层次、多阶段的逻辑推理和决策判断。它会逐步完善解决方案，直至最终完成目标任务。这种能力使其在应对复杂工程问题时表现出色。

DeepSWE的技术架构

DeepSWE采用了多项创新技术来实现其强大的功能：

强化学习驱动训练：整个模型完全基于强化学习（Reinforcement Learning, RL）框架进行训练，无需依赖外部的强大教师模型或监督微调技术。这种纯粹的RL方法使DeepSWE能够通过与环境交互直接学习最优决策策略。
rLLM训练框架：采用了先进的rLLM（强化语言模型）训练系统，该系统专为AI代理的后期训练设计。它提供了高效的数据管理能力和灵活的训练流程支持，确保了大规模RL训练任务的顺利进行。
稀疏结果奖励机制：创新性地引入了基于稀疏结果的奖励模型。只有当生成的代码补丁通过所有测试用例时才会获得正向奖励，否则奖励为零。这种设计极大地提升了模型输出代码的质量。
测试时扩展（TTS）技术：在测试阶段，系统会生成多个可能的行为轨迹，并从中选择最优路径来解决问题。这种方法结合了基于执行和无执行验证器的优势，显著提升了模型的整体性能。
Kubernetes集群支持：为了应对大规模训练环境中的扩展需求，DeepSWE集成了Kubernetes技术，实现了容器资源的弹性调度与自动伸缩功能。这确保了训练过程的高效性和稳定性。