OctoCodingBench – 代码AI评估开源基准

AI工具4个月前发布 ainav
74 0

OctoCodingBench介绍

OctoCodingBench是由中国公司MiniMax推出的开源评测集,主要用于评估编程代理(Coding Agent)的指令遵循能力。该评测系统通过模拟真实软件开发环境,从多个维度对Agent的能力进行全面考核。

与传统评测方法不同,OctoCodingBench不仅关注代码输出结果,更强调过程中的规范性和合规性。它通过Check-level准确率(CSR)和Instance-level成功率(ISR)这两个创新指标,全面衡量代理在复杂约束下的表现。

OctoCodingBench - 代码AI评估开源基准

OctoCodingBench的核心功能

  • 多维度指令评估体系: 系统从多个维度对编程代理进行综合评价,包括:
    • 系统约束:评估代理是否能正确理解和应用语言风格、工具使用等限制条件。
    • 用户交互:测试在多轮对话中能否准确理解并执行用户的复杂指令。
    • 项目规范:检验是否遵循代码风格、测试流程等开发规范。
    • 技能调用:考察能否合理运用不同编程技能完成任务。
    • 历史记忆:评估能否有效利用上下文信息进行连续性任务处理。
  • 过程合规性重点: 除了关注最终代码结果,更强调开发过程中的规范性和正确性。例如:
    • 是否严格按照项目文档编写代码。
    • 能否正确应用版本控制工具。
    • 是否遵循安全编码实践。
  • 创新评测指标: 引入了两个关键指标:
    • Check-level准确率(CSR):衡量每个具体约束条件下的执行准确性。
    • Instance-level成功率(ISR):评估单个开发任务的整体成功概率。

OctoCodingBench目前包含72个精心设计的测试用例,覆盖多种真实软件开发场景。这一评测体系的推出标志着编程代理技术从简单的代码生成向复杂的规范协作能力提升的重要跨越。

© 版权声明

相关文章