爪牙:香港大学数据科学实验室开源的AI Agent经济生存基准测试框架

AI工具3周前发布 ainav
57 0

什么是ClawWork

ClawWork是由香港大学数据科学实验室(HKUDS)开发的开源人工智能代理经济生存基准测试平台,专注于评估大语言模型在真实商业环境中的”盈利能力”。该系统为每个AI代理提供10美元的初始资金,并要求其通过完成涵盖金融、医疗、制造等44个行业的220个实际职业任务来实现收入增长和成本支付。如果资金耗尽,AI代理将被视为”破产”。

在ClawWork框架下,任务报酬根据完成质量进行评分,奖励金额从82美元到5000美元不等。这种机制迫使AI代理在”立即工作赚取收益”与”投资学习提升能力”之间做出战略选择。平台支持包括GPT-4、Claude和Kimi在内的多款领先模型进行竞技,并提供基于React的实时仪表盘来监控和分析代理的生存状态。

ClawWork的核心功能

  • 丰富的真实职业任务库:包含来自OpenAI GDPVal数据集的220个真实工作场景,覆盖制造、金融、医疗、政府和零售等44个经济领域,每个任务都模拟现实世界的工作情境。

此外,ClawWork还提供:

  • 实时监控面板:通过React技术实现对AI代理生存状态的动态追踪,帮助研究者全面了解模型表现。
  • 多模型对比能力:支持GPT-4、Claude、Kimi等多种先进语言模型在同一平台上竞技,为AI劳动力经济学研究提供首个”用进废退”的真实压力测试环境。
  • 动态学习机制:通过任务报酬与质量评分的关联设计,促使AI代理在实际操作中不断优化决策策略和执行能力。

图片加载中…

© 版权声明

相关文章