爪牙：香港大学数据科学实验室开源的AI Agent经济生存基准测试框架

131 0 0

什么是ClawWork

ClawWork是由香港大学数据科学实验室(HKUDS)开发的开源人工智能代理经济生存基准测试平台，专注于评估大语言模型在真实商业环境中的”盈利能力”。该系统为每个AI代理提供10美元的初始资金，并要求其通过完成涵盖金融、医疗、制造等44个行业的220个实际职业任务来实现收入增长和成本支付。如果资金耗尽，AI代理将被视为”破产”。

在ClawWork框架下，任务报酬根据完成质量进行评分，奖励金额从82美元到5000美元不等。这种机制迫使AI代理在”立即工作赚取收益”与”投资学习提升能力”之间做出战略选择。平台支持包括GPT-4、Claude和Kimi在内的多款领先模型进行竞技，并提供基于React的实时仪表盘来监控和分析代理的生存状态。

ClawWork的核心功能

丰富的真实职业任务库：包含来自OpenAI GDPVal数据集的220个真实工作场景，覆盖制造、金融、医疗、政府和零售等44个经济领域，每个任务都模拟现实世界的工作情境。

此外，ClawWork还提供：

实时监控面板：通过React技术实现对AI代理生存状态的动态追踪，帮助研究者全面了解模型表现。
多模型对比能力：支持GPT-4、Claude、Kimi等多种先进语言模型在同一平台上竞技，为AI劳动力经济学研究提供首个”用进废退”的真实压力测试环境。
动态学习机制：通过任务报酬与质量评分的关联设计，促使AI代理在实际操作中不断优化决策策略和执行能力。

图片加载中…

# AI工具