ARC-AGI-2 测试：AI 模型得分惨淡，表现逊色于人类

AI资讯1年前 (2025)发布 ainav

246 0 0

3月25日消息，由知名人工智能研究员弗朗索瓦·肖莱共同创立的非营利机构Arc Prize基金会本周一在其官方博客上宣布，推出一项名为ARC-AGI-2的新测试。这一测试旨在评估领先的人工智能模型在通用智能方面的表现水平。

根据Arc Prize官方排行榜的最新数据，目前在推理领域表现突出的AI模型，例如OpenAI的o1-pro和DeepSeek的R1，在ARC-AGI-2测试中仅取得了1%至1.3%的微弱成绩。即使是GPT-4.5、Claude 3.7 Sonnet以及Gemini 2.0 Flash等性能强劲但不擅长推理的模型，其表现也仅有1%左右。

ARC-AGI-2测试示例问题

值得注意的是，ARC-AGI-2测试主要考察AI模型在通用智能方面的表现，而非单纯的计算能力。因此，即使像OpenAI的o1-pro这样在特定领域表现出色的模型，在该测试中也显得力不从心。

ARC-AGI-2测试的推出恰逢其时，当前科技界普遍认为现有评估标准已无法充分衡量人工智能技术的进步。Hugging Face联合创始人托马斯·沃尔夫近期在接受采访时指出，AI行业亟需新的、未被 saturate的基准来全面衡量通用人工智能的关键特质，尤其是创造力。

与此同时，Arc Prize基金会还宣布了2025年的竞赛计划，目标是激励开发者在ARC-AGI-2测试中达到85%的准确率，同时要求每项任务的成本控制在0.42美元（约合3元人民币）以内。

# AI资讯