AI挑战超级马里奥：Claude 3.7 vs推理模型表现对比

AI资讯1年前 (2025)发布 ainav

212 0 0

最近，加利福尼亚大学圣地亚哥分校的 Hao 人工智能实验室（Hao AI Lab）进行了一项引人注目的研究，将AI技术应用于经典游戏《超级马里奥兄弟》中，以评估其性能表现。这一独特实验揭示了不同AI模型在复杂游戏环境中的表现差异：其中，Anthropic 的 Claude 3.7 凭借出色的操作和策略规划脱颖而出，紧随其后的是Claude 3.5版本。相比之下，谷歌的Gemini 1.5 Pro 和 OpenAI 的GPT-4o等其他模型则未能达到同样的水平。

这项实验采用了专门的GamingAgent框架，使AI能够实时感知游戏环境并做出决策。研究结果表明，Claude系列模型在快速反应和策略规划方面展现出显著优势。相比之下，传统推理模型如GPT-4o虽然在语言理解和逻辑推理上表现出色，但在动态的游戏环境中显得应对迟缓。

尽管游戏AI测试为评估模型性能提供了一个有趣的视角，但其局限性也不容忽视：与现实世界中的复杂场景相比，游戏环境过于理想化。这种标准化的评估方式可能无法完全反映AI在真实应用场景中的表现。

值得注意的是，游戏AI测试引发了一些专家对当前AI评估方法的反思。OpenAI研究科学家Andrej Karpathy就曾公开表示：”目前我真的不知道该关注哪些AI指标。”他指出，尽管这些模型在某些特定任务上表现出色，但要全面评估其真实能力仍面临诸多挑战。

无论如何，观察AI在经典游戏中的表现仍然是一项有趣的体验。它不仅让我们看到了人工智能技术的进步，也为未来更广泛的应用场景提供了有价值的参考。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

GPT-5编程测评完成率63.1% 不及格实则总分超Claude一倍

ainav

136 0

百度发布两款大模型，聚焦多模态

ainav

253 0

京东京造第二批AI玩具全球首发，全年龄段覆盖上线

ainav

104 0

吉利资本领投星动纪元完成近10亿元A+轮融资

ainav

119 0

人形机器人初创公司Figure AI获超10亿美元融资，估值达390亿美元

ainav

217 0

超400家美上市企业警示AI风险：警惕使用

ainav

128 0

一站式AI工具导航平台！汇聚超800+免费AI工具，涵盖AI写作、智能绘画、论文生成、视频制作、编程辅助、音频处理等全场景工具。每日更新热门 AIGC工具（如 Sora、AI Agent），助您快速找到提升办公、创作、学习效率的实用工具！立即访问ai-nav.net，探索 AI 新可能！

按下Ctrl+D或⌘+D 感谢收藏 ai-nav.net

友链申请免责声明广告合作关于我们站点地图提交AI工具

 度加创作工具百度AI开放平台 Bing新必应搜外友链 Manus GPTBots.ai Claude Code

Copyright © 2026 AI工具导航站粤ICP备2025438650号-2