外国高中生开发AI评测平台让模型在《我的世界》中一较高下

AI资讯1年前 (2025)发布 ainav

310 0 0

3月22日，AI领域传来一个创新性的消息。由于传统AI基准测试方法已无法全面评估模型的能力，开发者们正寻求更具创意的评测手段。其中，微软推出的沙盒建造游戏《我的世界》成为了一个备受关注的试验场。

据外媒报道，一位名叫阿迪·辛格（Adi Singh）的高中生开发了一个专为AI评测设计的平台——Minecraft Benchmark（简称MC-Bench）。在这个平台上，不同AI模型将在《我的世界》中同台竞技，根据统一的指令来构建建筑物。用户可以对 понравившиеся作品进行投票，而最终结果才会揭晓是由哪款AI生成的具体作品。

辛格选择《我的世界》作为测试平台，其用意并不在于游戏本身，而在于它的普及度。即使是没有玩过这款游戏的人，也能分辨出哪个方块状的菠萝更加逼真。“通过《我的世界》，AI发展的进步将更加直观。人们对这款游戏的风格和视觉效果都非常熟悉。”辛格表示。

目前，MC-Bench已有8名志愿者贡献者。从该平台的信息可知，Anthropic、谷歌、OpenAI和阿里巴巴等公司为该项目提供了AI计算资源支持，但并未直接参与开发工作。

辛格指出：“当前的测试还处于基础阶段，主要用于观察从GPT-3时代至今的AI进步。未来，我们可能会拓展到更复杂的目标导向任务和长期规划能力评估。在控制性和安全性方面，《我的世界》可能是测试AI推理能力的理想选择——相比现实世界，它更加可控和安全。”

严格来说，MC-Bench仍属于编程基准测试，因为AI需要编写代码来实现建筑的生成，例如“霜雪人”或“热带风情的海滨小屋”。

与分析代码相比，普通用户更倾向于通过实际作品来评判AI的表现。至于这些测试结果是否能真正衡量AI的实际应用价值，目前仍存在争议。但辛格认为，这些数据仍然具有重要的参考价值。“MC-Bench当前的排行榜与我的实际体验高度一致，这在许多传统文本基准测试中并不常见。也许它可以帮助开发者判断自己是否走在正确的道路上。”

# AI资讯