外国高中生开发AI评测平台 让模型在《我的世界》中一较高下

AI资讯2周前发布 ainav
25 0

3月22日,AI领域传来一个创新性的消息。由于传统AI基准测试方法已无法全面评估模型的能力,开发者们正寻求更具创意的评测手段。其中,微软推出的沙盒建造游戏《我的世界》成为了一个备受关注的试验场。

据外媒报道,一位名叫阿迪·辛格(Adi Singh)的高中生开发了一个专为AI评测设计的平台——Minecraft Benchmark(简称MC-Bench)。在这个平台上,不同AI模型将在《我的世界》中同台竞技,根据统一的指令来构建建筑物。用户可以对 понравившиеся作品进行投票,而最终结果才会揭晓是由哪款AI生成的具体作品。

外国高中生开发AI评测平台 让模型在《我的世界》中一较高下

辛格选择《我的世界》作为测试平台,其用意并不在于游戏本身,而在于它的普及度。即使是没有玩过这款游戏的人,也能分辨出哪个方块状的菠萝更加逼真。“通过《我的世界》,AI发展的进步将更加直观。人们对这款游戏的风格和视觉效果都非常熟悉。”辛格表示。

目前,MC-Bench已有8名志愿者贡献者。从该平台的信息可知,Anthropic、谷歌、OpenAI和阿里巴巴等公司为该项目提供了AI计算资源支持,但并未直接参与开发工作。

辛格指出:“当前的测试还处于基础阶段,主要用于观察从GPT-3时代至今的AI进步。未来,我们可能会拓展到更复杂的目标导向任务和长期规划能力评估。在控制性和安全性方面,《我的世界》可能是测试AI推理能力的理想选择——相比现实世界,它更加可控和安全。”

外国高中生开发AI评测平台 让模型在《我的世界》中一较高下

严格来说,MC-Bench仍属于编程基准测试,因为AI需要编写代码来实现建筑的生成,例如“霜雪人”或“热带风情的海滨小屋”。

与分析代码相比,普通用户更倾向于通过实际作品来评判AI的表现。至于这些测试结果是否能真正衡量AI的实际应用价值,目前仍存在争议。但辛格认为,这些数据仍然具有重要的参考价值。“MC-Bench当前的排行榜与我的实际体验高度一致,这在许多传统文本基准测试中并不常见。也许它可以帮助开发者判断自己是否走在正确的道路上。”

© 版权声明

相关文章