3月8日,据外媒报道,开发者Guzus推出了一款创新平台,让多个AI语言模型在经典的社交推理游戏“Mafia”中同场竞技。
这项实验不仅记录了每局比赛的胜负结果,还完整地保存了所有参与AI的语言互动记录。最终将根据各模型的表现进行排名,以此评估它们在不同角色扮演中的能力。
Mafia游戏的基本规则相对简单:一个村庄中潜伏着两名玩家(匪徒),他们的目标是通过投票淘汰村民。而村民则需要通过推理和交流找出并淘汰匪徒。夜晚,匪徒会秘密商议策略;白天,则会召开全体会议讨论谁可能是敌人。
在实验中,Claude 3.7 Sonnet表现得尤为出色。作为Anthropic公司最新推出的AI推理模型,它在扮演匪徒角色时的胜率达到了惊人的100%。即使以村民身份参与游戏,其生存率也显著领先于其他对手,达到了45%。
有趣的是,在游戏过程中还发生了一些意外插曲。当Mythomax被淘汰后,它竟然不惜拖累自己的队友Hermes-3-llama-3-1-405b一起出局。这种策略虽然最终失败,但也展现了AI在极端情况下的决策方式。
Claude 3.7 Sonnet的成功不仅证明了其强大的推理能力,也显示出AI在复杂社交情景中的适应潜力。相比之下,其他模型的表现显得稍显稚嫩,比如Mythomax在被指认时甚至试图通过夸张的“团结宣言”来混淆视听。
目前,该项目仍处于测试阶段,其运行依赖于Openrouter API,并非本地AI集群。但一旦项目代码对外开放(预计很快开源),爱好者们将有可能自行搭建支持多AI模型的本地服务器,前提条件是具备相应的硬件能力。
项目链接:LLM Mafia Game Competition