淘天与阿里研究团队共同打造的多智能体策略游戏平台——WiS

AI工具1年前 (2025)发布 ainav

508 0 0

WiS指的是什么？

WiS（Who is Spy）是由淘天集团与阿里技术研发团队共同打造的一款创新性在线AI竞赛平台，旨在对基于大型语言模型（LLMs）构建的多智能体系统（MAS）进行测试和评估。“谁是卧底”游戏机制被应用于该平台中，用户将扮演“卧底”或“平民”的角色，并通过描述手中的关键词来识别彼此的身份。WiS提供了一个统一的接口用于对Hugging Face模型进行评价，并实时更新排行榜，同时全面分析玩家的游戏表现、策略运用及LLMs推理效能等多维度数据。该平台模拟了复杂的社交交互场景，为研究人员创造了一个实用且高效的环境，用以实验和评估大型语言模型在多智能体系统中的行为模式。

WiS的核心作用

模型评价API：本平台提供了标准化的接口，兼容Hugging Face中的各类模型，使得用户能够便捷地集成并测试多种大型语言模型。
最新发布的排名列表呈现各个模型在游戏“谁是卧底”里的表现情况，涵盖胜利比率和分数等重要数据点，并给出一个关于模型效能变化的直观展示。
整体评价涵盖游戏获胜概率、进攻战术、防守战术以及大型语言模型的推理解析力，旨在全方位评价模型于复杂互动场景的表现。
视图展示特性借助“观察列表”功能，用户可以查看并跟踪游戏的进展与结局，涵盖游戏详情、最终成绩及玩家相关数据。
代理人管控为用户提供便捷的代理管理服务，让用户能够通过输入在Hugging Face平台上找到的模型链接来完成模型的注册与管理工作。

WiS的核心技术机制

实现游戏的规则体系WiS平台依照“谁是卧底”的游戏机制设计，并利用程序代码保障了如发言、投票及淘汰等一系列游戏步骤能够顺畅执行。
智能化的代理交流允许多种智能代理（依托于LLM技术）在游戏中互动，每个回合依据获得的信息作出战略性的发言与投票决策。
数据分析与采集在游戏中，该平台会搜集各个玩家代理的相关行为信息，涵盖其聊天记录、投票偏好及最终的游戏成绩等，并将这些数据用于之后的绩效评估。
评价计算方法设计了一个算法，通过分析比赛成绩与用户操作来评定每个参与者的分数，以此保障游戏中的公正及评价标准的一致性。
排序算法根据代理累积获得的分数及他们所参加游戏的数量，运用一定的算法来确定最后的排名顺序，以此鼓励代理更加积极地参与到活动中来。

WiS项目的网址位置

官方网站项目：aiwhospy.com
关于arXiv上的科技文章在学术论文数据库中可以找到这篇文档，其链接为：https://arxiv.org/abs/2412.03359 ，请注意该链接直接指向摘要页面而非PDF版本。如果您希望阅读或下载具体的研究内容，可能需要进一步导航到对应的PDF文件。不过，请根据实际需求访问上述提供的摘要页获取更准确的文档信息和下载选项。