什么是GTA?
GTA(用于通用工具代理的基准测试)是由上海交通大学与上海人工智能实验室联合开发的一个评估标准,旨在考察大型语言模型在实际应用环境中运用工具的能力。该基准通过引入真实用户提出的问题、已经部署的实际工具以及多种模式的数据输入输出来构建一个详尽且细致的评价体系,以准确反映LLMs在应对复杂情境时调用和使用工具的效果。GTA集合了229个由人类设计的任务场景,涵盖了感知分析、操作执行、逻辑推理及创意生成等多个领域,旨在检验模型能否识别并运用恰当的工具来规划行动步骤,并解决现实生活中的多样化挑战任务。
GTA的核心特性
- 实际使用者询问该集合囊括了229个由人类设计的问题实例,每个问题都旨在实现一个简单的生活实际目标。然而,在这些问题中,并未明确指出解决问题所需的步骤及具体工具有哪些。因此,需要依赖于LLM通过推理来挑选出恰当的工具并规划执行流程。
- 实际应用中的软件工具GTA搭建了一个评价系统,集成了针对感知、操作、逻辑及创新四个领域的14款工具,用以检测代理在实际任务中的表现水平。
- 多种形态的输入与输出在GTA中,整合了多种类型的输入模式,包括但不限于空间环境描述、网站截屏图示、数据表格展示、编程代码段落以及手书与印刷文档内容。此设计旨在促使系统能够解析和理解复杂多元的信息背景,并据此生成相应的文本或图像回应。
- 精细化评价在GTA框架中,制定了详细的评价标准,涵盖了对指令遵守度的精确测量(InstAcc)、选定工具准确性评估(ToolAcc)、参数预测精度检验(ArgAcc),以及结果摘要精准性分析(SummAcc),并综合考量最终答案的正确率(AccAns)。
- 评估模型性能GTA通过对语言模型进行逐级模式(step-by-step mode)与整体模式(end-to-end mode)下的评测,确保对其运用工具能力进行全面分析。
《侠盗猎车手》(GTA)所采用的技术机制解析
- 构建数据集合在创建GTA数据集的过程中,涉及到了两个主要阶段:问题是如何形成以及工具链的建立。首先,专家会提供一些示例和注释文档来定义这些问题,并且标注员还会依据这些示例去创造更多相关的问题。其次,在构建工具链方面,则是通过手动操作已经设置好的一系列工具来完成,以确保每个提出的问题都能够借助现有的工具得到解答。
- 应用启动采用类似于GTA的ReAct样式提示框架,可以指导大型语言模型依照预定格式操作工具,并解析这些工具有关的信息反馈。此框架助力于模型内部逻辑思考与策略布局,明确其在何时以及怎样使用特定工具进行工作。
- 多种媒体形式的处理GTA期望LLM能够应对并解析多种类型的输入数据,如图片与文字,并且需要该模型拥有跨越不同数据形式的综合理解和逻辑推断技能。
- 精细化评价标准GTA的设计包含了贯穿工具使用全程的评价标准,这些标准从大型语言模型开始调用工具直至执行完毕的结果进行考量,确保了对模型效能进行全面且细致的评估。
- 对比分析各模型性能通过对比分析各模型在游戏《侠盗猎车手》中的性能表现,本文指出了当前模型面对现实挑战时,在利用工具方面的局限性,并旨在为此类能够广泛应用的智能化系统未来的发展指出优化路径。
GTA项目的网址位置
- 官方网站访问网址:GTA页面位于open-compass.github.io之下
- Git存储库:在GitHub上的open-compass组织中有一个名为GTA的项目。
- HuggingFace的模型集合访问此链接以查看Jize1发布的GTA数据集:https://huggingface.co/datasets/Jize1/GTA
- arXiv科技文章在该链接中所指向的文档(可在 https://arxiv.org/pdf/2407.08713 访问)提供了研究内容,这份资料深入探讨了特定领域的最新进展。
GTA的使用情境
- 开发智能化助手通过GTA评价与培训智能助手,旨在提升其对复杂用户需求的理解与执行力,涵盖多个操作环节及各类工具的应用。
- 多种模式互动当面对需处理图像、文本及其它多媒体资料的情况时,GTA助力模型掌握整合各类输入形式以解决复杂问题的方法。
- 自动化的客户支持服务GTA致力于构建一个能够自动处理客户问题的系统,该系统需整合多种工具与资源以生成精确的答案及有效的解决方案。
- 教育培训利用GTA作为教学手段,能够指导学生们掌握设计与执行复杂任务的技巧,这些任务通常涉及多层次的逻辑思考及多种工具的应用。
- 研发工作研究团队利用GTA评估并对比多种大型语言模型的性能,并探究新的工具运用技巧,以此来促进人工智能领域的进步。
© 版权声明
文章版权归作者所有,未经允许请勿转载。