清华与北大合作开发的Android智能代理综合评价体系 —— AndroidLab

133 0 0

Android实验室是指什么？

AndroidLab是一个专为训练及评估Android自主代理而设计的平台，它整合了文本和图像操作环境，并提供统一的动作空间以及可重复使用的基准测试功能。此平台兼容大型语言模型和多模态模型，涵盖九款应用中的138项任务。借助AndroidLab，研究人员可以开发用于提升开源模型执行成功率的Android指令数据集。该框架有助于减少开源与商业闭源解决方案之间的性能差距，并推动了开放源代码技术的发展，在GitHub上提供了公开访问权限。

AndroidLab的核心特性

多种形态的操作界面创建一个统一的多模态工作平台，使得大规模语言模型与多元模式模型能够在此环境中协同作业并交流。
性能评估构建一套涵盖138个任务的评测标准，囊括九大典型应用程序，这些任务分为操作型与查询型两类，并包含了现实世界中的复杂互动情境。
评价标准采用任务达成率(SR)、细分目标成功度(Sub-SR)、逆向重复率(RRR)及适宜行动比例(ROR)等多项评价标准，以精确衡量代理执行任务的效能。
建立数据集合构建Android Instruct数据集时，通过融合自动探索技术和手动标记过程，我们能够生产出高水准的交互数据。此举旨在增强开放源代码模型的任务执行能力和操作效能。
模型的训练及优化过程提供培训及改进开源与专有模型的服务，通过指令微调大幅减少这两种类型模型间的性能差异。

Android实验室的技术基础

运行方式由于提供的内容仅有冒号，并没有实际的文字信息，因此无法对其进行伪原创的改写。如果您能提供具体的内容或文本段落，我很乐意帮您完成这项任务。请给出需要处理的具体文字吧！
- XML架构针对处理文本输入的大型语言模型而设计，该方案利用压缩过的XML数据来传达界面的状态，并使模型能够直接选定元素进行操作。
- SoM架构在设计LMMs时，采用集合标注法，把截屏图像和注释数据相融合，并让模型选取标有数字标签的部分执行相应的动作。
分析及执行架构由于提供的内容为空，没有具体内容可以进行伪原创改写。如果有具体的段落或句子需要帮助，请提供详细信息。
- ReAct架构通过分步逻辑分析与执行展现，该系统在生成动作结果时也揭示了其内部的思考步骤。
- 采用SeeAct模型将推理过程和实际行动分开处理，并通过两个阶段的互动来完成任务。首先，在第一个环节中构建出详尽的思考路径；随后，在第二个环节里根据前一步骤制定的操作指南来进行具体的行动实施。
任务规划与可重复实施针对每一个任务设定若干个分目标，并采用XML树形结构比对的方法来检查各分目标是否达成，以此保障结果的精确度及处理效率。
评价体系通过任务达成情况来评价的系统，能够直接依据设备及显示界面的状态进行分析，从而给出详尽且准确的代理效能评定。
训练数据与模型构建过程通过利用自动化的探索方法结合人工标记来创建数据集，并用于培训及调整模型参数，以增强其处理多媒体与文字输入任务的能力。

AndroidLab项目的仓库位置

Git存储库：在GitHub上可以找到由清华大学开发的Android实验室项目页面，其网址是https://github.com/THUDM/Android-Lab。
arXiv科技文章在学术资源共享平台ArXiv上发布了一篇新的研究论文，其在线地址为：https://arxiv.org/pdf/2410.24024。该文档详细阐述了相关领域的最新研究成果和理论探讨。