香港大學與Salesforce合作推出AGUVIS —— 一個全新的統一視覺化GUI自動化架構

175 0 0

AGUVIS代表的是什么？

AGUVIS是由香港大学与Salesforce共同开发的一个统一纯粹的视觉架构，专用于自主图形用户界面智能体的操作，在多个平台（包括网页、桌面和移动设备）上都能发挥作用。该框架利用图像识别技术并结合自然语言指令来对应视觉元素，并通过一个统一的动作空间实现了跨平台的应用扩展。AGUVIS整合了显式规划与推理机制，提升了代理在复杂数字环境中自主导航及交互的能力。此架构借助大规模数据集和分阶段的训练流程，在离线和在线场景中均表现出超越现有技术的性能，成为首个无需依赖外部封闭模型即可独立完成任务的纯视觉图形用户界面智能体。

AGUVIS的核心特性

多平台独立图形用户界面互动能够在各种平台（例如网页、电脑以及手机设备）上自动完成图形用户界面相关的操作任务。
视觉分析与口头指导的结合通过把自然语言命令转化为可视界面上的具体元素来完成图形化的互动体验。
明确计划与逻辑推断结合规划与推理功能，使代理人能够解析环境并制定出高效的行动方案。
大型数据集合的创建构建一个涵盖广泛的基础知识及多模态推理能力的大型图形用户界面代理行为数据集合。

AGUVIS的核心技术机制

纯粹的视觉架构运用纯粹的视觉技术，把用户界面观测转化为图片形式，并将操作命令映射至图内坐标系上，从而增强不同场景下的适应性。
一致的动作范围利用统一的动作框架和扩展模块，在多个平台上实现相同的学习与互动体验。
视图-文本模型（VTM）以VLM为核心，例如Qwen2-VL，能够应对各种尺寸的高清图片，并将其灵活转化为视觉标记。
双步骤训练方法由于提供的内容仅有冒号，并没有实际的文字信息，因此无法进行有意义的伪原创改写。如果您能提供具体的内容或段落，我很乐意帮您完成这项任务。请再次给出需要处理的具体文本吧。
- 初期阶段：入门培训致力于让模型理解并能够与单一GUI屏幕截图内的元素互动。
- 第二个阶段：计划与逻辑思维锻炼于基本培训之上，加入更为复杂的决策与推理论证，并利用多样的代理行动数据来优化模型的训练流程。
内心自述（Internal Soliloquy）于训练过程中构建详尽的反思性叙述，其中包括细致的情境描绘、深入的思想活动及基础的动作指导，以模仿代理人的心路历程并增强其策划技能。
扩展程序框架赋予模型应对无法直接对应至当前动作集的新动作的灵活能力，使其能更好地适应不同的环境与任务需求。