ScreenAgent – 利用视觉语言模型驱动的电脑操控智能化工具

AI工具2个月前发布 ainav
92 0

ScreenAgent指的是什么?

吉林大学人工智能学院的一个研究团队开发了名为ScreenAgent的计算机控制智能体,该智能体利用视觉语言模型(VLM)与实际电脑显示屏互动。研发过程中设定了一个“规划-操作-反思”的流程框架来促进智能体持续地进行屏幕交互活动。其主要功能在于通过分析屏幕截图,并生成对应的鼠标和键盘动作以操控图形用户界面(GUI),实现多步骤复杂任务的自动化执行。

ScreenAgent

访问ScreenAgent的官方网址入口

  • 官方网站代码仓库:https://github.com/niuzaisheng/ScreenAgent
  • 探索最新研究成果,请访问此Arxiv论文链接:https://arxiv.org/abs/2402.07945

ScreenAgent的操作步骤

ScreenAgent的运行流程

  • 监视器查看ScreenAgent具备分析并解读电脑屏幕上捕获画面的功能。此功能利用了VNC协议,使得程序可以访问并展示桌面操作系统即时生成的影像内容。
  • 运动创造通过分析提供的屏幕截图,ScreenAgent能够创建对应的鼠标与键盘操作指令。这类操作会被编译成一系列用JSON格式表示的命令,涵盖鼠标的移动、单击、双击、滑轮滚动及拖拽动作,同时包括各种键盘输入行为。
  • 工作安排计划ScreenAgent 可以依据用户给出的任务指示,将复杂的工作拆解成多个小步骤,并针对每一个小步骤设计出具体的行动方案。这一过程包含了对工作任务的解析、细化及策略的构思。
  • 实施操作完成计划制定后,ScreenAgent会落实预先设定的子任务,它向电脑发送鼠标及键盘的操作指令来达成用户的预定目标。
  • 回顾评价完成操作后,ScreenAgent会对结果进行评估,并据此判断是重新尝试当前的子任务、转向下一子任务还是对整体计划做出调整。

ScreenAgent的工作机制

  • 视像语言系统(VLS)由于提供的内容为空,没有具体内容可以进行伪原创改写。如果您有具体段落或句子需要我帮助调整表达方式,请提供相关内容。
    • VLM是一款集成了视觉与文本解析功能的系统,能够解读图片信息,并产出匹配的文字说明。
    • 于ScreenAgent内,VLM负责分析屏幕捕获的图像,解读用户的工作指令,并设计一套操作流程以执行指定的任务。
  • 增强型学习场景由于提供的内容为空,没有具体的信息或文本可供改写。如果有具体的段落或者句子需要进行伪原创的处理,请提供详细信息。这样我才能够帮助您完成需求。
    • ScreenAgent运用VNC协议同实际电脑显示屏进行互动,构建出一个适用于强化学习的场景。在此场景中,代理能够监视显示器的状态变化即状态空间,并在动作空间内采取行动,同时依据其行为的结果来获取相应的反馈分数或奖励值即奖励函数。
  • 管理执行顺序由于提供的内容为空,没有具体的信息可以进行伪原创改写。如果您能提供一段具体的文本或信息,我就能帮助您完成这项任务了。请提供需要修改的内容吧!
    • 方案制定(Scheme Formulation):依据当前的屏幕图像与任务指引,智能体会拆分目标任务,并设计出一连串的子任务及对应的行动步骤。
    • 实施(Implementation):依据规划阶段的结果,智能体利用发送鼠标与键盘操作指令的方式控制电脑界面。
    • 深思(Contemplating):智能体会对执行完动作的结果进行评价,并据此判断是重新尝试、持续当前策略还是修改既定方案。
  • 数据集合评价由于提供的内容仅有冒号,并没有实际的文字信息供我进行伪原创的改写,请提供具体的文本内容。这样我可以帮助您完成需求。
    • ScreenAgent 数据集汇集了执行多种日常生活中的电脑操作时所捕获的屏幕图像及动作流程,旨在为模型的培训与性能测试提供支持。
    • VLCC分数(视觉语言计算控制评分)是一项细致的评价标准,旨在评估智能系统在执行计算机操控任务时的表现水平。
  • 训练模型由于提供的内容为空,没有具体的内容可以进行伪原创改写。如果有具体的段落或句子需要帮助,请提供详细信息。这样我才能按照要求完成任务。
    • ScreenAgent模型经过在特定的ScreenAgent数据集上的培训,掌握了高效策划、实施及评估策略来解决复杂电脑操作挑战的能力。其培训融合了包括监督学习、强化学习和基于人类反馈的调整(RLHF)在内的多种技术手段。
© 版权声明

相关文章