OpenAI发布的人工智能实体——Operator,具备推理能力并可自主上网完成任务

AI工具3个月前发布 ainav
107 0

什么是操作员?

OpenAI最新推出的智能体名为Operator,它是一款能够模拟人类行为来操控网页浏览器的人工智能工具。该工具具备自动执行各种在线任务的能力,包括订餐、购票和填写网络表格等。Operator采用了基于Computer-Using Agent(CUA)的新模型作为其核心驱动技术,这一模型融合了GPT-4的视觉识别能力和强化学习带来的复杂推理技能。它通过捕捉屏幕图像来“阅读”网页,并利用虚拟输入设备进行互动操作。目前,这项功能处于研究测试阶段,并且仅限于美国地区的ChatGPT Pro用户使用。展望未来,OpenAI有计划逐步向更广泛的用户群体开放Operator的功能,并将其整合进ChatGPT中。

Operator

Operator的核心作用

  • 自动化的任务运行Operator能够自动化处理多项线上操作,包括预定餐馆席位、购取飞机票务、执行网络采购以及提交各类表格信息等。
  • 同时执行多项任务能够并发处理多种任务,比如在同一时间于各个网站预定旅游服务和在线购买商品。
  • 定制化配置用户能够设定个人喜好(比如偏爱的航空企业),并且存储频繁使用的操作,从而实现快捷启动。
  • 纠正自身错误及推理解释的能力当面对挑战时,Operator能够经由逻辑分析自行校正,倘若仍无法化解难题,则会将控制权归还给用户。
  • 保障安全及维护隐私权益当处理包含敏感数据的操作(例如登录和支付)时,Operator会选择要求用户直接干预,并阻止自动执行具有高度风险的任务。

操作员的工作机制

  • 使用计算机的代理(CUA)模型该系统融合了GPT-4o的图像辨识功能和经强化学习提升的高度推理技能。Operator具备理解并操控图形用户界面(GUI)的能力,能够如同普通使用者一般浏览和操纵网站。
    • 认知(Cognition)操作员利用屏幕捕获技术来收集当前用户界面上的数据信息。借助GPT-4o的强大视觉解析功能对这些图像进行评估,并精准辨识出界面中的各个组成要素,比如按钮、下拉菜单以及输入字段等。
    • 推论(Inference)利用强化学习驱动的推断技术,Operator设计下一行动方案。借助于一种类似“思想自述”的功能,它能够评价观测数据、监控各个阶段的过程,并做出灵活的调节。
    • 行为(Behavior)执行诸如点击、滑动或者输入文本等动作,在任务结束或是当有需要用户提供信息的时候中止这些动作。
  • 视感技能Operator利用屏幕捕获图像来“观察”网页的视觉呈现,并能解析与理解界面组件,这一过程不需依靠任何具体的操作系统或网络应用编程接口。
  • 增强学习借助强化学习技术,Operator获得了高水平的推断技能,并具备了自修正功能。在面对困难或失误时,它能够利用其推断技巧来自我优化和调整策略。
  • 自主修正与知识获取当执行任务时遇到问题,Operator能够识别出具体的失误。它可以通过再次尝试操作或是请求用户的验证来修正这些错误。

运用Operator的方法步骤

  • 进入系统界面浏览Operator的官方网络平台。
  • 确定具体要求在运用Operator前,请明确你的目标任务,如预定餐馆、购物或是提交表格等。
  • 简要说明工作内容于Operator平台的操作界面上,以明了简练的文字阐明你的请求内容,例如:“预定今晚7点在XX餐馆的位置”。
  • 监视任务的运行状态Operator能够自行管理任务流程,不过在遇到需要处理如登录、支付及验证码验证这类敏感步骤时,它将要求用户进行手动干预。
  • 意见收集与相应优化完成任务后,分析执行期间遇到的问题,并提供反馈意见以提升Operator的操作效能。

Operater的保护措施

  • 用户拥有首要控制权当 Operator 检测到用户需在网页浏览器中录入私密数据时,将启动用户控制流程。
    • 管理方案:当用户需于网页上录入关键数据(例如账户密码及付款详情),系统将启动手动管理模式。在此模式中,操作员不会获取亦不保存用户的输入内容。
    • 使用者验证:执行关键动作(比如下单或发邮件)前,Operator必须获取用户的许可。
    • 操作员可能会拒绝对一些涉及敏感性的任务,比如处理银行转账或是那些需要承担较高风险的决策工作(如评估求职者资格)。
    • 观察模式:当访问诸如邮件服务或金融相关站点这类高度敏感的网页时,Operator 设计要求用户的积极参与监控其行为过程,确保能够及时察觉可能发生的任何问题。
  • 个人信息保护管理用户能够选择停止参与模型训练,快速移除他们的浏览记录及过往对话,并且可以解除在各个站点的注册状态。
  • 防范有害网址为了抵御恶意网站利用隐蔽提示、有害脚本或欺诈性网络钓鱼尝试来误导Operator,OpenAI 设立了防护系统。其中,“监控模型”特别负责检测并阻止任何可疑的注入行为,在发现异常时能够自动中止相关活动。此外,通过持续的自动化和人工审核机制,新的安全隐患能被及时识别,并迅速采取相应的安全措施进行应对。

Operator的功能效率

  • 性能评测由于提供的内容为空,没有具体的内容可供改写。如果有具体的文本需要进行伪原创改写,请提供详细信息。我会帮助您以不同的表述方式重新组织内容,同时确保核心意思的完整性。
    • 于WebArena测评里,CUA的成效比率达到了58.1%。
    • 于WebVoyager的测评里,它在真实网页导引中的成功比率达到了87%。
    • 于OSWorld评估里,CUA的表现准确率达到了38.1%,这一数字少于人类的72.4%成绩。
  • 任务完成率由于提供的内容为空,没有具体文字供我改写。如果有具体的段落或句子需要进行伪原创处理,请提供详细信息。这样我可以帮助你修改成不同的表述形式,同时保留原始的意思。
    • 对于基础的网页处理及重复执行的任务,例如进行搜索过滤、制作购物单或调整音乐播放列表等工作,其成功率达到了满分的10分。
    • 在电商平台查找商品时同样维持着高达9/10的成功率。
    • 当面对如复杂房产查询之类的任务时,成功的概率下降到三分之十。

Operator的使用情境

  • 自动化的商品购买过程客户能够指导Operator选购指定的物品,比如提出:“想要买一双价格大约500元的耐克运动鞋。”随后,Operator会在各大电商平台上进行查找和比价,并挑选出最具成本效益的商品以执行采购任务。
  • 填写表格当用户需注册账户或请求服务时,Operator能够自动完成表单填写,从而大幅降低用户的手动操作需求。
  • 支持多次交互沟通于繁复的客户服务平台之中,例如商品推介及售后支持环节里,Operator具备开展连续交流的能力,并能够实时构建回应内容。
  • 数据解析使用如Spark之类的大型数据处理软件,Operator能够开展数据解析与清理工作。用户只需上传用于定义Spark任务的设置文档,即可启动所需的数据操作流程。
  • 计划表Operator能够协助用户安排会议的时间表、预订会议室,并分发会议的通知。
  • 文档整理:Operator能够迅速定位所需的文档,对文件夹进行整理,并将类似的文档分类存放。
© 版权声明

相关文章