OpenAI发布的人工智能实体——Operator，具备推理能力并可自主上网完成任务

AI工具2年前 (2025)发布 ainav

366 0 0

什么是操作员？

OpenAI最新推出的智能体名为Operator，它是一款能够模拟人类行为来操控网页浏览器的人工智能工具。该工具具备自动执行各种在线任务的能力，包括订餐、购票和填写网络表格等。Operator采用了基于Computer-Using Agent（CUA）的新模型作为其核心驱动技术，这一模型融合了GPT-4的视觉识别能力和强化学习带来的复杂推理技能。它通过捕捉屏幕图像来“阅读”网页，并利用虚拟输入设备进行互动操作。目前，这项功能处于研究测试阶段，并且仅限于美国地区的ChatGPT Pro用户使用。展望未来，OpenAI有计划逐步向更广泛的用户群体开放Operator的功能，并将其整合进ChatGPT中。

Operator的核心作用

自动化的任务运行Operator能够自动化处理多项线上操作，包括预定餐馆席位、购取飞机票务、执行网络采购以及提交各类表格信息等。
同时执行多项任务能够并发处理多种任务，比如在同一时间于各个网站预定旅游服务和在线购买商品。
定制化配置用户能够设定个人喜好（比如偏爱的航空企业），并且存储频繁使用的操作，从而实现快捷启动。
纠正自身错误及推理解释的能力当面对挑战时，Operator能够经由逻辑分析自行校正，倘若仍无法化解难题，则会将控制权归还给用户。
保障安全及维护隐私权益当处理包含敏感数据的操作（例如登录和支付）时，Operator会选择要求用户直接干预，并阻止自动执行具有高度风险的任务。

操作员的工作机制

使用计算机的代理（CUA）模型该系统融合了GPT-4o的图像辨识功能和经强化学习提升的高度推理技能。Operator具备理解并操控图形用户界面（GUI）的能力，能够如同普通使用者一般浏览和操纵网站。
- 认知（Cognition）操作员利用屏幕捕获技术来收集当前用户界面上的数据信息。借助GPT-4o的强大视觉解析功能对这些图像进行评估，并精准辨识出界面中的各个组成要素，比如按钮、下拉菜单以及输入字段等。
- 推论（Inference）利用强化学习驱动的推断技术，Operator设计下一行动方案。借助于一种类似“思想自述”的功能，它能够评价观测数据、监控各个阶段的过程，并做出灵活的调节。
- 行为（Behavior）执行诸如点击、滑动或者输入文本等动作，在任务结束或是当有需要用户提供信息的时候中止这些动作。
视感技能Operator利用屏幕捕获图像来“观察”网页的视觉呈现，并能解析与理解界面组件，这一过程不需依靠任何具体的操作系统或网络应用编程接口。
增强学习借助强化学习技术，Operator获得了高水平的推断技能，并具备了自修正功能。在面对困难或失误时，它能够利用其推断技巧来自我优化和调整策略。
自主修正与知识获取当执行任务时遇到问题，Operator能够识别出具体的失误。它可以通过再次尝试操作或是请求用户的验证来修正这些错误。

运用Operator的方法步骤

进入系统界面浏览Operator的官方网络平台。
确定具体要求在运用Operator前，请明确你的目标任务，如预定餐馆、购物或是提交表格等。
简要说明工作内容于Operator平台的操作界面上，以明了简练的文字阐明你的请求内容，例如：“预定今晚7点在XX餐馆的位置”。
监视任务的运行状态Operator能够自行管理任务流程，不过在遇到需要处理如登录、支付及验证码验证这类敏感步骤时，它将要求用户进行手动干预。
意见收集与相应优化完成任务后，分析执行期间遇到的问题，并提供反馈意见以提升Operator的操作效能。

Operater的保护措施

用户拥有首要控制权当 Operator 检测到用户需在网页浏览器中录入私密数据时，将启动用户控制流程。
- 管理方案：当用户需于网页上录入关键数据（例如账户密码及付款详情），系统将启动手动管理模式。在此模式中，操作员不会获取亦不保存用户的输入内容。
- 使用者验证：执行关键动作（比如下单或发邮件）前，Operator必须获取用户的许可。
- 操作员可能会拒绝对一些涉及敏感性的任务，比如处理银行转账或是那些需要承担较高风险的决策工作（如评估求职者资格）。
- 观察模式：当访问诸如邮件服务或金融相关站点这类高度敏感的网页时，Operator 设计要求用户的积极参与监控其行为过程，确保能够及时察觉可能发生的任何问题。
个人信息保护管理用户能够选择停止参与模型训练，快速移除他们的浏览记录及过往对话，并且可以解除在各个站点的注册状态。
防范有害网址为了抵御恶意网站利用隐蔽提示、有害脚本或欺诈性网络钓鱼尝试来误导Operator，OpenAI 设立了防护系统。其中，“监控模型”特别负责检测并阻止任何可疑的注入行为，在发现异常时能够自动中止相关活动。此外，通过持续的自动化和人工审核机制，新的安全隐患能被及时识别，并迅速采取相应的安全措施进行应对。

Operator的功能效率

性能评测由于提供的内容为空，没有具体的内容可供改写。如果有具体的文本需要进行伪原创改写，请提供详细信息。我会帮助您以不同的表述方式重新组织内容，同时确保核心意思的完整性。
- 于WebArena测评里，CUA的成效比率达到了58.1%。
- 于WebVoyager的测评里，它在真实网页导引中的成功比率达到了87%。
- 于OSWorld评估里，CUA的表现准确率达到了38.1%，这一数字少于人类的72.4%成绩。
任务完成率由于提供的内容为空，没有具体文字供我改写。如果有具体的段落或句子需要进行伪原创处理，请提供详细信息。这样我可以帮助你修改成不同的表述形式，同时保留原始的意思。
- 对于基础的网页处理及重复执行的任务，例如进行搜索过滤、制作购物单或调整音乐播放列表等工作，其成功率达到了满分的10分。
- 在电商平台查找商品时同样维持着高达9/10的成功率。
- 当面对如复杂房产查询之类的任务时，成功的概率下降到三分之十。

Operator的使用情境

自动化的商品购买过程客户能够指导Operator选购指定的物品，比如提出：“想要买一双价格大约500元的耐克运动鞋。”随后，Operator会在各大电商平台上进行查找和比价，并挑选出最具成本效益的商品以执行采购任务。
填写表格当用户需注册账户或请求服务时，Operator能够自动完成表单填写，从而大幅降低用户的手动操作需求。
支持多次交互沟通于繁复的客户服务平台之中，例如商品推介及售后支持环节里，Operator具备开展连续交流的能力，并能够实时构建回应内容。
数据解析使用如Spark之类的大型数据处理软件，Operator能够开展数据解析与清理工作。用户只需上传用于定义Spark任务的设置文档，即可启动所需的数据操作流程。
计划表Operator能够协助用户安排会议的时间表、预订会议室，并分发会议的通知。
文档整理：Operator能够迅速定位所需的文档，对文件夹进行整理，并将类似的文档分类存放。