Operator – OpenAI推出的AI智能体,能推理、联网自主执行任务

AI工具 5小时前 ainav
1 0

Operator是什么

Operator是OpenAI推出的首款AI智能体。能像人类一样操作网页浏览器的AI工具,可以自动完成各种在线任务,如预订餐厅、购买机票、填写表单等。Operator基于Computer-Using Agent(CUA)的新模型驱动,模型结合了GPT-4o的视觉能力和强化学习的高级推理能力。通过屏幕截图“观察”网页,使用虚拟鼠标和键盘进行操作。Operator目前处于研究预览阶段,仅对美国的ChatGPT Pro用户开放。未来,OpenAI计划将其扩展到更多用户群体,并集成到ChatGPT中。

Operator – OpenAI推出的AI智能体,能推理、联网自主执行任务

Operator的主要功能

  • 自动化任务执行:Operator能自动完成多种在线任务,如预订餐厅、购买机票、在线购物、填写表单等。
  • 多任务处理:支持同时运行多个任务,例如在不同网站上预订旅行和购物。
  • 个性化设置:用户可以设置偏好(如首选航空公司)并保存常用任务,以便快速执行。
  • 自我纠错与推理能力:在遇到问题时,Operator能通过推理自我调整,若无法解决则交还用户控制。
  • 安全与隐私保护:在涉及敏感信息(如登录、支付)时,Operator会请求用户接管,拒绝执行高风险任务。

Operator的技术原理

  • Computer-Using Agent (CUA)模型:模型结合了GPT-4o的视觉识别能力和通过强化学习获得的高级推理能力。Operator能理解和交互图形用户界面(GUI),像人类用户一样操作网页。
    • 感知(Perception):Operator通过屏幕截图获取当前界面的信息。使用GPT-4o的视觉能力分析截图,识别界面元素如按钮、菜单和文本框。
    • 推理(Reasoning):基于强化学习的推理能力,Operator规划下一步操作。通过“内心独白”机制,评估观察结果、跟踪中间步骤并动态调整。
    • 行动(Action):执行操作,如点击、滚动或键入。在任务完成或需要用户输入时停止操作。
  • 视觉能力:Operator通过屏幕截图“看到”网页内容。识别和理解GUI元素,无需依赖特定操作系统或网络API。
  • 强化学习:通过强化学习,Operator获得高级推理能力。能自我纠错,当遇到挑战或犯错时,可以基于推理能力进行自我调整。
  • 自我纠错与学习:在执行任务过程中,如果出现错误,Operator能检测到问题所在。通过重新尝试或提示用户确认,Operator能纠正错误。

如何使用Operator

  • 访问平台:访问Operator的官方网站。
  • 明确需求:在使用Operator之前,确定你希望完成的任务,例如预订餐厅、购买商品或填写表单等。
  • 简单描述任务:在Operator的界面中,用清晰简洁的语言描述你的任务,比如“预订XX餐厅今晚19点的桌子”。
  • 监控任务进程:Operator会自动处理任务,但在涉及登录、支付或验证码等敏感操作时,它会请求用户接管。
  • 反馈与调整:任务完成后,观察执行过程中的问题并进行反馈,帮助优化Operator的工作效率。

Operator的安全机制

  • 用户控制优先:Operator 用户需要在浏览器中输入敏感信息时,会请求用户接管。
    • 接管模式:在用户需要在浏览器中输入敏感信息(如登录凭据或支付信息)时,会请求用户接管。在接管模式下,Operator 不会收集或截屏用户输入的信息。
    • 用户确认:在完成任何重要操作(例如提交订单或发送电子邮件)之前,Operator需要请求用户批准。
    • 任务限制:Operator 会拒绝某些敏感任务,例如银行交易或需要高风险决策的任务(例如决定职位申请)。
    • 监视模式:在特别敏感的网站(例如电子邮件或金融服务网站)上,Operator 需要用户密切监督其操作,以便用户直接发现任何潜在错误。
  • 数据隐私管理:用户可以选择退出模型训练,一键删除浏览数据和历史对话,并注销所有网站。
  • 抵御恶意网站:OpenAI 构建了防御机制,以防止恶意网站通过隐藏提示、恶意代码或网络钓鱼企图误导 Operator。为检测和忽略提示注入。 专门的“监控模型”会监视可疑行为,在出现异常情况时暂停任务。自动化和人工审核流程不断识别新的威胁并快速更新安全措施。

Operator的性能表现

  • 基准测试
    • 在WebArena测试中,CUA的成功率为58.1%。
    • 在WebVoyager测试中,其在实际网站导航中取得了87%的成功率。
    • 在OSWorld测试中,CUA的成功率为38.1%,低于人类水平的72.4%。
  • 任务成功率
    • 在基础网页操作和重复性任务方面,如搜索筛选、创建购物清单和音乐播放列表等任务的成功率达到10/10。
    • 在电商网站搜索商品时也保持9/10的高成功率。
    • 在处理复杂的房产搜索等任务时,成功率降至3/10。

Operator的应用场景

  • 自动化购物:用户可以指示Operator购买特定的商品,如“购买一双耐克运动鞋,预算500元左右”。Operator将自动在购物网站上搜索、比较价格,选择性价比最高的商品完成购买。
  • 表单填写:在需要注册账号或申请服务时,Operator可以自动填写表单,减少用户手动输入的工作量。
  • 多轮对话支持:在复杂的客户服务场景中,如产品推荐或售后服务,Operator能进行多轮对话,动态生成回复。
  • 数据分析:Operator可以用Spark等大数据处理工具,进行数据分析和数据清洗。用户可以通过提交Spark作业的配置文件,执行特定的数据处理任务。
  • 日程安排:Operator可以帮助用户协调会议时间、预定会议室,发送会议通知。
  • 文件管理:Operator可以快速找到需要的文件,整理文件夹,把相似的文件归类在一起。
版权声明:ainav 发表于 2025-01-24 16:01:25。
转载请注明:Operator – OpenAI推出的AI智能体,能推理、联网自主执行任务 | AI导航站