OpenAI发布最强大ChatGPT:多领域任务无所不能

AI资讯4小时前发布 ainav
2 0

7月18日,OpenAI宣布推出一款通用型AI智能体,该工具可协助用户完成多种基于计算机的任务。

OpenAI发布最强大ChatGPT:多领域任务无所不能

该智能体名为ChatGPT Agent,它能够自动生成可编辑的演示文稿和幻灯片、查看用户的日历以简要介绍即将到来的客户会议、计划并购买制作家庭早餐的食材,以及运行代码等。

为了开发这个新工具,OpenAI将其背后的Operator点击网站的能力与Deep Research从数十个网站中综合信息生成简洁研究报告的能力相结合。外媒The Verge报道称,负责这一项目的产品和研究部门共有20~35人。

用户只需通过自然语言提示ChatGPT即可与其交互。例如,用户可以通过选择对话中的“智能体模式”来激活该功能,并描述希望完成的任务——无论是进行深入研究、制作幻灯片,还是提交费用报销。

ChatGPT智能体能够访问一系列连接器,包括Gmail和GitHub等应用。通过这些连接器,智能体可以根据用户的提示找到相关信息,并使用API访问某些应用。此外,在执行重要操作前,ChatGPT会征得用户的许可,用户也可以随时中断任务并接管浏览器操作。

在性能方面,ChatGPT智能体展现出了显著优势。例如,在 Humanity’s Last Exam 测试中,其得分率达到41.6%,约为OpenAI o3 和 o4-mini 得分的两倍。在FrontierMath测试中,当可以访问工具(如用于代码执行的终端)时,得分为27.4%,远高于之前的最佳分数。

在SpreadsheetBench平台上,ChatGPT智能体不仅超越了当前行业领先的GPT-4o模型,在具备直接编辑电子表格的能力后,其得分进一步提升至45.5%。而在DSBench测试中,该模型在数据分析任务中的表现明显优于人类水平。

OpenAI发布最强大ChatGPT:多领域任务无所不能

在WebArena基准测试中,该模型相较于由o3驱动的CUA表现更佳。而在BrowseComp测试上,ChatGPT智能体以68.9的成绩创下了新的SOTA纪录。

具体应用场景包括:

  • 在工作中:自动处理重复性任务,例如将截图或面板转换为由可编辑矢量元素组成的演示文稿、重新安排会议、规划并预订外出活动,以及在保持原有格式的同时用新的财务数据更新电子表格。

  • 在个人生活中:规划并预订旅行行程、设计并预订整个晚宴活动,或寻找专业人士并安排预约。

该功能即日起向Pro、Plus和Team版用户开放,而Enterprise和Education版本的用户将于7月获得使用权限。其中,Pro版用户每月可执行近乎无限的任务,其他付费用户每月可执行50次任务,额外使用量可通过灵活的积分额度选项获取。

尽管ChatGPT智能体在处理多种复杂任务方面表现优异,但OpenAI仍强调其处于早期阶段。例如,在生成幻灯片时,当前版本的内容在格式和细节处理上可能显得较为粗糙,尤其是从头开始创建时。

目前,用户可以上传现有电子表格供ChatGPT编辑或作为模板使用,但此功能尚未适用于幻灯片。OpenAI正在努力改进其幻灯片创建功能,以生成更精致、复杂的输出,并具备更广泛的功能和改进的格式化能力。

OpenAI计划逐步添加重大改进,随着时间推移使ChatGPT智能体对更多人越来越有用。

© 版权声明

相关文章