OpenAI发布最强大ChatGPT：多领域任务无所不能

AI资讯1年前 (2025)发布 ainav

295 0 0

7月18日，OpenAI宣布推出一款通用型AI智能体，该工具可协助用户完成多种基于计算机的任务。

该智能体名为ChatGPT Agent，它能够自动生成可编辑的演示文稿和幻灯片、查看用户的日历以简要介绍即将到来的客户会议、计划并购买制作家庭早餐的食材，以及运行代码等。

为了开发这个新工具，OpenAI将其背后的Operator点击网站的能力与Deep Research从数十个网站中综合信息生成简洁研究报告的能力相结合。外媒The Verge报道称，负责这一项目的产品和研究部门共有20~35人。

用户只需通过自然语言提示ChatGPT即可与其交互。例如，用户可以通过选择对话中的“智能体模式”来激活该功能，并描述希望完成的任务——无论是进行深入研究、制作幻灯片，还是提交费用报销。

ChatGPT智能体能够访问一系列连接器，包括Gmail和GitHub等应用。通过这些连接器，智能体可以根据用户的提示找到相关信息，并使用API访问某些应用。此外，在执行重要操作前，ChatGPT会征得用户的许可，用户也可以随时中断任务并接管浏览器操作。

在性能方面，ChatGPT智能体展现出了显著优势。例如，在 Humanity’s Last Exam 测试中，其得分率达到41.6%，约为OpenAI o3 和 o4-mini 得分的两倍。在FrontierMath测试中，当可以访问工具（如用于代码执行的终端）时，得分为27.4%，远高于之前的最佳分数。

在SpreadsheetBench平台上，ChatGPT智能体不仅超越了当前行业领先的GPT-4o模型，在具备直接编辑电子表格的能力后，其得分进一步提升至45.5%。而在DSBench测试中，该模型在数据分析任务中的表现明显优于人类水平。

在WebArena基准测试中，该模型相较于由o3驱动的CUA表现更佳。而在BrowseComp测试上，ChatGPT智能体以68.9的成绩创下了新的SOTA纪录。

具体应用场景包括：