谷歌发布Gemini2.5浏览器交互模型，支持13项功能

212 0 0

10月8日，谷歌宣布正在研发一款全新的Gemini人工智能模型——”Gemini 2.5 Computer Use”，这款模型专为通过浏览器实现智能化操作而设计。它能够使AI智能体在原本由人类用户主导的界面中执行任务。

该模型主要应用于用户界面测试，以及操作那些仅对人类开放、未提供API接口或其他直接访问权限的系统。值得注意的是，这一技术此前已在谷歌AI模式中的智能体功能和研究项目”Mariner”中得到实践应用，例如根据食材清单自动将商品加入购物车等场景。

此次谷歌的发布紧跟在OpenAI年度开发者日宣布ChatGPT新应用之后。当前，OpenAI正致力于优化其”ChatGPT智能体”功能，而Anthropic公司早在去年就推出了Claude AI模型的计算机使用版本。

目前，谷歌已发布演示视频展示该工具的实际效果，并将视频播放速度提升了三倍。官方表示，其计算机使用模型在多个网页和移动端测试中表现优于现有方案。与ChatGPT智能体和Claude AI不同的是，谷歌的这一AI模型仅限于浏览器环境的操作，无法控制整个计算机系统。值得注意的是，该模型尚未针对桌面操作系统层面的控制进行优化，目前支持的操作包括打开浏览器、输入文本以及拖放页面元素等13种基础操作。

Gemini 2.5 Computer Use模型现已通过Google AI Studio和Vertex AI平台向开发者开放。此外，Browserbase平台也提供了在线演示，用户可以实时观看该模型完成”玩一局2048游戏”或”浏览Hacker News热门讨论”等任务。

# AI资讯