谷歌发布Gemini2.5浏览器交互模型,支持13项功能

AI资讯1个月前发布 ainav
38 0

10月8日,谷歌宣布正在研发一款全新的Gemini人工智能模型——”Gemini 2.5 Computer Use”,这款模型专为通过浏览器实现智能化操作而设计。它能够使AI智能体在原本由人类用户主导的界面中执行任务。

谷歌发布Gemini2.5浏览器交互模型,支持13项功能

该模型主要应用于用户界面测试,以及操作那些仅对人类开放、未提供API接口或其他直接访问权限的系统。值得注意的是,这一技术此前已在谷歌AI模式中的智能体功能和研究项目”Mariner”中得到实践应用,例如根据食材清单自动将商品加入购物车等场景。

此次谷歌的发布紧跟在OpenAI年度开发者日宣布ChatGPT新应用之后。当前,OpenAI正致力于优化其”ChatGPT智能体”功能,而Anthropic公司早在去年就推出了Claude AI模型的计算机使用版本。

目前,谷歌已发布演示视频展示该工具的实际效果,并将视频播放速度提升了三倍。官方表示,其计算机使用模型在多个网页和移动端测试中表现优于现有方案。与ChatGPT智能体和Claude AI不同的是,谷歌的这一AI模型仅限于浏览器环境的操作,无法控制整个计算机系统。值得注意的是,该模型尚未针对桌面操作系统层面的控制进行优化,目前支持的操作包括打开浏览器、输入文本以及拖放页面元素等13种基础操作。

Gemini 2.5 Computer Use模型现已通过Google AI Studio和Vertex AI平台向开发者开放。此外,Browserbase平台也提供了在线演示,用户可以实时观看该模型完成”玩一局2048游戏”或”浏览Hacker News热门讨论”等任务。

© 版权声明

相关文章