大脑小脑 – AI浏览器助理,执行网页自动任务与行为计划

AI工具3个月前发布 ainav
120 0

小脑指的是什么

Cerebellum是一款依托于Claude 3.5 Sonnet及Selenium WebDriver的智能化网络助手AI工具,具备理解任务目标并执行网页自动化的功能,例如数据采集和网站测试自动化等操作。该系统将浏览过程转化为有向图的形式进行导航,并运用大型语言模型解析页面内容与交互组件,智能规划行动路线。根据当前网页的状态以及之前的互动历史动态调整策略。Cerebellum兼容多种浏览器环境,能够模拟真实用户的行为模式,在复杂的自动执行场景中表现出色。

Cerebellum

小脑的核心作用

  • 图示导向把网络浏览视作在有向图中进行探索,其中每一个页面都可看作是一个独立的节点,而用户的动作(例如点击链接或输入信息)则构成了连接这些节点的边缘。
  • 网络节点探测利用大型语言模型对页面信息进行解析,以探测和确认新增的网页元素。
  • 行动抉择根据现有页面状况及过往用户的操作记录,做出智能化的后续动作决定。
  • 兼容多种网络浏览器支持多种浏览器,包括Chrome、Firefox、Safari以及Edge等。
  • 模拟用户的操作行为:精细复现用户的操作动作,包括点击和输入等功能,非常适合用于处理复杂的自动化任务。
  • 实时策略修正:遵循运行中的指示,并依据即时的反馈信息灵活更改浏览计划与操作步骤。
  • 表格填报利用用户提交的JSON格式数据来自动化填充网页上的表格信息。

小脑的工作机制

  • 网站结构建模把网络页面的访问流程构造成一个定向图结构,其中各个页面充当着点的角色,而用户的操作行为则作为链接这些点的线。
  • 整合LLM功能整合类似Claude 3.5 Sonnet这样的大规模语言模型,解析网站的文本信息及互动组件,确定并设计新增的关键点。
  • 情况评估基于当下的网页状况及过往的操作记录,LLM会确定接下来最适宜的步骤。
  • 行动实施及其回应Cerebellum负责处理LLM的计划任务,并将其对新网页状态的调整结果传达回LLM,从而支持后续决策过程。
  • 以目的为导向:以初始页面为起点,目的是抵达象征任务达成的终点节点。
  • 自动化的工序:当用户定义了目标后,Cerebellum会自动管理复杂的脚本录制与运行过程,从而达成任务的自动化。
  • 环境整合该工具深度整合了Selenium WebDriver,利用Selenium提供的浏览器驱动技术来执行多浏览器环境下的自动化任务。

Cerebellum项目的网址

  • Git代码库:在GitHub上可以找到由theredsix维护的cerebellum项目,地址是https://github.com/theredsix/cerebellum。

Cerebellum的使用情境

  • 网页自动检测执行网页的功能检验及自动测试脚本,以保证网站和Web应用程序的各项功能都能如预期般运行。
  • 数据分析与提取实现自动从网络页面提取信息,适用于市场调研、竞品分析或是数据整合服务。
  • 网站页面信息治理负责维护网站信息,包括自动化文章更新、发表博文以及监管读者留言等功能。
  • 网上购物实现订单的自动处理、库存的精细化管理、商品价格的比对以及产品详情的及时更新等功能。
  • 客户支持智能化通过在自动化聊天机器人或客户支持系统中集成常见的问答解决方案来提高服务效率和客户满意度。
© 版权声明

相关文章