WebNavigator – 一个利用大型语言模型仿真网页互动以提升网络设计效能的架构

195 0 0

WebDreamer指的是什么

NetVisionary是由俄亥俄州立大学与Orby AI研究团队共同开发的一款基于模型规划技术的网络代理工具，该工具利用大型语言模型（LLMs），尤其是GPT-4o作为其基础架构，来预测网页互动的结果。通过模拟用户可能的行为及其潜在后果，它能够在复杂的网络环境中协助智能体做出更加有效的计划和决策。NetVisionary的关键理念是“预演”概念，在执行具体行动之前，使用语言模型预测各个步骤的可能结果，并选择最有可能达成目标的操作路径。这种方法不仅增强了代理工具的表现力和安全性，还降低了对实际网站交互的需求。

WebDreamer的核心特性

依托于模型的计划制定通过采用大规模语言模型（LLMs）充当世界的模拟器，能够赋予互联网代理人一种依托于模型的战略规划技能，在错综复杂的在线环境下顺利完成各项使命。
预估互动成效预期用户于网站中可能会执行的操作及操作后果，比如按下某个按钮或是填写文字之后页面产生的变动。
改善选择过程通过仿真各种行动路线，并评价每个潜在结局的好坏来选定最优策略。
增强效能与功效相较于反应式基线，WebDreamer在执行任务上更为出色，减少了所需的互动次数，并提升了工作效率。
提升安全级别减轻与实际网站的直接互动，以减小由于无法逆转的操作带来的风险，比如不小心提交表格或启动交易流程。
多种功能融合一体该插件通过与各类智能系统结合，增强基于树形搜索的智能系统的性能。

WebDreamer的核心技术机制

仿真函数（simu）通过使用大型语言模型来仿真每一个潜在操作的后果。该仿真功能利用自然语言表述来预估执行动作后的情形演变，类似于状态变迁函数的作用机制。
评估函数（evaluation）通过构建潜在的行为路径，并利用大语言模型充当评价指标来衡量每条虚拟路径达成预定目标的程度。
生成备选行动方案运用分步策略来创造行动建议清单，首先挑选出最具潜力的若干项行动方案，接着借助大型语言模型实现自我完善，并剔除冗余步骤以提升仿真效果。
重复模拟与实施代理在每一个抉择时刻会仿真出多种潜在的行为路径，并挑选其中评价最优的一条路径来实施其起始行为步骤；之后依据实际情况调整仿真的内容，并持续这一流程直至整个任务达成目标。
可观察性有限的马尔科夫决策过程（Limited Observability Markov Decision Process, LOMDP）把网络任务看作是POMDP的一种形式，这反映了网络环境中存在的复杂情况及其部分不可见特性。
基于模型的预测控制（MBPC）参考MPC技术，通过反复模拟未来的行动路径来选取操作，从而防止在真实环境中进行昂贵的探索尝试。

WebDreamer项目的网址

Git代码库：访问位于 https://github.com/OSU-NLP-Group/WebDreamer 的项目页面
arXiv科技文章在学术预印平台arXiv上发布的一篇论文，其在线地址为：https://arxiv.org/pdf/2411.06559，该文档包含了研究的详细内容。