清华与智谱AI联手打造的WebRL —— 自动演进式在线课程强化学习平台

241 0 0

WebRL指的是在网页环境中应用的强化学习技术。

由清华大学与智谱AI共同研发的WebRL是一种能够自我进化的在线课程强化学习框架，它利用高性能网络代理来培训开放大型语言模型（LLMs）。此框架通过动态创建任务、运用结果监督奖励模型（ORM）评估这些任务是否达成目标，并采用自适应的强化学习策略，有效应对了训练数据不足、反馈信息稀少以及在线环境中策略分布变化等挑战。WebRL在WebArena-Lite基准测试中显著提升了如Llama-3.1和GLM-4等模型的任务完成率，其表现甚至超越了一些专有的LLM API和服务前期培训的网络代理，从而证实了它对增强开源大型语言模型在网络任务能力上的有效性。

WebRL的核心特性

个人发展课程研习WebRL具备根据失败经验创造新任务的能力，并能够灵活调节任务难易程度与复杂度以匹配智能体现有的技能等级。
监控效果的奖惩机制（MEPM）在使用WebRL对ORM评估任务进行训练时，通过给予二值化的奖赏信号来评判成功（标记为1）或失败（标记为0），以此来引导智能体的學習进程。
适应性增强的学习方法利用KL散度约束进行策略迭代的方法，WebRL控制了策略演进期间的概率分布变化幅度，保证了智能体在掌握新的技能时能够保持与原有知识体系的一致性。
经验缓冲区域WebRL通过维护一个经验回放缓存来保存之前的成功经历，从而减少灾难性遗忘的可能性，并在训练过程中重复利用这些经验。
不断优化性能表现WebRL依靠迭代自我提升机制，使智能体能够在实时环境下不断且稳定地增强其表现能力。

WebRL的核心技术机制

陈述疑问WebRL把网络任务视为具有受限视野的马尔可夫决策流程，明确界定了其状态、行动、回报及转换概率。
体能锻炼利用训练好的大型语言模型充当目标识别模块，自动判断代理的行为路径是否有效地达成了预定目标，并给出相应的反馈信息。
增强学习于互联网空间内，WebRL采用自动演进的课程规划机制来实时创造任务，并运用KL限制下的政策调整技术以避免政策分布产生剧烈变动。
回顾过往的经验通过利用经验池保存过往知识，可以降低严重遗忘的发生概率，并且借助储存的成功路径来克服精确评估错误路径中间状态的难题。
个人成长的课程学习方法论WebRL采用了一个包含生成与筛选两个阶段的过程来逐步提出更富挑战性但又契合代理现有能力的任务，并利用横向演化技术构思新的指示。
政策调整在执行策略更新的过程中，WebRL会关注新老策略间的KL散度差异，以此来保障政策转换的平稳性，并防止由于政策调整而导致的整体效能下滑。

WebRL项目的网址

Git存储库：访问该项目的GitHub页面，请前往 https://github.com/THUDM/WebRL。
关于arXiv上的科技文章该文献可以在如下链接中找到：https://arxiv.org/abs/2411.02337v1，这里提供了研究的预印本版本。请注意，原文献的内容需要您自行访问上述链接进行查看和阅读。由于您的要求是改写内容，但未提供具体文本内容，因此以上提供的信息为关于如何获取该文献的方法说明，并保持了原意不变而改变了表达方式。