MultiOn公司最新发布的自主学习进化的AI智能体——Agent Q

131 0 0

Agent Q 的定义是什么？

由MultiOn公司与斯坦福大学共同研发的Agent Q是一个自监督代理推理和搜索框架。该系统结合了引导式蒙特卡洛树搜索（MCTS）、人工智能自我批评机制及直接偏好优化（DPO）等多种技术手段，实现了通过迭代微调以及基于人类反馈的强化学习来进行持续改进的功能。特别是在网页导航和执行多步骤任务方面表现优异，在OpenTable上的真实预订测试中，成功率从18.6%跃升至95.4%，这表明在AI自主决策与处理复杂事务的能力上有了显著提升。

Agent Q的核心特性

指引型查找采用蒙特卡洛树搜索（MCTS）算法以引导于复杂的环境中进行探索与作出决策。
个人反思拥有自我评价的技能，并在每个阶段给予反馈，以优化决策流程。
逐步精细调整利用直接偏好优化(DPO)算法，智能体Q可以从各种成败的经历中吸取教训，并持续改进其行动策略。
涉及多个步骤的推理作业Agent Q具备处理需经多步骤推理与判断的复杂工作的能力，涵盖在线预定及电商平台的操作等场景。
无样本训练即便未经过针对特定任务的培训，Agent Q依然能够表现出卓越的零样本执行能力，取得较高的成功比率。

Agent Q 的工作机理

导向型蒙特卡洛树搜索（MCTS）Agent Q运用MCTS算法引导其在网页环境中进行探索活动。该算法经由模拟多种可能的动作序列来评定并挑选出最佳动作，以此实现对未知信息的探索与利用现有知识之间的均衡。
人工智能的自我反思代理Q会在各个节点处构思出一系列潜在的动作方案，并利用一个基本的大规模语言模型（LLM）自行评定这些动作的价值，通过给出阶段性回馈以形成中期激励，进而引导整个探索流程的方向。
直接喜好优化（DHO）这是一种采用离线强化学习技术的策略优化方案，旨在让智能体Q既能借鉴成功案例的学习经验，也能吸取失败路径的教训。该方法利用差异化的偏好配对进行精准调整，而非依循常规的奖赏反馈机制来改进模型性能。
通过改进策略实现优化Agent Q利用迭代微调技术，并借助MCTS产生的数据及AI自评回馈来创建偏好配对，进而提升模型的表现水平。