DeepMind强化AI思维链训练

AI资讯2周前发布 ainav
13 0

近日,科技媒体Marktechpost报道指出,谷歌DeepMind团队携手奥地利约翰·开普勒林茨大学LIT AI实验室,在语言模型决策能力优化领域取得重要进展。

据博文介绍,当前基于互联网海量数据训练的语言模型虽然已展现出超越文本处理的决策潜力,能够通过内部知识推理在交互环境中做出行动选择,但其决策过程仍存在显著缺陷。

DeepMind强化AI思维链训练

这些模型主要存在三大问题:一是推理与执行脱节(knowing-doing gap),即能够推导出正确策略却无法有效执行;二是过度追求短期高回报选项(greediness);三是小型模型容易出现机械重复常见动作的频次偏见。

传统强化学习方法,如UCB算法虽然能在一定程度上平衡探索与利用,但难以解决模型内部推理与行动脱节的根本性问题。

为应对这些挑战,DeepMind团队创新性地采用了强化学习微调(Reinforcement Learning Fine-tuning, RLFT)技术。该方法以模型自动生成的思维链作为训练信号,通过评估每个推理步骤对应的行动奖励,引导模型优先选择逻辑一致且实际有效的行动方案。

具体实施过程中,模型根据输入指令和历史记录生成包含推理过程与动作的序列。系统采用蒙特卡洛(Monte Carlo)基线评估和广义优势估计进行优化,并设置惩罚机制应对无效动作。同时,奖励塑造技术既确保了输出格式的规范性,又保留了必要的探索空间。

实验数据显示,在10臂老虎机测试中,2B参数模型的动作覆盖率提升了12个百分点;当面对20臂时,改进幅度虽不显著但仍有实际意义,频次偏见率从70%降至35%。

DeepMind强化AI思维链训练

在井字棋实验中,经过RLFT优化的模型对阵随机对手的胜率提升了5倍,与最优蒙特卡洛树搜索代理对战的平均回报从-0.95提升至0。值得注意的是,27B大模型在正确推理概率上达到87%,但未经微调时仅21%会执行最优动作,这表明强化学习微调有效缩小了这一差距。

© 版权声明

相关文章