微软联合清华北大推出奖励推理模型:动态分配计算资源

AI资讯3周前发布 ainav
22 0

5月27日,科技媒体Marktechpost报道,微软研究院联合清华大学、北京大学成立研究团队,正式推出奖励推理模型(Reward Reasoning Models,RRMs)。该模型通过显式推理过程动态分配计算资源,在处理复杂任务时显著提升了评估效果。

据博文介绍,强化学习(Reinforcement Learning,RL)已成为大语言模型(LLM)后训练的关键技术。当前主要采用两种方法:基于人类反馈的强化学习(RLHF)和基于可验证奖励的强化学习(RLVR),这些方法为模型提供监督信号以优化性能。

尽管RLVR在数学推理领域展现出潜力,但其依赖于可验证答案的训练查询限制了其通用性。这种特性使得该技术难以大规模应用于各类场景,特别是在需要广泛适应性的领域中。

当前的奖励模型主要分为两类:标量型和生成型。然而,这两类模型都存在一个共同问题——无法高效分配测试时的计算资源。现有方法对所有输入采用统一的资源分配策略,这种”一刀切”的方法导致在处理复杂查询时分析能力不足。

针对上述挑战,微软研究院、清华大学和北京大学的研究团队共同开发了奖励推理模型(RRMs)。该模型创新地引入显式推理过程,在生成最终奖励之前进行详细分析。这种机制使模型能够根据具体任务的复杂性自适应分配额外计算资源。

具体而言,RRMs采用”思维链”(Chain-of-Thought)推理方式,特别针对那些奖励信号不明显的复杂查询投入更多计算资源。这种方法显著提升了模型在处理这类复杂问题时的准确性和效率。

技术实现方面,RRMs基于Qwen2模型构建,并采用Transformer-decoder架构。该模型将奖励建模转化为文本补全任务,通过生成推理过程后输出最终判断结果。这种创新性设计使模型能够更有效地理解和评估输入内容。

在评估体系方面,研究团队利用RewardBench库进行系统分析,并制定了多维度评价指标:包括指令遵循性、帮助性、准确性、无害性和细节水平等关键因素。此外,RRMs还支持多响应评估机制,通过ELO评分系统和淘汰赛方式结合多数投票法,进一步提升计算资源的利用率。

测试数据表明,在RewardBench和PandaLM Test基准测试中,RRMs均表现出色。其中,320亿参数的RRM-32B模型在推理类别中的准确率高达98.6%。与采用相同训练数据的DirectJudge模型相比,RRMs显示出显著性能优势,特别是在复杂查询处理方面表现出更强的计算资源利用能力。

在最佳N推理(Best-of-N Inference)和后训练反馈等关键指标上,RRMs均超越了所有基线模型。此外,该模型进一步优化了多数投票机制,显著提升了评估效率。

研究还揭示了一个重要规律:随着模型规模从70亿、140亿扩展至320亿参数,在增加推理时间的同时,准确率持续提升。RRMs通过创新的并行和顺序扩展方法,实现了对传统标量奖励模型的有效替代,为大语言模型技术的发展提供了新的方向。

© 版权声明

相关文章