5月30日讯,科技媒体Marktechpost昨日(5月29日)发布博文指出,苹果公司与杜克大学合作推出了一种名为”交错推理”(Interleaved Reasoning)的新型强化学习方法,旨在提升大型语言模型的逻辑推理能力。
当前主流的大语言模型在处理复杂多步骤问题时普遍采用”先思考后回答”的长链式推理方式。这种方式存在两个主要缺陷:一是响应时间过长,难以满足实时交互需求;二是早期推理过程中出现的错误可能对最终结果产生累积影响。
研究者发现,与人类对话中随时分享部分思考过程不同,现有模型往往需要完成全部推理步骤后才输出答案,这种做法严重影响了效率和用户体验。
针对这一问题,苹果公司与杜克大学的研究团队开发了交错推理技术。该技术使大语言模型能够在内部推理过程中适时输出中间结果(sub-answer),从而实现推理速度和实用性的显著提升。
该技术基于强化学习框架,采用了独特的训练模板,包括<think>和<answer>标签。这些标签确保模型在关键推理节点处输出中间结果。
研究团队设计了基于规则的奖励机制,涵盖格式规范、最终准确率以及条件性中间结果准确率等指标,旨在强化模型的整体正确性。
在测试中,采用交错推理技术的Qwen2.5模型(1.5B和7B参数版本)表现出色,在响应速度方面提升了超过80%,准确率更是提高了高达19.3%。
值得注意的是,尽管该方法主要在问答(QA)和逻辑数据集上进行训练,但在更具挑战性的评估基准如MATH、GPQA、MMLU等方面也展现出了强大的泛化能力。
研究团队还测试了多种奖励策略,包括全或无、部分积分以及时间折扣奖励等模式。其中,条件性和时间折扣奖励策略表现最为优异,显著优于传统方法。
附上参考地址
-
Interleaved Reasoning for Large Language Models via Reinforcement Learning