6月5日消息,科技媒体Marktechpost昨日(6月4日)发布博文指出,英伟达推出了一种名为ProRL的强化学习方法,并成功开发出一款具有1.5B参数的全球领先推理模型——Nemotron-Research-Reasoning-Qwen-1.5B。
背景概述
推理模型是一种专门设计用于复杂问题解决的人工智能系统,其通过详细且连贯的长链推理(Chain of Thought, CoT)过程来生成最终答案。
在强化学习(Reinforcement Learning, RL)领域,DeepSeek和Kimi等团队已成功将可验证奖励机制应用于训练过程中,并推广了包括GRPO、Mirror Descent和RLOO在内的多种算法。然而,关于强化学习是否能显著提升大型语言模型(LLM)的推理能力这一问题,学术界仍存在争议。
目前的研究数据显示,在pass@k指标上,采用可验证奖励的强化学习方法并未展现出对基础模型的显著优势,这表明现有技术在推理能力扩展方面仍面临一定限制。
此外,当前研究主要集中在数学等特定领域,且存在过度训练的问题,这不仅限制了模型的探索潜力,还导致其泛化能力不足。同时,多数研究仅进行数百次训练步骤,无法充分挖掘模型的潜在能力。
ProRL方法的创新与应用
针对上述问题,英伟达的研究团队提出了一种名为ProRL的新方法。该方法通过将强化学习的训练时长延长至2000步以上,并扩展了训练数据集涵盖的领域范围,包括数学、编程、STEM、逻辑谜题和指令遵循等多个方面,总计包含13.6万个样本。
在技术实现层面,研究团队采用了先进的VERL框架,并对GRPO方法进行了优化改进。基于这些创新,他们成功开发出了名为Nemotron-Research-Reasoning-Qwen-1.5B的推理模型。
这一模型目前是全球性能最为出色的1.5B参数推理模型,在包括数学、编程、逻辑推理和指令遵循等多个领域的基准测试中,均超越了现有的基础模型。其卓越表现标志着强化学习技术在提升AI推理能力方面取得了重要突破。
这一成果不仅展示了ProRL方法在理论上的创新价值,更通过实际应用验证了其在提升AI系统性能方面的显著效果。
这一模型的推出,不仅在技术上实现了重要突破,也为未来的AI研究和应用开辟了新的方向。其在多个领域的出色表现,预示着强化学习将在提升AI系统性能方面发挥更大作用。