摩尔线程大模型对齐研究获国际顶会认可:其URPO框架入选AAAI 2026

AI资讯1周前发布 ainav
18 0

11月13日,摩尔线程宣布其新一代大语言模型对齐框架——URPO(统一奖励与策略优化)取得重要进展。相关研究论文已被人工智能领域顶级会议AAAI 2026收录,这一创新性技术为简化大规模模型训练流程、突破性能瓶颈提供了全新思路

摩尔线程大模型对齐研究获国际顶会认可:其URPO框架入选AAAI 2026

▲ 图源:摩尔线程官方公众号 | URPO 统一奖励与策略优化框架

该研究的核心论文题为《URPO: A Unified Reward & Policy Optimization Framework for Large Language Models》。文中详细阐述了摩尔线程AI团队如何创新性地将“指令遵循”(执行者角色)和“奖励评判”(评估者角色)两大功能模块融合到单一模型中,并通过统一的训练流程实现同步优化。这一突破性的技术框架从三个方面解决了关键的技术难题:

  • 数据标准化处理:将多样化的输入数据(包括具有不同结构的偏好数据、可验证推理数据以及开放性指令数据)转换为统一的信号格式,以适应GRPO训练的需求。

  • 自适应奖励机制:针对开放性指令场景,模型在生成多个候选回答后,能够自动调用其内置的评估能力进行评分,并将结果作为GRPO训练的有效反馈信号,从而形成一个高效的自我优化循环。

  • 多维度协同进化:通过在同一训练批次中混合处理不同类型的数据,模型实现了生成能力和评判能力的协同发展。具体而言,生成能力的提升使得评估更加精准,而精准的评估又反过来推动生成质量的进一步提升,最终突破传统静态奖励模型的技术限制。

实验数据显示,在基于Qwen2.5-7B模型进行测试时,URPO框架相比依赖独立奖励的传统基线模型展现出显著优势:在AlpacaEval指令跟随测评中,得分从42.24提升至44.84;综合推理能力测试的平均分也从32.66提高到35.66。值得关注的是,在训练过程中自然形成的评估能力表现出色,在RewardBench评测中的得分高达85.15,优于专用奖励模型的83.55分。

据摩尔线程官方透露,URPO框架已成功在自研计算卡上实现稳定高效运行。同时,公司还完成了对VERL等主流强化学习框架的深度适配工作。

© 版权声明

相关文章