苹果创新CheckList方法:AI大模型教小模型更精准执行复杂指令

AI资讯2周前发布 ainav
13 0

8月26日,科技媒体9to5Mac报道指出,苹果研究团队在最新论文中提出了一种名为”基于清单反馈的强化学习”(RLCF)的新方法。这种方法通过任务清单取代传统的人工点赞/点踩评分机制,显著提升了大语言模型(LLMs)执行复杂指令的能力。

与传统的”人类反馈强化学习”(RLHF)不同,RLCF并未依赖人工主观评价,而是为每个用户指令生成具体的检查清单,并按照0-100分的评分标准逐项评估。这种创新性地将任务分解为多个明确指标的方式,能够更精准地指导模型优化。

苹果创新CheckList方法:AI大模型教小模型更精准执行复杂指令

在测试阶段,研究团队将RLCF应用于强指令跟随模型Qwen2.5-7B-Instruct,并选取了五个常用评测基准进行评估。结果显示,RLCF是唯一能够在所有测试中均取得显著提升的方法:

  • FollowBench的硬性满意度提升了4个百分点

  • InFoBench提高了6个百分点

  • Arena-Hard的胜率增加了3个百分点

  • 某些特定任务的表现最高提升了达8.2%

这些数据充分证明了清单反馈在处理复杂、多步骤需求方面的显著优势。

苹果创新CheckList方法:AI大模型教小模型更精准执行复杂指令

苹果创新CheckList方法:AI大模型教小模型更精准执行复杂指令

值得一提的是,清单的生成过程同样体现了创新性。研究团队利用更大规模的Qwen2.5-72B-Instruct模型,结合现有研究成果,为13万条指令生成了名为”WildChecklists”的专业数据集。每个清单项都是明确的二元判断题,例如”是否需要翻译成西班牙语?”。随后,大语言模型会对候选答案进行逐项评分,并将综合评估结果作为训练奖励信号用于小模型的优化。

尽管RLCF展现出了显著优势,但苹果研究者也客观指出了该方法的局限性。首先,这种方法需要依赖更强大的模型来进行评判,在资源有限的场景下可能难以实施。其次,RLCF主要针对复杂指令执行能力的提升,并非专门用于安全对齐,因此不能完全替代安全性评估与调优工作。此外,对于其他类型的任务,RLCF的应用效果还有待进一步研究和验证。

苹果创新CheckList方法:AI大模型教小模型更精准执行复杂指令

© 版权声明

相关文章