Verifier Engineering是什么
Verifier Engineering(验证器工程)是中国科学院、阿里巴巴和小红书联合推出的新型后训练范式,为基础模型设计,解决提供有效监督信号的挑战。Verifier Engineering基于自动化验证器执行验证任务并向基础模型提供反馈,分为搜索、验证和反馈三个阶段,优化模型性能。基于闭环反馈机制,强化模型的泛化能力,是实现人工通用智能的重要步骤。
Verifier Engineering的主要功能
- 搜索(Search):根据给定指令,从模型输出分布中采样代表性或潜在问题的样本。
- 验证(Verify):用各种验证器(如规则检测、评估指标或手动注释)来评估生成的候选响应。
- 反馈(Feedback):基于验证结果监督式微调或上下文学习等方法增强模型性能。
- 提升模型性能:基于闭环反馈循环,持续改进模型的准确性和可靠性。
Verifier Engineering的技术原理
- 目标条件马尔可夫决策过程(GC-MDP):将验证器工程形式化为GC-MDP,包括状态空间、动作空间、转移函数、目标空间、目标分布和奖励函数。
- 搜索结构:线性搜索和树搜索,在状态-动作空间中导航,平衡探索和利用。
- 验证器分类:根据验证形式(二进制、分数、排名、文本反馈)、验证粒度(标记级、思想级、轨迹级)、验证器来源(基于程序、基于模型)和是否需要额外训练分类验证器。
- 反馈方法:
- 基于训练的反馈:基于数据高效地更新模型参数。
- 基于推理的反馈:在推理过程中修改输入或策略,不改变模型参数。
Verifier Engineering的项目地址
- GitHub仓库:https://github.com/icip-cas/Verifier-Engineering
- HuggingFace模型库:https://huggingface.co/papers/2411.11504
- arXiv技术论文:https://arxiv.org/pdf/2411.11504