通义实验室研究:大模型独立搜索引擎提升推理能力无API

AI资讯2周前发布 ainav
14 0

## ZeroSearch:让大语言模型学会精准搜索

近年来,检索增强的大语言模型(LLM)在自然语言处理领域取得了显著进展。为了进一步提升这些模型的检索能力,北京大学智能学院的研究团队提出了一个创新性的解决方案——ZeroSearch。这项研究不仅降低了对真实搜索引擎API的依赖,还通过模拟环境实现了更高效、更经济的训练方式。

### 模拟搜索引擎:告别昂贵API调用
传统的LLM训练通常需要依赖真实的搜索引擎API进行监督学习,这种做法不仅成本高昂,而且在实际应用中存在诸多限制。ZeroSearch团队巧妙地设计了一个模拟搜索引擎的环境,使得模型可以在无需真实搜索的情况下完成训练任务。这一创新突破了传统方法对API调用的依赖,为LLM的研究和开发提供了新的可能。

### 课程式学习:逐步提升检索能力
为了实现更高效的训练效果,研究团队采用了课程式学习策略。该策略通过从简单到复杂的逐步引导,帮助模型在模拟环境中逐步掌握越来越复杂的搜索任务。具体来说,这一过程包括两个关键步骤:
– **初级阶段**:模型首先学习基本的文档匹配和排序技巧。
– **高级阶段**:随着能力的提升,模型逐步接触到更复杂、更具挑战性的查询场景。

这种循序渐进的训练方式不仅提高了模型的学习效率,还显著增强了其在真实应用场景中的适应能力。

### 高效性能:参数规模与搜索效果的关系
研究发现,模型的参数规模与其检索能力之间呈现出清晰的正相关关系。具体来说:
– 使用70亿参数(7B)的检索模块已经能够达到接近谷歌搜索的实际效果。
– 而当参数规模提升至140亿(14B)时,其表现甚至超越了现有的商业搜索引擎。

这一发现表明,ZeroSearch框架在模型扩展方面具有显著的优势,为未来开发更强大的检索增强LLM指明了方向。

### 算法兼容性:支持多种强化学习方法
ZeroSearch框架的另一个重要特点是其对多种强化学习算法的良好兼容性。实验数据显示:
– **GRPO算法**在训练稳定性方面表现更为突出。
– **PPO算法**则在某些特定任务中展现出了更高的灵活性。

这种多样性不仅证明了ZeroSearch框架的通用性,也为研究人员提供了更多的研究选择。

### 未来展望
这项研究由北京大学智能学院四年级博士研究生孙浩主导完成。作为检索增强大语言模型领域的前沿探索者,孙浩对这一领域的发展充满信心。他认为,随着技术的不断进步,基于模拟环境的大语言模型训练方法将逐步取代传统的API依赖模式,为人工智能技术的发展开辟新的道路。

### 参考资料
– 论文链接:https://arxiv.org/abs/2505.04588
– 项目主页:https://alibaba-nlp.github.io/ZeroSearch

© 版权声明

相关文章