WebShaper——阿里推出AI训练数据合成平台

AI工具1年前 (2025)发布 ainav

306 0 0

WebShaper是什么

WebShaper是由阿里巴巴通义实验室开发的一种创新的人工智能训练数据合成系统。该系统通过形式化建模和智能体扩展机制，为AI智能体（Agent）的训练提供了高质量、可扩展的数据支持。在WebShaper中，首次引入了基于集合论的“知识投影”（Knowledge Projection, KP）概念，利用KP的交集、并集和递归操作，构建复杂的问题结构，并精确控制推理路径和任务难度。

WebShaper的核心创新在于其Expander智能体功能。该系统能够从简单的“种子问题”开始，逐步扩展生成复杂的推理任务，使AI具备自主“出题”的能力。同时，WebShaper采用了监督微调（SFT）与GRPO强化学习相结合的训练策略，帮助模型在处理复杂信息检索任务时表现出色。

WebShaper的主要功能

形式化建模：WebShaper首次提出了基于集合论的信息搜寻任务形式化建模方法。通过“知识投影”（Knowledge Projection, KP）技术，将复杂的信息搜寻任务分解为多个集合操作，如交集、并集和递归操作。每个KP是一个包含特定实体的集合，通过这些操作可以构建出复杂的问题结构，并精确控制推理路径和任务难度。
智能体扩展机制：WebShaper的一大创新是让AI具备自主“出题”的能力。通过Expander智能体，系统能够从一个简单的“种子问题”开始，逐步生成复杂的推理任务。在这一过程中，Expander智能体会调用搜索、摘要和验证等工具，确保构造出的问题逻辑清晰且推理链条可控，并对答案的正确性进行验证。
高质量数据生成：WebShaper通过形式化建模和智能体扩展机制，能够生成高质量的训练数据。与传统的“猜题”方式不同，WebShaper生成的数据具有可控性、可解释性和可扩展性的特点。这种创新突破了预检索数据的边界，使得模型能够覆盖更广泛的任务类型、激发更强的能力，并实现更全面的知识覆盖。同时，显著减少了数据合成过程中的错误和冗余信息。
Agent训练策略：WebShaper采用了监督微调（SFT）与GRPO强化学习相结合的组合策略。这种策略使AI智能体能够在模糊、多跳的信息中逐步掌握推理与检索能力。在训练过程中，模型从高质量的训练轨迹开始，并通过奖励机制引导进行多步推理，避免“走捷径”或“猜答案”的问题。

WebShaper的技术原理

形式化驱动框架：WebShaper采用集合论对信息检索任务进行了系统化的形式化建模，其核心是“知识投影”（Knowledge Projections, KP）概念。KP基于特定关系的实体集合进行构建，并通过集合操作来实现复杂问题结构的构造。
智能体扩展机制：WebShaper的独特之处在于其智能体扩展功能，即Expander智能体能够从简单的“种子问题”开始，逐步生成复杂的推理任务。这一过程涉及多个工具和服务的调用，包括搜索、摘要和验证等，确保了问题构造的逻辑性和答案的准确性。
知识图谱与推理控制：通过“知识投影”（KP）技术，WebShaper能够将复杂的信息检索任务分解为多个可控的集合操作。这使得系统能够在构建问题结构时，精准地控制推理路径和任务难度，并确保模型输出符合预期。
训练策略：WebShaper结合了监督微调（SFT）和GRPO强化学习两种方法，帮助AI在处理复杂信息检索任务时表现出色。通过高质量的训练轨迹和奖励机制，系统引导模型进行多步推理，避免“走捷径”或“猜答案”的问题。

# AI工具