智谱小组开发的自对弈训练平台 SPAR

AI工具3个月前发布 ainav
135 0

SPAR代表的是什么?

由智谱团队研发的SPAR是一个专门用于增强大型语言模型遵守指示能力的自博弈架构。该系统通过内部生成模块和优化模块之间的互动来实现这一目标:生成模块负责根据命令创建响应内容,而优化模块则对这些响应进行评估并提出改进意见。借助树搜索技术,SPAR能够精确地调整回复,并去除无关信息以聚焦于与指令遵从性相关的关键点上。这不仅提升了模型按指示执行任务的准确性,还促进了其自我提升的能力。实验证明,通过应用SPAR架构,在IFEval等性能评估标准上的表现显著增强,证实了它在提高大型语言模型遵守命令能力方面的有效作用。

SPAR

SPAR的核心作用

  • 增强对命令的执行能力增强大规模语言模型(LLMs)精确解析与落实指示的技能。
  • 构建有效的偏好组合利用自我对抗及树形搜索方法,可以构建既有效又便于对比的偏好评对。这些评对剔除了无关变量的影响,有助于模型更好地捕捉重要区别。
  • 通过自身对弈实现持续优化该模型通过担任创作者和优化者的双重身份,开展自我对弈,并借助循环迭代的方法持续提升其执行命令的精确度。
  • 树木探索方法运用树搜索算法来优化模型反应的精确度,以保证产生的回答更加贴合指示要求。
  • 提升模型效果通过改进生产模型和精进模型这两个系统,增强整个过程对指令执行的精准度。
  • 灵活性和适应性呈现了在多种尺寸模型上的扩展能力和迁移效果,能够增强各类型规模模型的指令执行效能。

SPAR技术的工作机制

  • 自主对弈系统在SPAR架构里,大语言模型承担了创造者与优化者的双重身份,其中创造者负责产出回应内容,而优化者的任务是对这些回应进行审查并加以提升。
  • 树木探索方法运用树形搜索技术(涵盖广度优先搜寻BFS与深度优先搜寻DFS)来探究各种潜在的回答线路,进而确定最优回答。
  • 消除影响因素通过精准化的回应配对,剔除所有不影响命令遵守的因素,使模型能够集中精力于掌握命令的核心需求。
  • 逐步培训通过持续的迭代训练过程,逐步提升生产模型和精进模型的质量,在每一阶段的学习中都会利用上一阶段的成果来进行升级。
  • 数据构造创建一个高品质的数据集合,该集合涵盖复杂的指令跟随示例及其对应的监督细调(SFT)信息,用于启动及训练执行器与优化器模型。
  • 改进模型性能通过采用树搜索方法构建精确的回答配对,SPAR利用直接偏好优化(DPO)及拒绝重采样微调(RFT)来训练执行器与提炼器模型,从而达成连续的性能增强。

SPAR项目的网址

  • Git代码库:在GitHub平台上可以找到由THU-COAI团队维护的项目SPaR,其地址为上述链接。
  • HuggingFace的模型集合库访问此链接以查看相关的数据集:https://huggingface.co/datasets/CCCCCC/SPaR
  • 关于arXiv上的科技学术文章访问该论文的PDF版本,请点击此处:https://www.arxiv.org/pdf/2412.11605

SPAR技术的使用场合

  • 人工智能助理于个人及企业的智能化助手里辅助模型更加精准地解析用户指示,从而给予更为精确的反馈与服务。
  • 客户支持服务于客服行业之中,通过培训聊天机器人更加精准地响应用户的需求,从而提升问题处理的效率及增强用户的满意程度。
  • 教学科技于教育软件领域内,助力创造智能化的教学助理工具,解析及响应来自师生的精细指导,并打造个性化的学习环境。
  • 健康咨询服务于医疗咨询服务中,增强模型解析用户疑问的能力,以保障所给出的医学指导与资讯的安全性和精确性。
  • 智能家庭管理系统在智能家庭行业里,助力语音操控助理更加精准地解析与落实用户对家用设备的指挥命令。
© 版权声明

相关文章