3月20日讯,昨日,专注于大模型训练与开发的平台Predibase宣布推出其首个端到端强化微调平台(RFT),这一创新性工具旨在简化并优化大模型的微调流程。
Predibase团队表示,开源社区近期备受关注的DeepSeek-R1项目在全球范围内引发了广泛讨论。该模型向研究人员和开发者展示了强化学习在大模型训练中的巨大潜力。正是受到这一项目的启发,Predibase开发出了这款全新的无服务器端到端强化微调平台。
该平台的创新之处在于,它突破了传统监督式微调对大量标注数据的依赖。通过引入奖励机制和自定义函数,RFT实现了持续强化学习的能力。同时,作为一款无服务器端到端平台,RFT整合了从数据管理、模型训练到应用部署的完整流程。用户仅需一个浏览器即可完成操作:设定微调目标、上传所需数据,就能轻松实现以往复杂繁琐的大模型微调过程。
为了展示这一新技术的实际效果,Predibase基于阿里开源的Qwen2.5-Coder-32B-instruct模型,开发了一个专注于PyTorch代码向Triton转换的专用模型——Predibase-T2T-32B-RFT。
与传统的监督式微调方法相比,Predibase-T2T-32B-RFT通过交互式的强化学习机制调整模型行为。仅需极少量标记数据即可实现下游任务质量的显著优化,这使其成为企业级LLM部署的理想选择。
在训练过程中,RFT平台结合了冷启动监督式微调、强化学习和课程学习等多种技术手段。即使仅使用十几个标记数据点,也能获得令人满意的模型性能。
基准测试显示,在Kernelbench标准测试集上,经过RFT优化的Qwen2.5-Coder-32B-instruct模型表现优异。其正确率相比DeepSeek-R1和OpenAI o1模型高出三倍以上,与Claude 3.7 Sonnet相比更是提升了四倍有余。值得注意的是,该模型在保持小型化架构的同时却实现了更高的性能指标。
如需了解更多信息,可以访问项目开源地址:
https://huggingface.co/predibase/Predibase-T2T-32B-RFT
您也可以通过以下链接体验该平台的实际效果:
https://predibase.com/reinforcement-fine-tuning-playground