近日,英伟达正式发布了全新推理模型套件——OpenReasoning-Nemotron。该套件包含四个基于Qwen-2.5微调的系列模型,参数规模分别为1.5B、7B、14B和32B,均源自6710亿参数的DeepSeek R1 0528大语言模型。
作为本次发布的核心亮点,OpenReasoning-Nemotron套件通过先进的”蒸馏”技术,成功将这一超大规模模型进行轻量化处理。这意味着即使在配置普通的游戏电脑上,也能轻松运行复杂的推理任务,显著降低了对高性能GPU和云计算资源的依赖。
该套件的最大特色在于其强大的数据支撑体系。英伟达借助NeMo Skills平台,构建了包含500万个涵盖数学、科学与编程领域解答的数据集,并通过严格的监督学习方式完成模型微调工作。测试数据显示,在AIME24数学竞赛中,32B模型取得89.2分的优异成绩;在HMMT 2月赛中达到73.8分,而最小规模的1.5B模型也分别获得了55.5和31.5分的可喜表现。
OpenReasoning-Nemotron被定位为科研探索的理想工具。英伟达计划将四个模型的完整检查点在Hugging Face平台开放下载,便于研究人员进行强化学习研究或其他定制化实验。同时,套件引入了创新的”GenSelect模式”,允许针对每个问题生成多个解答版本,并通过筛选确定最优解,从而有效提升准确率。
特别值得注意的是,此次模型训练过程完全摒弃了强化学习方法,仅采用监督微调策略。这种设计理念为研究社区提供了一个纯净且技术前沿的研究起点,便于后续开展各种强化学习相关研究。对于拥有高性能游戏GPU的用户而言,这套模型使本地运行接近行业最先进水平的推理系统成为可能。
© 版权声明
文章版权归作者所有,未经允许请勿转载。