昆仑万维 Skywork-OR1 系列模型:零门槛、全免费,完全开源

AI资讯6天前发布 ainav
10 0

# Skywork-OR1 系列模型:数学推理与编程任务中的卓越表现

## 概述
Skywork-OR1 系列模型在数学推理和竞赛编程任务中展现了卓越的能力。该系列包括两个通用模型(Skywork-OR1-7B-Preview 和 Skywork-OR1-32B-Preview)和一个专注于数学推理的专项模型(Skywork-OR1-Math-7B)。这些模型在多个 benchmark 上均取得了同参数规模下的最优成绩。

## 通用模型表现
### AIME 数据集
– **Skywork-OR1-7B-Preview** 和 **Skywork-OR1-32B-Preview** 在 AIME24 和 AIME25 数据集上实现了同参数规模下的最佳性能。
– **Skywork-OR1-32B-Preview** 的表现尤为突出,其在所有 benchmark 上均超越了 QwQ-32B,并在更具挑战性的 AIME25 上接近 R1 模型的表现。

### LiveCodeBench 数据集
– 两个通用模型在代码生成和问题求解方面均达到了同等参数规模下的最优水平。
– **Skywork-OR1-32B-Preview** 凭借卓越的性能,其代码生成与问题求解能力已接近参数规模高达 671B 的 DeepSeek-R1,在显著减少模型规模的同时实现了极高的性价比。

## 数学推理专项模型表现
### Skywork-OR1-Math-7B
– 这个专注于数学推理的 7B 参数模型在 AIME24 和 AIME25 上分别达到了 69.8% 和 52.3% 的高分,远超当前主流 7B 级别模型。
– 尽管未专门针对代码能力进行优化,但在 LiveCodeBench 数据集上从 37.6% 提升到 43.6%,展现了较好的领域泛化性。

## 多阶段训练与性能提升
– **Skywork-OR1-Math-7B** 通过多阶段 GRPO 训练显著提升了在复杂数学问题上的表现。
– 其在 AIME24 上的训练准确率曲线清晰显示了性能的稳定提升轨迹。

## 总结
Skywork-OR1 系列模型凭借其强大的数学推理能力和代码生成能力,在多个 benchmark 上取得了优异成绩,充分展现了天工团队先进的训练策略和技术创新。

© 版权声明

相关文章