阶跃星辰发布的首款Step系列推理模型 —— Step R-mini

AI工具2年前 (2025)发布 ainav

515 0 0

Step R-mini代表的是什么

Step Reasoner mini（简称 Step R-mini）是由阶跃星辰开发的一款推理工具，作为Step系列中的首款专门用于推理的产品，它在主动规划、实验及反思方面表现出色。通过采用深思熟虑与反复检验的方法，确保了信息反馈的高度准确性和可靠性。该模型不仅能够高效处理逻辑推演、编程以及数学难题等高难度任务，在文学创作等领域同样游刃有余。Step R-mini凭借其卓越性能，在数学评估测试和代码编写挑战中表现突出，实现了文科理科的全面均衡发展。此外，它严格遵循Scaling Law原则进行优化升级，涵盖强化学习效果、提升数据质量、增加推理计算量及扩大模型规模等方面。

Step R-mini的核心特性

数学题目建立有效的逻辑推理链条，对复杂的数学问题制定计划并逐步解决。面对奥数难题时，尝试多种解答策略进行互证。在应对几何类问题时，积极绘制草图作为深入思考的媒介，并全面系统地剖析题目要求；挑选最合适的解题公式，并通过连续自问来确保没有遗漏任何因素。
推理分析积极探索各种解决问题的方法，获得初始解答之后，反思是否存在其它可能的方向，并努力找出所有高效的解决策略。在提交答案之前仔细核对是否有疏漏之处，以确保提供的推论既周全又精确。
编程解决方案能够通过精细推理解决复杂算法问题，例如在 LeetCode 技术平台上标记为“困难”级别的题目。同时具备处理繁琐开发任务的能力，能逐步解析用户的具体需求与目的，并构建相应的编程逻辑，在编写代码的过程中对每个部分进行分析和测试，最终提供完整的可运行代码。
文字创作透彻把握用户的需求与期望，在明确创作的主题和所需的文学类型后，探索不同的叙述视角和场景描绘方式，运用多样化的修辞技巧及合理的内容布局。同时，赋予所描述的对象以深刻的情感象征，并融入独特且富有创意的表达形式，展现出一种“追求卓越”的创作风格。

R-mini技术的特点与优势

遵循缩放定律原则由于提供的内容为空，没有具体文字可供改写。如果有具体的段落或句子需要进行伪原创的处理，请提供详细信息。这样我才能够帮助完成任务。
- 扩展强化学习的应用范围：由模仿学习过渡至强化学习，通过人类的偏好和环境的反馈来驱动，将强化学习作为推进模型迭代的关键训练环节。
- 扩展数据质量在保证数据质量的同时，不断扩展数据的覆盖范围和总量，以支持强化学习训练的需求。
- 调整测试阶段的计算量为了适应测试期间的计算需求增长，System 2 的架构使 Step-Reasoner mini 在处理高度复杂的推理任务时能够深入分析长达 50,000 tokens 的内容。
- 调整模型规模System-2 致力于不断扩大其模型规模，并正着手研发一个更加智能化和多功能的推理系统——Step Reasoner，以提升整体性能表现。
博识文理在AIME和Math等数学评测中，Step R-mini的表现超越了o1-preview，并且与OpenAI o1-mini相当。当涉及到LiveCodeBench编程任务时，其性能更是超过了o1-preview。多数推理模型通常难以同时具备文科和理科的综合能力，而Step R-mini通过大规模强化学习训练，特别是采用了同策略（On-Policy）算法进行优化，在文理兼通方面表现出色。