Step-2 mini是什么
Step-2 mini 是阶跃星辰推出的轻量级极速大模型,基于新一代自研 Attention 架构 MFA 开发。仅用 3% 的参数量就保留了 Step-2 超过 80% 的性能,显著提升了生成速度和性价比。模型在输入 4000 tokens 时,平均首字时延仅为 0.17 秒,展现出极快的响应能力。Step-2 mini 采用 MFA 架构,相比传统多头注意力架构,节省了近 94% 的 KV 缓存开销,大幅降低了推理成本。
Step-2 mini的主要功能
- 通用任务处理:能处理多种通用语言任务,如文本生成、问答、翻译等。
- 代码生成与优化:在代码生成方面表现突出,能够理解用户需求并生成可执行代码。
- 逻辑推理与数学问题解决:具备较强的逻辑推理能力,能解决复杂的数学问题。
Step-2 mini的技术原理
- 多矩阵分解注意力机制(MFA)架构:MFA 架构是阶跃星辰与清华大学等机构共同研发的新型注意力机制。通过矩阵分解的方式,显著减少了传统注意力机制中的键值缓存(KV Cache)使用量,降低了内存消耗。MFA 架构采用了激进的低秩分解策略,成功地在扩展模型注意力头的数量和维度时保持了极高的参数效率。
- 强化学习技术:Step-2 mini 通过大规模的强化学习训练,使用 On-Policy(同策略)强化学习算法,实现了模型的“文理兼修”。
- 高性价比与快速响应:Step-2 mini 在保持低计算成本的同时,响应速度极快,适合对效率和成本有较高要求的场景。
Step-2 mini的项目地址
- 项目官网:访问阶跃星辰开放平台调用API接口。
Step-2 mini的模型价格
- 价格:输入 1 元/百万 token;输出 2 元/百万 token。
Step-2 mini的应用场景
- 数学问题解答:Step-2 mini 能构建合理的推理链,对复杂数学问题进行规划和逐步求解。
- 逻辑推理:在逻辑推理任务中,Step-2 mini 能自主尝试多种解题思路,在得到初步答案后,自我反问尝试有没有其他可能性,确保枚举出所有效果良好的解决方案。
- 数据分析:Step-2 mini 能帮助科研人员进行逻辑推理、数据分析,整合跨学科知识,推动科研项目进展。
- 文献理解:模型能理解和总结科研文献,提供关键信息和研究方向的建议。
- 代码开发:Step-2 mini 协助程序员高效开发代码,提供代码示例和逻辑分析。
- 商业决策:为管理者提供商业决策的逻辑分析和建议,优化办公流程。