6月17日讯,MiniMax稀宇科技宣布开启为期五天的重要更新计划,今日发布首个重大消息:开源大规模混合架构推理模型MiniMax-M1。
据官方介绍,MiniMax-M1是全球首个开源的大规模混合架构推理模型。该模型在面向复杂生产力场景时表现卓越,其能力不仅超越了国内的闭源模型,更接近国际领先水平,在性价比方面更是处于行业领先地位。
MiniMax-M1的一大亮点是支持高达100万条上下文输入和最长8万个Token的推理输出。这一性能与谷歌 Gemini 2.5 Pro持平,远超DeepSeek R1的八倍处理能力。
这些突破得益于两项关键技术创新:独特的闪电注意力机制混合架构和创新的强化学习算法CISPO。前者显著提升了长上下文处理和深度推理效率,后者通过优化采样权重提升训练效率。
凭借这两项技术突破,M1的强化训练效率显著提升。实际测试中仅需512块H800 GPU运行三周,租赁成本约53.47万美元(约合人民币384.1万元),远低于最初预期。
在SWE-bench基准测试中,MiniMax-M1-40k和M1-80k分别取得55.6%和56.0%的成绩,略逊于DeepSeek-R1-0528的57.6%,但远超其他开源模型。
凭借百万级上下文窗口,M1在长文本理解任务中表现优异,在多个评测指标上超越所有开源模型,并位居全球第二,仅稍逊于Gemini 2.5 Pro。
在代理工具使用场景(TAU-bench)测试中,MiniMax-M1-40k同样领先所有开源模型,并击败Gemini-2.5 Pro。
值得注意的是,在大多数基准测试中,M1-80k始终优于M1-40k,这充分验证了扩展计算资源的有效性。我们已在官方Hugging Face和GitHub账号发布了完整的技术报告和模型权重。
为了进一步降低使用门槛,我们在MiniMax App和Web端提供免费不限量服务。API定价策略也非常优惠:在0-32k输入长度时,输入费用为0.8元/百万Token,输出为8元/百万Token;32k-128k区间内,输入费用提升至1.2元/百万Token,输出费用相应调整为16元/百万Token;最长的128k-1M区间则为输入2.4元/百万Token和输出24元/百万Token。值得注意的是,在前两个区间段的价格比DeepSeek-R1更具竞争力,而第三个区间的定价策略则是DeepSeek模型所不支持的。
除了M1之外,接下来的四个工作日还将陆续发布更多更新内容,敬请期待。