小米开源第一个大语言模型：Xiaomi MiMo

32 0 0

Xiaomi MiMo是什么

重磅消息！小米公司正式推出了其首个开源推理大模型——Xiaomi MiMo。这款创新的大模型专为提升复杂推理任务的表现而设计，标志着小米在人工智能领域迈出了重要一步。

作为一款具有划时代意义的开源项目，Xiaomi MiMo采用了独特的联动预训练和后训练技术，挖掘了大量丰富的推理语料，并结合创新性的强化学习算法。令人惊叹的是，这个仅拥有70亿参数规模的大模型，在多个公开测评中成功超越了包括OpenAI的o1-mini和阿里Qwen的QwQ-32B-Preview等在内的更大规模模型。

目前，Xiaomi MiMo已开放四个不同版本供开发者使用：基础预训练模型MiMo-7B-Base、监督微调模型MiMo-7B-SFT、强化学习模型MiMo-7B-RL以及零样本强化学习模型MiMo-7B-RL-Zero。这些模型均已托管在HuggingFace平台，为全球开发者提供了强大的推理工具。

Xiaomi MiMo的主要功能

Xiaomi MiMo凭借其卓越的性能，具备三大核心能力：

数学推理：能够高效解决复杂数学问题，并提供完整的解题思路和答案。
代码生成：可快速生成高质量代码片段，适用于多种编程任务场景。
优化推理性能：通过创新的训练方法，在仅70亿参数规模下实现了超越更大模型的效果，展现出卓越的推理效率。

Xiaomi MiMo的技术原理

Xiaomi MiMo的核心技术可以简单概括为”两阶段训练+三项技术创新”：

预训练阶段：通过精心设计的数据挖掘策略，构建了约2000亿tokens的高质量推理语料库。模型采用了三阶段逐步提升的训练方法，总训练量达到惊人的25万亿tokens。
后训练阶段：
- 强化学习算法：创新性地提出了”测试难度驱动奖励机制”（Test Difficulty Driven Reward），有效解决了复杂任务中奖励信号稀疏的问题。
- 数据重采样策略：引入了”简单数据重新采样”策略，显著提升了强化学习训练过程的稳定性。
- 高效训练框架：自主研发的”无缝 rollout 系统”将强化学习训练效率提升了2.29倍，验证速度提升1.96倍。
模型架构优化：对模型架构进行了专门的推理任务适配性优化，在保证效果的同时大幅提升了运行效率.