小米开源——高性能语言模型

95 0 0

MiMo-V2-Flash是什么

小米开源的高性能语言模型MiMo-V2-Flash是一款具有3090亿总参数和150亿激活参数的先进AI系统，专为智能体设计。该模型采用了创新性的混合注意力架构，结合了滑动窗口注意力（SWA）和全局注意力（GA），并设定了128个token的窗口大小。通过引入可学习的注意力下沉偏置（sink bias）技术，MiMo-V2-Flash在保持长文本处理能力的同时，大幅降低了KV缓存存储需求。

此外，该模型还集成了轻量级多Token预测（MTP）模块，每个模块仅包含0.33亿参数。这些模块采用了密集前馈网络（FFN）和SWA技术，显著提升了生成速度。与标杆闭源模型Claude 4.5 Sonnet相比，MiMo-V2-Flash的推理成本仅为后者的2.5%，并且在生成速度上实现了翻倍提升。

该模型在多个智能体任务和复杂推理任务中表现出色，包括SWE-Bench测试和数学推理等场景。支持FP8混合精度推理，并推荐使用SGLang框架进行部署。

MiMo-V2-Flash的主要功能

卓越的性能表现：通过混合注意力架构和轻量级多Token预测技术，显著提升了模型的推理效率。
高效的运行机制：
- 采用创新性滑动窗口注意力（SWA）和全局注意力（GA）结合方案。
- 优化了KV缓存存储需求，降低计算资源消耗。
- 引入可学习的注意力下沉偏置技术。
强大的多任务处理能力：
- 在智能体AI任务中表现优异。
- 适用于复杂的推理场景。
- 支持SWE-Bench测试和数学推理等多样化应用。