小米开源——高性能语言模型

AI工具2个月前发布 ainav
39 0

MiMo-V2-Flash是什么

小米开源的高性能语言模型MiMo-V2-Flash是一款具有3090亿总参数和150亿激活参数的先进AI系统,专为智能体设计。该模型采用了创新性的混合注意力架构,结合了滑动窗口注意力(SWA)和全局注意力(GA),并设定了128个token的窗口大小。通过引入可学习的注意力下沉偏置(sink bias)技术,MiMo-V2-Flash在保持长文本处理能力的同时,大幅降低了KV缓存存储需求。

此外,该模型还集成了轻量级多Token预测(MTP)模块,每个模块仅包含0.33亿参数。这些模块采用了密集前馈网络(FFN)和SWA技术,显著提升了生成速度。与标杆闭源模型Claude 4.5 Sonnet相比,MiMo-V2-Flash的推理成本仅为后者的2.5%,并且在生成速度上实现了翻倍提升。

该模型在多个智能体任务和复杂推理任务中表现出色,包括SWE-Bench测试和数学推理等场景。支持FP8混合精度推理,并推荐使用SGLang框架进行部署。

小米开源——高性能语言模型

MiMo-V2-Flash的主要功能

  • 卓越的性能表现:通过混合注意力架构和轻量级多Token预测技术,显著提升了模型的推理效率。
  • 高效的运行机制
    • 采用创新性滑动窗口注意力(SWA)和全局注意力(GA)结合方案。
    • 优化了KV缓存存储需求,降低计算资源消耗。
    • 引入可学习的注意力下沉偏置技术。
  • 强大的多任务处理能力
    • 在智能体AI任务中表现优异。
    • 适用于复杂的推理场景。
    • 支持SWE-Bench测试和数学推理等多样化应用。
© 版权声明

相关文章