小米开源端到端语音大模型

AI工具2个月前发布 ainav
51 0

小米推出首个原生端到端语音大模型Xiaomi-MiMo-Audio

Xiaomi-MiMo-Audio是小米公司开源的首款原生端到端语音大模型。该模型基于创新性的预训练架构和超过十亿小时的训练数据,成功实现了在语音领域的In-Context Learning(ICL)少样本泛化能力,这一突破标志着语音技术领域的重要进展。

作为行业领先的音频处理解决方案,Xiaomi-MiMo-Audio在多个标准评测基准中展现了卓越性能,在70亿参数量模型的表现上达到了最佳水平。特别是在MMAU测试集和Big Bench Audio S2T任务中,分别超越了Google Gemini-2.5-Flash和OpenAI GPT-4o-Audio-Preview等强劲对手。

小米此次开源了多款核心模型:包括70亿参数的MiMo-Audio-7B-Base基础模型和MiMo-Audio-7B-Instruct指令微调版本,以及12亿参数量的Tokenizer模型。这些工具包支持音频重建和文本转写两大主要功能。

此外,Xiaomi-MiMo-Audio突破了传统语音领域对海量标注数据的依赖,在小样本学习任务中展现出惊人的适应能力,堪称语音领域的“GPT-3时刻”。

小米开源端到端语音大模型

Xiaomi-MiMo-Audio的核心优势

  • 领先的少样本学习能力:通过In-Context Learning技术,实现快速任务适配,开创语音领域的小样本学习新纪元。
  • 卓越的性能表现:在70亿参数规模下达到最佳评测效果,超越诸多行业标杆模型。
  • 丰富的开源资源:提供完整的音频处理工具包,支持多种主流应用场景。

Xiaomi-MiMo-Audio的成功发布不仅彰显了小米在人工智能领域的技术实力,更为语音交互技术的发展开辟了新的方向。这一创新成果将为智能音箱、语音助手等产品带来更强大的功能和更自然的用户体验。

© 版权声明

相关文章