8月4日,小米公司正式对外发布了其自主研发的声音理解大模型——MiDashengLM-7B,并宣布该模型将完全开源。
据小米官方介绍,这款大模型在性能上实现了显著突破:单样本首Token的延迟时间仅为同类产品的四分之一,在相同显存条件下,其并发处理能力更是提升了超过20倍。此外,MiDashengLM-7B还在22个公开评测集上刷新了现有最优(SOTA)的成绩。
该模型采用Xiaomi Dasheng作为音频编码器,搭配Qwen2.5-Omni-7B Thinker作为自回归解码器。通过创新的通用音频描述训练策略,MiDashengLM-7B能够对语音、环境声音和音乐实现统一理解。
值得一提的是,在2024年,小米推出的Xiaomi Dasheng声音基座模型在国际上实现了重大突破。在AudioSet评估中达到了50+ mAP的水平,并在HEAR Benchmark的环境声、语音和音乐三大领域建立了领先优势。
Xiaomi Dasheng技术已在小米智能家居和汽车座舱等多个场景中得到广泛应用,超过30项功能都基于此技术实现。例如行业首创的车外唤醒防御系统、手机音箱全天候异常声音监控、“打个响指”环境音关联物联网控制能力以及小米YU7车型上的增强哨兵模式划车检测等功能,均采用了Xiaomi Dasheng作为核心算法。
MiDashengLM的训练数据全部来源于公开资源,并且以宽松的Apache License 2.0协议进行发布。这一开源策略不仅支持学术研究,也面向商业应用开放授权。
与Qwen2.5-Omni等未公开训练数据细节的模型不同,MiDashengLM完整披露了包括77个来源的数据配比信息。技术报告详细记录了从音频编码器预训练到指令微调的整个流程。
作为小米“人车家全生态”战略的重要技术支撑,MiDashengLM通过统一理解语音、环境声与音乐的跨领域能力,不仅能够识别用户周围发生的具体事件,还能分析这些事件背后的潜在含义,从而提升对用户场景的理解泛化能力。
基于MiDashengLM构建的应用系统可以通过自然语言处理和用户交互,提供更加人性化的服务。例如,在用户练习唱歌或学习外语时,可以实时反馈发音问题并制定个性化提升方案;在驾驶场景中,能够即时解答关于环境声音的提问。
当前版本的MiDashengLM以Xiaomi Dasheng音频编码器为核心组件。未来,小米计划进一步优化模型的计算效率,探索其在终端设备上的离线部署可能性,并开发更多基于用户自然语言提示的声音编辑功能。
以下是MiDashengLM的开源资源地址:
-
GitHub主页:https://github.com/xiaomi-research/dasheng-lm
-
技术报告:https://github.com/xiaomi-research/dasheng-lm/tree/main/technical_report
-
模型参数(Hugging Face):https://huggingface.co/mispeech/midashenglm-7b
-
模型参数(魔搭社区):https://modelscope.cn/models/midasheng/midashenglm-7b
-
网页 Demo:https://xiaomi-research.github.io/dasheng-lm
-
交互 Demo:https://huggingface.co/spaces/mispeech/MiDashengLM