Ming-omni-tts：统一音频生成模型

102 0 0

什么是Ming-omni-tts

Ming-omni-tts是蚂蚁集团最新推出的开源多模态音频生成模型，它基于自回归架构实现语音、音乐与音效的一体化生成。该模型的一大亮点在于其强大的指令控制能力，支持通过自然语言处理技术对语速、音调、音量、情感表达和方言进行精细化调节。其中，粤语方言的识别准确率达到93%，情感控制准确率高达46.7%，这一性能显著超越了CosyVoice3等现有模型。

在技术实现方面，Ming-omni-tts采用了创新的统一连续音频Tokenizer以及Diffusion Transformer架构，在12.5Hz帧率下实现了对多模态音频信号的高效处理。通过独特的”Patch-by-Patch”压缩策略，该模型成功将LLM推理帧率优化至3.1Hz，不仅降低了运行时延，同时保持了优质的音效输出。值得注意的是，其16.8B参数版本在Seed-tts-eval中文测试集上的单词错误率（WER）仅为0.83%，优于现有的SeedTTS和GLM-TTS模型。

Ming-omni-tts内置了超过100种优质音色，支持零样本声音设计功能，并提供了Docker镜像和Gradio演示界面，方便开发者快速上手使用。该工具包特别适用于有声书制作、播客内容生成以及多语言音频创作等场景。