Ming-omni-tts:统一音频生成模型

AI工具2个月前发布 ainav
68 0

什么是Ming-omni-tts

Ming-omni-tts是蚂蚁集团最新推出的开源多模态音频生成模型,它基于自回归架构实现语音、音乐与音效的一体化生成。该模型的一大亮点在于其强大的指令控制能力,支持通过自然语言处理技术对语速、音调、音量、情感表达和方言进行精细化调节。其中,粤语方言的识别准确率达到93%,情感控制准确率高达46.7%,这一性能显著超越了CosyVoice3等现有模型。

在技术实现方面,Ming-omni-tts采用了创新的统一连续音频Tokenizer以及Diffusion Transformer架构,在12.5Hz帧率下实现了对多模态音频信号的高效处理。通过独特的”Patch-by-Patch”压缩策略,该模型成功将LLM推理帧率优化至3.1Hz,不仅降低了运行时延,同时保持了优质的音效输出。值得注意的是,其16.8B参数版本在Seed-tts-eval中文测试集上的单词错误率(WER)仅为0.83%,优于现有的SeedTTS和GLM-TTS模型。

Ming-omni-tts内置了超过100种优质音色,支持零样本声音设计功能,并提供了Docker镜像和Gradio演示界面,方便开发者快速上手使用。该工具包特别适用于有声书制作、播客内容生成以及多语言音频创作等场景。

Ming-omni-tts的核心功能

作为一款开创性的多模态音频生成解决方案,Ming-omni-tts的最大特色在于其”统一多模态音频生成”能力。这是业界首个能够在单通道中同时实现语音、环境音和音乐生成的自回归模型,能够为用户带来高度沉浸式的听觉体验。

© 版权声明

相关文章