Qwen3-TTS：阿里通义开源语音生成模型

94 0 0

什么是Qwen3-TTS?

Qwen3-TTS是基于开源的先进语音生成技术打造的一系列创新模型，具备卓越的音色克隆、语音创造和精准控制能力。该系统采用独特的Qwen3-TTS-Tokenizer-12Hz多码本语音编码技术，实现了高效的语音压缩与高质量的声音还原效果。

通过Dual-Track双轨建模技术，Qwen3-TTS支持低延迟的流式音频生成，仅需等待第一个字符即可输出声音。该系统目前支持包括中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语和意大利语在内的十种主要语言，以及多种地区方言。

Qwen3-TTS不仅具备智能文本理解能力，能够根据上下文自动调节语气、节奏和情感表达，还提供多码本全系列模型的开源支持。开发者可以根据性能需求选择1.7B或0.6B两种不同的模型尺寸，灵活满足各种应用场景下的语音生成需求。

Qwen3-TTS在音色克隆方面表现尤为突出。通过提供少量参考音频，系统可以精确捕捉并复制特定说话人的声音特征，实现高度逼真的语音合成效果。

文章版权归作者所有，未经允许请勿转载。

ainav

231 0

ainav

117 0

ainav

779 0

ainav

118 0

ainav

149 0

ainav

237 0