12月10日,阿里通义千问重磅推出全新语音合成AI模型——Qwen3-TTS,这是一款集多音色、多语种和方言支持于一体的先进语音生成系统。目前用户可通过Qwen API接口访问该服务。
与上一代产品相比,Qwen3-TTS在多个方面实现了显著提升。以下是其主要改进内容:
-
音色多样化升级:新增超过49种特色音色,涵盖不同性别、年龄层及地域文化特征。用户可以选择多样化的角色音效,例如:
– 活泼可爱的萝莉音(萌小姬)
– 俏皮搞怪的少女音(小野杏)
– 傲娇直率的女汉子音(十三)
– 严厉认真的老师音(墨讲师)
– 智慧稳重的老者音(沧明子) -
多语言方言能力增强:支持包括中文、英文在内的全球10大主流语言,涵盖欧洲、亚洲及美洲的主要语种。
在MiniMax TTS多语言测试集上,Qwen3-TTS的平均词错误率(WER)优于目前行业领先的MiniMax、ElevenLabs和GPT-4o-Audio-Preview模型。同时支持多种方言生成,包括普通话、闽南语、吴语、粤语、四川话、北京话、南京话、天津话以及陕西话等,能高度还原各种地方口音的独特魅力。 -
自然流畅的韵律表达:通过升级算法模型,Qwen3-TTS实现了更智能的语速调节和韵律控制。其生成语音不仅更加贴近人类说话方式,更能根据文本内容自动调整语气风格,在拟人化程度上达到了行业领先水平。

© 版权声明
文章版权归作者所有,未经允许请勿转载。