阿里通义千问Qwen3-TTS语音合成模型:支持49+种音色与多地方言

AI资讯2个月前发布 ainav
95 0

12月10日,阿里通义千问重磅推出全新语音合成AI模型——Qwen3-TTS,这是一款集多音色、多语种和方言支持于一体的先进语音生成系统。目前用户可通过Qwen API接口访问该服务。

阿里通义千问Qwen3-TTS语音合成模型:支持49+种音色与多地方言

与上一代产品相比,Qwen3-TTS在多个方面实现了显著提升。以下是其主要改进内容:

  • 音色多样化升级:新增超过49种特色音色,涵盖不同性别、年龄层及地域文化特征。用户可以选择多样化的角色音效,例如:
    – 活泼可爱的萝莉音(萌小姬)
    – 俏皮搞怪的少女音(小野杏)
    – 傲娇直率的女汉子音(十三)
    – 严厉认真的老师音(墨讲师)
    – 智慧稳重的老者音(沧明子)

  • 多语言方言能力增强:支持包括中文、英文在内的全球10大主流语言,涵盖欧洲、亚洲及美洲的主要语种。
    在MiniMax TTS多语言测试集上,Qwen3-TTS的平均词错误率(WER)优于目前行业领先的MiniMax、ElevenLabs和GPT-4o-Audio-Preview模型。同时支持多种方言生成,包括普通话、闽南语、吴语、粤语、四川话、北京话、南京话、天津话以及陕西话等,能高度还原各种地方口音的独特魅力。

  • 自然流畅的韵律表达:通过升级算法模型,Qwen3-TTS实现了更智能的语速调节和韵律控制。其生成语音不仅更加贴近人类说话方式,更能根据文本内容自动调整语气风格,在拟人化程度上达到了行业领先水平。

阿里通义千问Qwen3-TTS语音合成模型:支持49+种音色与多地方言

© 版权声明

相关文章