Fun-CosyVoice3.5 阿里通义实验室 语音生成模型

AI工具1个月前发布 ainav
36 0

Fun-CosyVoice3.5介绍

Fun-CosyVoice3.5是由阿里巴巴通义实验室语音团队全新推出的一款先进的语音生成模型。该模型以其卓越的多语言音色复刻能力和精细化的表达控制功能而著称,为用户提供了更加智能化和人性化的语音交互体验。

作为该模型的核心创新点,Fun-CosyVoice3.5引入了革命性的FreeStyle自然语言控制技术。这一突破性功能让用户无需掌握专业的参数设置知识,只需通过简单的口语化指令(如“语气坚定一点”、“语速慢一点”等),即可实现对语音效果的精准调节,从而达到“一句话自由生成语音”的理想效果。

在多语言支持方面,Fun-CosyVoice3.5新增了泰语、印尼语、葡萄牙语和越南语四种语言,使覆盖的语言种类扩展至13种。同时,在技术优化上取得了显著进展:生僻字识别准确率从15.2%提升至94.7%,实现了质的飞跃;通过创新性的Tokenizer帧率优化技术,成功将首包延迟降低了35%,极大地提升了用户体验。

Fun-CosyVoice3.5 阿里通义实验室 语音生成模型

Fun-CosyVoice3.5的核心功能

  • 智能化语音调控系统:用户可以通过简单的自然语言指令来调整语音效果,例如“语气坚定一点”、“稍微压低音调”、“语速慢一点”或“带一点情绪起伏”,无需任何专业参数设置即可实现精准控制。
  • 多语言支持:Fun-CosyVoice3.5支持包括中文在内的13种不同语言的语音生成,满足多样化的国际应用场景需求。
  • 生僻字识别优化:通过技术创新,生僻字读错率显著降低至5.3%,极大地提高了文本转语音的准确性和自然度。
  • 延迟优化技术:采用先进的Tokenizer帧率优化方案,首包响应时间降低了35%,为实时语音生成提供了有力保障。
© 版权声明

相关文章