阿里开放源代码的语音生成大型模型——CozyVoice 2.0

AI工具3个月前发布 ainav
143 0

CosyVoice 2.0指的是什么

CosyVoice 2.0 是由阿里巴巴通义实验室研发的升级版语音生成大模型。该版本采用了有限标量量化技术来增强码本的利用效率,并简化了文本到语音的语言模型结构。此外,它还引入了一种基于块感知因果流匹配的新机制以适应更多样的合成场景。相较于前代产品,CosyVoice 2 在发音精准度、音色一致性及韵律和音质方面都有显著进步,其MOS评分也从5.4上升至5.53。它支持实时推理处理,并大幅减少了首包生成的延迟时间到150毫秒内,特别适用于需要即时语音输出的应用场景中。

CosyVoice 2.0

温馨之声2.0的核心特性

  • 极低延时的实时语音生成提供双向流式音频合成服务,初期数据包的生成延时低至150毫秒,非常适合即时应用环境。
  • 高度精准的语音发出与之前版本对比,其发音准确度大幅提升,在应对绕口令、多音字及生僻字方面尤为出色。
  • 声音特性的一致性在处理零样本及跨语言的语音合成功能时,确保声音特征的高度一致,并增强生成音频的自然效果。
  • 亲身体验大自然经过优化,合成声音的节奏感、清晰度和情绪契合度显著增强,其在MOS评估中的得分上升,并已达到商业级语音生成模型的标准附近。
  • 多种语言兼容性支持通过在庞大的多种语言数据集上进行训练,实现了跨越不同语言的语音合成技术。

CosyVoice 2.0 的技术机制

  • 基础的大型语言模型结构利用预先训练好的大型语言基础模型(例如Qwen2.5-0.5B)来替代原先的随机Transformer结合文本编码器的架构,以实现对文本语义的理解和构建。
  • FSQ语音分词器采用全范围量化(FSQ)代替向量量化(VQ),通过扩大码本至6561个条目,并确保完全激活,从而增强语音清晰度。
  • 整合离线与实时处理的统一建模方法推出了一种集成式的建模策略,使LLM与FM都能兼容连续推理模式,从而加速首次音频数据包的生成过程。
  • 提升由指令引导的音频创作功能改进基础模型与指导模型的融合效果,增强对情绪、语言风格及精细化操作命令的支持,并增加了对中国汉语指挥语句的兼容性。
  • 跨媒体大型模型技术利用先进的多模态大型模型技术,我们融合了语音辨识、声音生成及自然语言处理等多种人工智能手段,打造了一个能够“倾听、对话并理解用户需求”的智能化互动平台。

CosyVoice 2.0 的项目位置

  • 官方网站访问此链接以探索更多精彩内容:https://funaudiollm.github.io/cosyvoice2/
  • Git代码库:访问此链接以获取CosyVoice项目 – https://github.com/FunAudioLLM/CosyVoice
  • 科技研究报告该链接指向的是一个PDF文件,标题为”CosyVoice_2″,具体内容无法直接访问和展示。因此,我将基于给出的信息类型提供一种可能的描述方式:

    此网页连接包含了一个名为《CosyVoice_2》的PDF文档。该文档可能是关于某个特定主题的研究、报告或教程,并且有可能包含了图表、研究发现或是详细的指南等内容。

    请注意,由于没有具体的内容可供参考改写,以上内容仅基于链接形式和常见用途的一种假设性描述。

CosyVoice 2.0的使用情境

  • 智能化助理与对话机器人致力于向智能助手及聊天机器人供应流畅自然的声音反馈,以增强用户操作体验。
  • 语音图书及听书资源创建高品质的音频书籍服务,涵盖多国语言及地方方言,以适应各类用户的个性化需求。
  • 为视频提供语音叙述及解释说明我们提供专业的配音服务给各类视频内容,涵盖教育影片、公司宣传短片以及影视剧集的配音工作。
  • 客户支持与电话服务中心通过在客服环节引入语音交流功能,可以显著提升服务效能并增强客户的满意程度。
  • 学习语言与教学助力语言学习者提升发音精确度,通过展示正确的语音范例来指导学习过程。
© 版权声明

相关文章