Zonos & ZyphraAI —— 一款开源的多语种文本转语音模型

AI工具4周前发布 ainav
62 0

Zonos指的是什么

Zyphra近期发布了一款名为Zonos的高保真文本转语音(TTS)解决方案。该方案包含了两个核心模型:一个是拥有16亿参数的Transformer架构模型,另一个是SSM混合型模型,并且这两个都采用了Apache 2.0许可协议进行开源共享。通过输入特定的文字提示和说话人的特征嵌入信息,Zonos能够生成具有高度自然性和丰富表现力的声音输出。用户还可以利用其语音克隆功能调整诸如语速、音调及情感强度等参数,最终的音频输出以44kHz采样率呈现。这两个模型均是基于约20万小时跨越多种语言的大规模数据集训练而成,尤其在英语支持上表现出色,而对于其他语言的支持则相对有限。此外,Zonos配备了高效的推理引擎,在实时应用中能够实现快速的声音生成能力。

Zonos

Zonos的核心特性

  • 零例数TTS及声音模仿技术提供文本内容及一段持续10至30秒的演讲者的语音示例,即可创建出高品质的文字转语音效果。
  • 音频文件开头标识通过对文本和音频增加特定标识,并更加精准地契合讲话人的声音特征,以及实现那些不易被讲话人嵌入技术复制的动作,比如轻声细语。
  • 多种语言兼容性サポート提供英语、日语、中文、法语及德语的支持。
  • 声音质量与情绪调节提供对语速、音调、最高频率、声音清晰度及多种情绪的精准调节选项。

Zonos的核心技术机制

  • 文本的初步加工处理利用eSpeak软件对文本实施标准化与音素分解,把输入的文字段落转化为一系列音素。
  • 特性预估采用Transformer模型或是结合了多种结构的复合 backbone 网络来预估离散音频编解码器(Discrete Audio Codec, DAC)标签。
  • 声音合成利用预测性的DAC标签,并通过自编码器(Autoencoder)实现高质量语音的重构与生成。

Zonos项目的网址

  • 官方网站:在Zyphra网站上发布的关于Zonos版本0.1的测试版详情,请访问以下链接了解更多信息:https://www.zyphra.com/post/beta-release-of-zonos-v0-1
  • Git代码库:在GitHub上可以找到Zyphra创建的项目Zonos,网址是https://github.com/Zyphra/Zonos。

Zonos的使用情境

  • 音频书籍和网络学习资源把文字材料转化为流畅自然的声音,旨在为有声书及网络课程制作高品质的音频解说。
  • 智能助理及客户支持服务于虚拟助手中及客户服务体系里,创造流畅的人声互动体验,以达到更加贴近人的用户感受。
  • 多格式媒体创作在制作视频、创作动画及设计广告时,创建高水准的解说词与声音配乐。
  • 无障壁科技针对视障群体推出音频朗读功能,能够把网络页面、文件及书本的文字内容转化为有声读物,助力这一群体更便捷地接收资讯。
  • 电子游戏及交互式娱乐体验在游戏中及交互式娱乐软件里创造人物对话与叙述声音,以提升玩家的沉浸体验。
© 版权声明

相关文章