Zonos & ZyphraAI —— 一款开源的多语种文本转语音模型

AI工具1年前 (2025)发布 ainav

296 0 0

Zonos指的是什么

Zyphra近期发布了一款名为Zonos的高保真文本转语音(TTS)解决方案。该方案包含了两个核心模型：一个是拥有16亿参数的Transformer架构模型，另一个是SSM混合型模型，并且这两个都采用了Apache 2.0许可协议进行开源共享。通过输入特定的文字提示和说话人的特征嵌入信息，Zonos能够生成具有高度自然性和丰富表现力的声音输出。用户还可以利用其语音克隆功能调整诸如语速、音调及情感强度等参数，最终的音频输出以44kHz采样率呈现。这两个模型均是基于约20万小时跨越多种语言的大规模数据集训练而成，尤其在英语支持上表现出色，而对于其他语言的支持则相对有限。此外，Zonos配备了高效的推理引擎，在实时应用中能够实现快速的声音生成能力。

Zonos的核心特性

零例数TTS及声音模仿技术提供文本内容及一段持续10至30秒的演讲者的语音示例，即可创建出高品质的文字转语音效果。
音频文件开头标识通过对文本和音频增加特定标识，并更加精准地契合讲话人的声音特征，以及实现那些不易被讲话人嵌入技术复制的动作，比如轻声细语。
多种语言兼容性サポート提供英语、日语、中文、法语及德语的支持。
声音质量与情绪调节提供对语速、音调、最高频率、声音清晰度及多种情绪的精准调节选项。

Zonos的核心技术机制

文本的初步加工处理利用eSpeak软件对文本实施标准化与音素分解，把输入的文字段落转化为一系列音素。
特性预估采用Transformer模型或是结合了多种结构的复合 backbone 网络来预估离散音频编解码器（Discrete Audio Codec, DAC）标签。
声音合成利用预测性的DAC标签，并通过自编码器(Autoencoder)实现高质量语音的重构与生成。

Zonos项目的网址

官方网站：在Zyphra网站上发布的关于Zonos版本0.1的测试版详情，请访问以下链接了解更多信息：https://www.zyphra.com/post/beta-release-of-zonos-v0-1
Git代码库：在GitHub上可以找到Zyphra创建的项目Zonos，网址是https://github.com/Zyphra/Zonos。