智谱开源文本转语音模型GLM-TTS:仅需3秒语音样本即可克隆声音

AI资讯2个月前发布 ainav
158 0

12月11日,智谱正式发布了工业级语音合成系统GLM-TTS,并在Hugging Face和ModelScope平台开放了模型权重。目前该技术已实现开源,可在中国开发者社区(bigmodel)、智谱清言以及Z.ai平台上使用。

智谱开源文本转语音模型GLM-TTS:仅需3秒语音样本即可克隆声音

官方对GLM-TTS的介绍如下:

仅需3秒语音样本,GLM-TTS即可快速学习说话人的音色和语言风格。该系统在教育评测、电子书阅读、有声客服等多个领域表现出色,可生成自然流畅且高度拟真的人声。

我们的目标是让AI不仅能够”开口说话”,更能在合适场景下准确传达情感。

GLM-TTS采用了两阶段生成架构,并在训练中引入了基于GRPO的强化学习方案。在公开测试中的字错误率和情感表达能力方面均达到了开源模型的第一梯队水平。

智谱开源文本转语音模型GLM-TTS:仅需3秒语音样本即可克隆声音

技术优势:

  • 极低的字错误率:在中文测试集上,CER(字符错误率)达到行业领先水平。
  • 卓越的情感表达能力:在快乐、悲伤和愤怒三种情绪维度均取得最优表现。
  • 高效部署:支持快速集成到现有系统中,并提供灵活的二次开发接口。

为方便开发者使用,我们提供了完整的开源资源包:

1. 开源协议与下载地址:

  • GitHub: https://github.com/zai-org/GLM-TTS
  • Hugging Face: https://huggingface.co/zai-org/GLM-TTS
  • 魔搭社区: https://modelscope.cn/models/ZhipuAI/GLM-TTS

2. 在线服务:

  • 开放平台入口: https://docs.bigmodel.cn/cn/guide/models/sound-and-video/glm-tts
  • API接口文档: https://docs.bigmodel.cn/ api-reference / 模型-api / 文本转语音

3. 用户体验:

  • audio.z.ai:在线试用文本转语音功能。
  • 智谱清言App/网页版:体验多风格朗读和音色克隆效果。

平台提供多种计费方案和QPS配置,可满足从个人测试到企业级应用的多样化需求。

© 版权声明

相关文章