智谱开源文本转语音模型GLM-TTS：仅需3秒语音样本即可克隆声音

AI资讯8个月前发布 ainav

476 0 0

12月11日，智谱正式发布了工业级语音合成系统GLM-TTS，并在Hugging Face和ModelScope平台开放了模型权重。目前该技术已实现开源，可在中国开发者社区（bigmodel）、智谱清言以及Z.ai平台上使用。

官方对GLM-TTS的介绍如下：

仅需3秒语音样本，GLM-TTS即可快速学习说话人的音色和语言风格。该系统在教育评测、电子书阅读、有声客服等多个领域表现出色，可生成自然流畅且高度拟真的人声。

我们的目标是让AI不仅能够”开口说话”，更能在合适场景下准确传达情感。

GLM-TTS采用了两阶段生成架构，并在训练中引入了基于GRPO的强化学习方案。在公开测试中的字错误率和情感表达能力方面均达到了开源模型的第一梯队水平。

技术优势：

极低的字错误率：在中文测试集上，CER（字符错误率）达到行业领先水平。
卓越的情感表达能力：在快乐、悲伤和愤怒三种情绪维度均取得最优表现。
高效部署：支持快速集成到现有系统中，并提供灵活的二次开发接口。

为方便开发者使用，我们提供了完整的开源资源包：

1. 开源协议与下载地址：

GitHub： https://github.com/zai-org/GLM-TTS
Hugging Face： https://huggingface.co/zai-org/GLM-TTS
魔搭社区： https://modelscope.cn/models/ZhipuAI/GLM-TTS

2. 在线服务：

开放平台入口： https://docs.bigmodel.cn/cn/guide/models/sound-and-video/glm-tts
API接口文档： https://docs.bigmodel.cn/ api-reference / 模型-api / 文本转语音

3. 用户体验：

audio.z.ai：在线试用文本转语音功能。
智谱清言App/网页版：体验多风格朗读和音色克隆效果。

平台提供多种计费方案和QPS配置，可满足从个人测试到企业级应用的多样化需求。

# AI资讯

文章版权归作者所有，未经允许请勿转载。

英伦央行警告AI行业泡沫隐现或引发系统性金融风险

ainav

187 0

微软研报：DeepSeek中国AI市场占比89%，白俄罗斯56%

ainav

147 0

谷歌Gemini AI会员权益：免费用户每月5次搜索，Pro每日百图

ainav

329 0

Meta开源MobileLLM-R1：专注数学编程科学的小参数AI模型

ainav

180 0

全球首等人形机器人运动会赛程发布：含足球、格斗

ainav

276 0

不做机器人只做系统 Meta想成为”机器人界的安卓”

ainav

247 0

智谱开源文本转语音模型GLM-TTS：仅需3秒语音样本即可克隆声音

谷歌推出AI智能体接入工具托管服务

谷歌推出Google AI Plus计划抢占印度AI付费订阅市场

相关文章

搜索

热门文章

热门网址

智谱开源文本转语音模型GLM-TTS：仅需3秒语音样本即可克隆声音

谷歌推出AI智能体接入工具托管服务

谷歌推出Google AI Plus计划 抢占印度AI付费订阅市场

相关文章

搜索

热门文章

热门网址

谷歌推出Google AI Plus计划抢占印度AI付费订阅市场