什么是SoulX-Podcast
SoulX-Podcast是由Soul AI实验室开发的多说话人文本转语音(TTS)模型,专为生成高质量的长篇播客对话设计。该模型参数量达1.7B,支持普通话、英语以及多种汉语方言(如四川话、河南话、粤语等),并具备跨方言提示功能。用户只需使用普通话进行提示,即可生成目标方言语音。此外,SoulX-Podcast还支持副语言控制(如笑声、叹气等),显著提升了语音合成的自然度和真实感。该模型能够连续生成超过90分钟的连贯对话,保持音色和情感的一致性,广泛应用于播客、有声读物等领域。
SoulX-Podcast的核心功能
- 多说话人支持:模型能够自然切换多个说话人的语音,适用于播客、有声读物等多种场景。
- 多语言与方言支持:不仅支持普通话和英语,还涵盖多种汉语方言。通过跨方言提示功能,用户可以用普通话生成目标方言的语音。
- 副语言控制:在文本中加入特定标记(如
<|laughter|>、<|sigh|>等),可生成笑声、叹气等非语言信息,使语音更加真实自然。 - 长篇对话生成:能够持续生成超过90分钟的连贯对话,在音色和情感上保持高度一致,适合制作长篇播客内容。
- 零样本语音克隆:无需目标说话人的语音样本,即可生成高质量的个性化语音。
SoulX-Podcast的技术实现
- 模型架构:基于Qwen3-1.7B的基础架构进行优化,经过微调以适应多说话人对话生成任务。
- 多说话人建模:采用说话人嵌入技术,区分不同说话人的语音特征,在对话中实现自然切换。
- 跨方言生成:运用方言引导提示方法(Dialect-Guided Prompting, DGP),根据普通话提示生成目标方言语音,支持多种方言的零样本生成。
- 副语言控制:通过在文本输入中添加特定的副语言标记,模型可在输出语音中加入相应的非语言信息,增强真实感。
- 长篇稳定性优化:通过对注意力机制和解码器结构的优化,确保长时间对话生成时音色和情感的一致性。
- 数据处理与训练:采用大规模多说话人对话数据进行训练,经过语音增强、音频分割、说话人日志、文本转录及质量过滤等步骤,确保模型能充分学习丰富的对话特征。
项目资源链接
- 官方网站:https://soul-ailab.github.io/soulx-podcast/
- GitHub仓库:https://github.com/Soul-AILab/SoulX-Podcast
- HuggingFace模型库:https://huggingface.co/collections/Soul-AILab/soulx-podcast
- 技术论文:https://arxiv.org/pdf/2510.23541
SoulX-Podcast的应用场景
- 播客制作:适用于科技、文化、娱乐等领域的播客内容生成。
- 有声读物:通过多角色对话生成,使小说和故事等内容更具吸引力。
- 教育应用:用于语言学习、历史讲解等场景,提升互动性和趣味性。
- 娱乐与游戏:为动画、视频和游戏中的人物对话提供自然的语音支持。
- 企业培训:生成模拟对话,帮助员工提升沟通技巧和服务水平。
© 版权声明
文章版权归作者所有,未经允许请勿转载。