Soul推出多说话人语音合成模型

AI工具3周前发布 ainav
45 0

什么是SoulX-Podcast

SoulX-Podcast是由Soul AI实验室开发的多说话人文本转语音(TTS)模型,专为生成高质量的长篇播客对话设计。该模型参数量达1.7B,支持普通话、英语以及多种汉语方言(如四川话、河南话、粤语等),并具备跨方言提示功能。用户只需使用普通话进行提示,即可生成目标方言语音。此外,SoulX-Podcast还支持副语言控制(如笑声、叹气等),显著提升了语音合成的自然度和真实感。该模型能够连续生成超过90分钟的连贯对话,保持音色和情感的一致性,广泛应用于播客、有声读物等领域。

Soul推出多说话人语音合成模型

SoulX-Podcast的核心功能

  • 多说话人支持:模型能够自然切换多个说话人的语音,适用于播客、有声读物等多种场景。
  • 多语言与方言支持:不仅支持普通话和英语,还涵盖多种汉语方言。通过跨方言提示功能,用户可以用普通话生成目标方言的语音。
  • 副语言控制:在文本中加入特定标记(如<|laughter|><|sigh|>等),可生成笑声、叹气等非语言信息,使语音更加真实自然。
  • 长篇对话生成:能够持续生成超过90分钟的连贯对话,在音色和情感上保持高度一致,适合制作长篇播客内容。
  • 零样本语音克隆:无需目标说话人的语音样本,即可生成高质量的个性化语音。

SoulX-Podcast的技术实现

  • 模型架构:基于Qwen3-1.7B的基础架构进行优化,经过微调以适应多说话人对话生成任务。
  • 多说话人建模:采用说话人嵌入技术,区分不同说话人的语音特征,在对话中实现自然切换。
  • 跨方言生成:运用方言引导提示方法(Dialect-Guided Prompting, DGP),根据普通话提示生成目标方言语音,支持多种方言的零样本生成。
  • 副语言控制:通过在文本输入中添加特定的副语言标记,模型可在输出语音中加入相应的非语言信息,增强真实感。
  • 长篇稳定性优化:通过对注意力机制和解码器结构的优化,确保长时间对话生成时音色和情感的一致性。
  • 数据处理与训练:采用大规模多说话人对话数据进行训练,经过语音增强、音频分割、说话人日志、文本转录及质量过滤等步骤,确保模型能充分学习丰富的对话特征。

项目资源链接

  • 官方网站:https://soul-ailab.github.io/soulx-podcast/
  • GitHub仓库:https://github.com/Soul-AILab/SoulX-Podcast
  • HuggingFace模型库:https://huggingface.co/collections/Soul-AILab/soulx-podcast
  • 技术论文:https://arxiv.org/pdf/2510.23541

SoulX-Podcast的应用场景

  • 播客制作:适用于科技、文化、娱乐等领域的播客内容生成。
  • 有声读物:通过多角色对话生成,使小说和故事等内容更具吸引力。
  • 教育应用:用于语言学习、历史讲解等场景,提升互动性和趣味性。
  • 娱乐与游戏:为动画、视频和游戏中的人物对话提供自然的语音支持。
  • 企业培训:生成模拟对话,帮助员工提升沟通技巧和服务水平。
© 版权声明

相关文章