Soul推出多说话人语音合成模型

45 0 0

什么是SoulX-Podcast

SoulX-Podcast是由Soul AI实验室开发的多说话人文本转语音（TTS）模型，专为生成高质量的长篇播客对话设计。该模型参数量达1.7B，支持普通话、英语以及多种汉语方言（如四川话、河南话、粤语等），并具备跨方言提示功能。用户只需使用普通话进行提示，即可生成目标方言语音。此外，SoulX-Podcast还支持副语言控制（如笑声、叹气等），显著提升了语音合成的自然度和真实感。该模型能够连续生成超过90分钟的连贯对话，保持音色和情感的一致性，广泛应用于播客、有声读物等领域。

SoulX-Podcast的核心功能

多说话人支持：模型能够自然切换多个说话人的语音，适用于播客、有声读物等多种场景。
多语言与方言支持：不仅支持普通话和英语，还涵盖多种汉语方言。通过跨方言提示功能，用户可以用普通话生成目标方言的语音。
副语言控制：在文本中加入特定标记（如<|laughter|>、<|sigh|>等），可生成笑声、叹气等非语言信息，使语音更加真实自然。
长篇对话生成：能够持续生成超过90分钟的连贯对话，在音色和情感上保持高度一致，适合制作长篇播客内容。
零样本语音克隆：无需目标说话人的语音样本，即可生成高质量的个性化语音。

SoulX-Podcast的技术实现

模型架构：基于Qwen3-1.7B的基础架构进行优化，经过微调以适应多说话人对话生成任务。
多说话人建模：采用说话人嵌入技术，区分不同说话人的语音特征，在对话中实现自然切换。
跨方言生成：运用方言引导提示方法（Dialect-Guided Prompting, DGP），根据普通话提示生成目标方言语音，支持多种方言的零样本生成。
副语言控制：通过在文本输入中添加特定的副语言标记，模型可在输出语音中加入相应的非语言信息，增强真实感。
长篇稳定性优化：通过对注意力机制和解码器结构的优化，确保长时间对话生成时音色和情感的一致性。
数据处理与训练：采用大规模多说话人对话数据进行训练，经过语音增强、音频分割、说话人日志、文本转录及质量过滤等步骤，确保模型能充分学习丰富的对话特征。