IndexTTS – B 站推出的文本转语音模型，支持拼音纠正汉字发音

AI工具1年前 (2025)发布 ainav

615 0 0

IndexTTS是什么

IndexTTS 是 B 站推出的工业级可控文本转语音（TTS）系统。基于 XTTS 和 Tortoise 模型开发，结合了 GPT 风格的生成技术，能将文本高效转化为自然流畅的语音。IndexTTS 的优势是对中文文本的处理能力，支持拼音纠正汉字发音，可通过标点符号精准控制停顿，有效解决了多音字和长尾字符的发音问题。采用混合建模方法，结合汉字和拼音，优化语音生成效果。在性能方面，IndexTTS 的字词错误率（WER）仅为 1.3%，扬声器相似性（SS）达到 0.776，主观音质评分（MOS）为 4.01，表现出色。使用大量数据进行训练，包括 2.5 万小时的中文音频和 9000 小时的英文音频，确保了音质和音色的高质量。

IndexTTS的主要功能

拼音纠正与停顿控制：IndexTTS 在处理中文文本时，能通过拼音纠正汉字的发音，用标点符号在任意位置精准控制停顿，语音输出更加自然流畅。
音质优化：引入了基于 Conformer 的条件编码器和 BigVGAN2 语音解码器，显著提高了音质和音色相似性，MOS 评分达到 4.01。
多语言支持：目前支持中文和英文，计划在未来扩展到更多语言。

IndexTTS的技术原理

混合建模方法：在中文场景下，IndexTTS 采用字符与拼音混合建模的方式。通过结合汉字和拼音，系统能快速纠正多音字和长尾字符的发音错误，提高语音合成的准确性和可控性。
语音编码与解码优化：IndexTTS 引入了基于 Conformer 的条件编码器和 BigVGAN2 语音解码器。Conformer 编码器能够更好地捕捉语音的音色特征，BigVGAN2 解码器则提升了音质和音色相似性。
零样本语音克隆：IndexTTS 在零样本语音克隆方面表现出色，能在没有目标语音样本的情况下生成高质量的语音。扬声器相似性（SS）高达 0.776，MOS 评分达到 4.01，远超现有系统。
高效的训练与推理：系统经过数万小时的数据训练，训练过程简单且稳定，推理速度快。与 XTTS、CosyVoice2、Fish-Speech 和 F5-TTS 等系统相比，IndexTTS 在自然度、内容一致性和零样本语音克隆方面表现出色。