TicVoice 7.0 – 出门问问推出的第七代语音合成引擎

AI工具1年前 (2025)发布 ainav

272 0 0

TicVoice 7.0是什么

TicVoice 7.0 是出门问问推出的第七代高品质 TTS（语音合成）引擎，基于新一代语音生成模型 Spark-TTS 。TicVoice 7.0基于创新的 BiCodec 编码方式，将语音分解为 Global Token 和 Semantic Tokens，实现音色与语义的精准控制，与文本 LLMs 结构高度统一。引擎具备 3 秒语音克隆能力，支持多角色、多情绪、全龄段和中英切换，声音自然流畅，接近广播级水平。TicVoice 7.0 已在魔音工坊 “3s声音克隆” 功能上线，广泛适用于智能客服、有声书、影视配音等领域，为用户带来极致的 AI 配音体验。

TicVoice 7.0的主要功能

3秒语音克隆：3秒捕捉用户声纹，精准复刻个性化音色，支持低质量音频输入。
多角色与多情绪演绎：支持开心、生气、伤心等多种情绪模拟，增强内容表现力。
全龄段声音适配：涵盖从儿童到老年人的多样化音色，满足不同场景需求。
中英灵活切换：支持中英文混合语音合成，助力多语言内容创作。
广播级语音质量：合成语音清晰流畅、自然动听，音色与情感表现力强，接近专业广播水平。
定制化专属声音：用户根据需求定制专属音色，满足个性化配音需求。

TicVoice 7.0的技术原理

创新语音编码方式：基于 BiCodec 技术，将语音分解为 Global Token（全局特征，如音色）和 Semantic Tokens（语义相关特征，50 tokens/秒），兼顾全局可控性和语义关联性。解决传统语音编码中语义 token 难以精准控制音色及声学编码依赖多个码本的问题。
与文本 LLMs 结构统一：复用 Qwen2.5 的架构，基于属性标签（如性别、基频等级）和细粒度属性值（如精确基频），用文本+属性标签为输入，依次预测细粒度属性值 → Global Tokens → Semantic Tokens。实现语音 token 建模与文本 token 建模的高度一致。
单阶段、单流生成：用语言模型（序列猴子）以单阶段、单流方式实现 TTS 生成，无需额外生成模型辅助，提升生成效率和可控性。
基于深度学习的语音合成：基于深度学习技术，结合大量语音数据训练模型，实现自然流畅的语音合成效果。