Dia开源TTS模型：生成高自然度对话音频

AI工具1年前 (2025)发布 ainav

227 0 0

Dia：下一代开源文本转语音模型

DiA 是由Nari Labs开发的开源文本到语音（TTS）合成模型，拥有160亿参数量。该模型能够直接根据文本脚本生成高度逼真的对话音频，具备多说话人识别、情感语调调节以及非语言声音模拟等功能，并支持通过上传参考音频片段进行零样本语音克隆。DiA的源代码和训练权重已分别在Hugging Face和GitHub平台开源发布，开发者可以自由下载部署到本地环境，或通过Gradio提供的在线界面体验其功能。

DiA的核心功能

智能对话生成： DiA可以根据文本内容自动生成自然流畅的对话语音，支持多说话人标识（如、等格式），特别适合用于需要多人互动的应用场景。
情感与语调调节： 用户可以通过提供音频样本或指定种子值来调整生成语音的情感色彩和语调风格，使输出更具表现力。
非语言声音模拟： 除了标准的语音生成，DiA还可以合成笑声、咳嗽声等非语言音效，让对话内容更加生动真实。
零样本语音克隆： 通过上传一段参考音频片段，DiA可以快速模仿特定说话人的风格和特征，无需繁琐的微调过程即可实现个性化的语音生成。
实时语音合成： 优化的推理引擎使得DiA能够在普通消费级设备上实现实时语音生成，在专业GPU环境下更是能够达到更高的生成效率。

技术架构解析

基于Transformer架构： DiA采用了先进的Transformer神经网络结构，这种强大的深度学习模型在自然语言处理和语音合成领域表现出色，能够有效处理长文本序列并生成高质量的语音输出。
端到端对话生成： 与传统TTS系统不同，DiA可以直接从原始文本脚本中生成完整的对话内容，无需将多个语音片段进行拼接处理，从而确保了对话的整体连贯性和自然流畅度。