微软发布DragonV2.1模型：AI语音转录更自然，错误率下降12.8%，支持超100种语言

AI资讯1年前 (2025)发布 ainav

2,825 0 0

近日，科技媒体NeoWin发布了一篇博文，宣布微软在语音合成技术领域取得重大突破。7月31日，微软正式推出了DragonV2.1Neural零次学习模型，这一创新技术仅需极少量数据即可生成自然流畅、表现力丰富的语音，并支持多达100多种语言。

据博文介绍，DragonV2.1Neural是一款基于零次学习的文本到语音(TTS)模型。与传统TTS系统相比，该模型不仅显著提升了声音的自然度和表现力，还大幅提高了发音准确性，并增强了对语音生成过程的控制能力。

此次发布的DragonV2.1Neural模型展现了令人惊叹的功能：仅需几秒钟的语音样本即可合成超过100种语言的语音。这一突破性进展对比前一代DragonV1模型更加出色，后者在处理专有名词时常常出现发音错误的问题。而 DragonV2.1 模型凭借其强大的泛化能力，可广泛应用于定制聊天机器人声音、为多语言视频内容配音等多种场景。

微软官方数据显示，与上一代DragonV1相比，DragonV2.1模型的单词错误率(WER)平均降低了12.8%，这意味着其在处理复杂文本时的准确性和可靠性有了显著提升。