微软发布DragonV2.1模型:AI语音转录更自然,错误率下降12.8%,支持超100种语言

AI资讯1个月前发布 ainav
44 0

近日,科技媒体NeoWin发布了一篇博文,宣布微软在语音合成技术领域取得重大突破。7月31日,微软正式推出了DragonV2.1Neural零次学习模型,这一创新技术仅需极少量数据即可生成自然流畅、表现力丰富的语音,并支持多达100多种语言。

据博文介绍,DragonV2.1Neural是一款基于零次学习的文本到语音(TTS)模型。与传统TTS系统相比,该模型不仅显著提升了声音的自然度和表现力,还大幅提高了发音准确性,并增强了对语音生成过程的控制能力。

此次发布的DragonV2.1Neural模型展现了令人惊叹的功能:仅需几秒钟的语音样本即可合成超过100种语言的语音。这一突破性进展对比前一代DragonV1模型更加出色,后者在处理专有名词时常常出现发音错误的问题。而 DragonV2.1 模型凭借其强大的泛化能力,可广泛应用于定制聊天机器人声音、为多语言视频内容配音等多种场景。

微软官方数据显示,与上一代DragonV1相比,DragonV2.1模型的单词错误率(WER)平均降低了12.8%,这意味着其在处理复杂文本时的准确性和可靠性有了显著提升。

微软发布DragonV2.1模型:AI语音转录更自然,错误率下降12.8%,支持超100种语言

微软发布DragonV2.1模型:AI语音转录更自然,错误率下降12.8%,支持超100种语言

在用户体验方面,DragonV2.1Neural同样表现出色。它不仅提升了声音的自然度,还通过支持SSML音素标签和自定义词典功能,让用户能够对发音、口音进行精细化控制。为了让用户更轻松地上手使用,微软特别提供了Andrew、Ava 和 Brian等预设声音档案,方便用户进行测试和体验。

© 版权声明

相关文章