亚马逊发布 Nova Sonic AI 语音模型挑战 OpenAI 谷歌

AI资讯1年前 (2025)发布 ainav

294 0 0

近日，亚马逊推出了一款名为Nova Sonic的全新生成式AI模型，该模型专为语音处理设计，能够生成自然流畅的语音输出。据亚马逊官方表示，在速度、语音识别能力以及对话质量等关键性能测试中，Nova Sonic的表现已达到与OpenAI和谷歌同类前沿语音模型相当的水平。

此次Nova Sonic的发布标志着亚马逊在AI语音技术领域的重大突破。与此前较为僵化的Alexa等产品不同，这一新型模型在语音交互自然度方面实现了显著提升，尤其是在支持ChatGPT语音模式等方面展现出更强的适应性。

通过亚马逊Bedrock开发者平台，Nova Sonic以一种创新的双向流式API形式向用户开放。官方新闻稿中提到，相较于OpenAI的GPT-4o模型，Nova Sonic在价格上具有显著优势，成本降低了约80%。

据亚马逊AGI部门首席科学家罗希特·普拉萨德介绍，Nova Sonic的部分核心组件已实际应用于最新升级版的Alexa+数字语音助手中。 普拉斯德指出，与竞品相比，Nova Sonic在任务处理分配方面表现尤为突出。

普拉斯德强调，Nova Sonic能够准确判断何时需要调用外部API获取信息。这种智能路由能力使模型能够在合适场景下采取行动，并运用恰当工具完成特定任务。

在双向对话中，Nova Sonic展现出更高级的互动技巧，能够在适当时机主动回应，同时也能有效理解用户因打断或停顿而产生的各种输入。此外，该模型还具备生成高质量语音文本记录的功能，为开发者提供了更多应用场景的可能性。

在语音识别准确度方面，Nova Sonic的表现同样令人瞩目。据普拉斯德介绍，在多语言LibriSpeech测试中，该模型的平均单词错误率（WER）仅为4.2%，远优于其他同类产品。 这意味着即使面对用户发音模糊或环境噪音干扰等情况，模型仍能保持较高的识别准确度。

在增强型多方对话测试中，Nova Sonic同样表现出色。与竞品相比，其表现更为优异，尤其是在复杂语音场景下的处理能力。这些优势使其成为目前市场上最具竞争力的语音AI解决方案之一。

作为亚马逊AGI部门的重要成果，Nova Sonic的成功推出凸显了该团队在公司战略决策中的关键作用。值得注意的是，在发布Nova Sonic之前不久，亚马逊还刚刚推出了另一个重要产品——Nova Act浏览器版AI模型。普拉斯德表示，未来将会有更多内部开发的AI模型对外开放，为开发者提供更多创新工具和可能性。

# AI资讯