阿里推出的企业级语音大模型——通义百聆

175 0 0

通义百聆是什么

通义百聆是由阿里通义实验室推出的一款领先的企业级语音技术基座大模型。该模型整合了Fun-ASR语音识别和Fun-CosyVoice语音合成两大核心模块，专为复杂环境下的语音交互应用设计。通过创新的Context增强架构，显著降低了幻觉率，并有效解决了跨语种识别难题。系统支持动态热词注入与行业术语精准识别功能。

在语音合成方面，通义百聆实现了跨语种声音克隆技术，语音相似度达到行业领先水平。模型基于海量真实音频数据训练，覆盖金融、教育等多个垂直领域应用场景，可快速部署落地，帮助企业高效构建智能化的语音交互系统。

通义百聆的核心优势

卓越的语音合成能力： Fun-CosyVoice3模型升级后，首包延迟降低至原有一半，中英混字识别准确率实现翻倍。系统支持包括9种通用语言、18种方言口音在内的多语种克隆与情感控制，并具备zero-shot音色克隆能力，显著提升了语音合成的自然度和效率。
强大的环境适应性： Fun-ASR模型经过全面优化，在复杂噪声场景下的识别准确率提升至93%。支持31种语言自由混说及多种方言口音识别，新增歌词与说唱内容识别能力，流式识别首字延迟缩短至仅需160ms，显著提升了语音交互的实时性和准确性。
领先的模型性能： 通过创新的Context增强架构（CTC+LLM+RAG），将CTC初筛结果作为大语言模型的上下文输入，成功将幻觉率从78.5%降低至10.7%，显著提升了输出结果的稳定性和可靠性。

通义百聆凭借其强大的技术实力和丰富的功能特性，正在帮助企业构建高效、智能的语音交互解决方案，在金融客服、教育答疑等多个领域发挥着重要作用。

# AI工具