来自阿里巴巴通义团队的开源语音大模型 – FunAudioLLM

AI工具2年前 (2025)发布 ainav

386 0 0

FunAudioLLM代表的是一个音频相关的大型语言模型。

通义实验室近期发布了名为FunAudioLLM的开源项目，该项目涵盖了两个主要的音频处理模型：SenseVoice与CosyVoice。其中，SenseVoice在多语种识别及情感分析方面表现出色，支持的语言种类超过50种，并且尤其擅长中文和粤语的处理。相比之下，CosyVoice则更专注于自然语音合成技术的应用，能够灵活控制声音特质和情绪表达，覆盖中、英、日、粤、韩五种语言环境。FunAudioLLM主要应用于多语言翻译以及情感丰富的对话交互场景当中。目前该项目的所有模型及源代码已在Modelscope与Huggingface两个平台上实现了开源共享。

FunAudioLLM的核心特性

SenseAudio算法由于提供的内容为空，没有具体内容可以进行伪原创改写。如果您有特定的文本需要处理，请提供相关内容。
- 致力于实现多种语言的高度准确的语音辨识技术。
- 能够处理逾五十种语言，并在汉语及广东话的辨识度方面超越了当前的各类模型。
- 拥有情绪分析能力，可以识别各种人与机器的互动情况。
- 推出适用于各种使用场景的轻型与重型两种版本。
温馨之声算法由于提供的原文内容为空，这里无法进行伪原创的改写。如果有具体的文本内容，请提供，我将根据要求对其进行改写。
- 致力于自然语言的创建，兼容多种语言、不同的声音特质及情绪调节。
- 可以基于有限的初始声音样本迅速创建模仿的声音特质，涵盖节奏与情绪细微差别。
- 提供多语言的语音合成服务及精细的情感调节功能。

FunAudioLLM项目的仓库位置

官方网站项目页面：访问此链接以获取更多信息 – https://fun-audio-llm.github.io/
舒适之声在线试用：您可以在模型库的这个链接中找到CosyVoice-300M的相关信息：https://www.modelscope.cn/studios/iic/CosyVoice-300M
SenseVoice 网上试用：在模型库网站上可以找到由IIC工作室开发的SenseVoice项目：https://www.modelscope.cn/studios/iic/SenseVoice
Git代码库：访问FunAudioLLM的GitHub页面，请前往https://github.com/FunAudioLLM
关于技术论文的arXiv版本：在ArXiv数据库中可以找到编号为2407.04051的研究论文。