FireRedASR指的是什么?
FireRedASR 是由小红书开源的一款工业级自动语音识别软件包,涵盖标准汉语、多种中文方言及英语的支持,并在其普通话 ASR 标准测试中取得了当前最优的成绩(SOTA),尤其在歌词的辨识上表现优异。该系列包括两个主要版本:
FireRedASR-LLM:运用了 Encoder-Adapter-LLM 结构,依托于大型语言模型的强大功能,实现了顶尖性能,并支持流畅的端到端语音互动体验。在普通话的标准测试中,其平均字符错误率为3.05%,相比先前的最佳模型(3.33%),降低了约8.4%。
FireRedASR-AED:此系统运用了注意力机制驱动的编码器-解码器架构,实现了高性能与计算效率之间的良好平衡,适合作为基于大型语言模型语音应用中的优质声学表示组件。在普通话的标准测试中,其平均字符错误率为3.18%,表现超越拥有超过120亿参数的Seed-ASR模型。
FireRedASR的核心特性
- 精准的语音辨识技术FireRedASR 提供了两种不同的版本:FireRedASR-LLM 和 FireRedASR-AED。特别是,FireRedASR-LLM 版本运用了 Encoder-Adapter-LLM 架构,其主要目标是实现最高的语音识别准确度。
- 有效推论FireRedASR-AED 模型采用了传统的基于注意力机制的编码器-解码器结构,拥有1.1亿参数规模,在保持高水平准确性的同时也注重提升了推理速度。
- 适用于多种情境FireRedASR 在日常使用的多种场景中表现出色,如短视频制作、直播互动、语音录入及智能助理服务等。相较于行业内顶尖的 ASR 解决方案提供商以及 Paraformer-Large,FireRedASR-LLM 的字符错误率分别降低了 23.7% 至 40.0%。
- 歌曲文字辨识功能于歌词辨识情境下,FireRedASR-LLM 达到了 50.2% 至 66.7% 的 CER 相对减少率,彰显了其卓越的适应性能。
- 多种语言兼容性サポートFireRedASR 具备优秀的普通话、多种中文方言及英语的语音识别能力,从而大大扩展了它的应用场景。
- 开放源代码及社群支援FireRedASR 的模型与推理代码现已公开发布,促进了基于社区的语音识别技术创新及学术探索。
FireRedASR的核心技术机制
- 火焰红语音识别长效模型FireRedASR-LLM 利用 Encoder-Adapter-LLM 架构,融合了大规模语言模型(LLM)的优势,以达到极高的语音辨识准确度。该系统由三大主要部分构成:
- Conformer 核心编解码器承担抽取语音特点的任务,并创造持续的语音表现形式。
- 简洁的兼容组件把编码器生成的结果转化为能与大语言模型的语义空间相契合的表现形式。
- 预先训练的文本LLM以Qwen2-7B-Instruct为初始基础,旨在创建最终版本的文本内容。
- 培养方案在培训期间,编码器与适配器处于可学习状态,而大语言模型的多数参数维持不变,并且仅利用低秩适应(LoRA)技术进行调整。这种设置保证了编码器和适配器能够高效地将语音特性转换至大语言模型的意义域中,同时不破坏该模型已有的预训练效能。
- 输入和推断在进行推理过程中,系统接收提示信息与音频作为输入数据,随后LLM执行下一个标记的预测任务,并据此输出相应的文字内容。
- 火红语音识别-自动体外除颤器FireRedASR-AED 采用经典注意力机制的编码器-解码器(AED)结构,实现了高性能与计算效率的良好结合。该系统包含以下几个组成部分:
- Conformer 结构的编码部分利用 Conformer 模型对语音特性进行处理,能够同步把握局部与整体的相互联系。
- Transformers 解码单元运用 Transformer 模型执行序列变换任务,该模型整合了多头自我关注组件与前向传播组件。
- 输入特性使用了经全局平均与标准化变异处理的 80 维 log梅尔滤波器系数作为输入特性。
- 培训资料该训练资料集涵盖了大约70000小时的高清晰度标准汉语语音材料和近11000小时的英文语音内容。
FireRedASR项目的仓库位置
- GitHub代码库:在GitHub上可以找到FireRed团队的语音识别项目页面,链接如下所示——https://github.com/FireRedTeam/FireRedASR
- HuggingFace的模型集合库:访问此链接以查看FireRed团队的FireRedASR-AED-L模型:https://huggingface.co/FireRedTeam/FireRedASR-AED-L
- 关于arXiv的技术文章这份研究论文可以在如下链接中找到:https://arxiv.org/pdf/2501.14350,提供了深入的学术探讨和分析。
FireRedASR的使用场合
- 智能化语音助理FireRedASR 适用于构建智能化的声音助理应用,涵盖智能家居管理和客户咨询服务等领域。凭借其卓越的言语辨识技术,能够精确捕捉并解析用户发出的话语命令,从而确保互动过程顺畅无阻。
- 录像与实时流媒体于短视频与直播行业之中,FireRedASR 可即时创建字幕,助力观众多层次把握内容精髓。
- 歌曲文字解析FireRedASR 在处理歌词识别任务时表现出色,适用于音乐服务平台及卡拉OK等多种场合。
- 声控录入FireRedASR 适用于诸如语音录入和声音记事等场合,凭借其出色的推演效能与精准的辨识度,能够大幅提高使用者的工作速度。
© 版权声明
文章版权归作者所有,未经允许请勿转载。