中科院研发的低延时高音质语音互动模型——LLaMA-Omni

AI工具3个月前发布 ainav
71 0

LLaMA-Omni代表的是什么?

中国科学院计算技术研究所与中国科学院大学的研究团队发布了一种新的架构——LLaMA-Omni,旨在提供与大型语言模型(LLM)进行快速且高质量的语音互动体验。该系统结合了预训练的声音编码器、声音适配模块、一个大型的语言模型以及实时音频解码组件,能够直接从语音命令中迅速生成文本和口语回复,跳过了将声音转换成文字的传统步骤,从而提升了反应速度。此架构基于最新的LLaMA-3.1-8B-Instruct基础之上,并通过利用研究团队自制的InstructS2S-200K数据集进行训练来实现快速响应,其延迟时间仅为226毫秒。值得注意的是,LLaMA-Omni具备高效的训练能力,在4个GPU上不到3天即可完成整个训练过程,为基于先进LLM技术的语音互动模型的研发提供了高效的发展路径。

LLaMA-Omni

LLaMA-Omni的核心特性

  • 实时语音转文字技术迅速根据语音命令创建回复,缩短等候时长。
  • 即时语音转文字回复可以直接从语音产生文字回复,不必先行转化为文字记录。
  • 高品质的声音合成技术在产生文字回复的过程中,也能够同步创建相应的语音播报。
  • 高效的培训流程在有限的计算资源条件下(例如使用4张GPU卡),并在相对较短的时间内(不足72小时)达成训练目标。
  • 实时语音转译采用非自回归的流水线Transformer架构,实现即时语音生成。
  • 多种模式互动通过融合文字与声音的交流形式,创造出更加流畅及亲和的人机互动感受。

LLaMA-Omni的核心技术机制

  • 声音编码器(Speech Encoder)利用预先训练好的Whisper-large-v3模型充当语音编码的角色,从中抽取用户语音命令的特点表述。
  • 语音转换模块(Speech Converter)把语音编码器生成的结果转换至大尺度语言模型(LLM)的嵌入领域,并运用降采样的方式来缩短序列长度,以便于模型能够有效地处理声音数据输入。
  • 大规模语言模型(Massive Language Model, MLM)以Llama-3.1-8B-Instruct为大语言模型基础,具备卓越的文字创作技能。能够由语音命令直译成文字回复,省略了语音至文字转换的过程。
  • 实时语音解析器(Real-time Speech Analyzer)运用非自回归(NAR)的流水线Transformer模型结构,通过连接时序分类(CTC)方法来预估同语音反应相匹配的离散单元链表。
  • 双步训练方法首步计划:构建模型以实现由语音命令自动生成文字回复的功能。次步计划:进一步开发该模型,使其能够产生声音回应。
  • 构造数据集(InstructS2S-200K)由于提供的内容为空,没有具体内容可以进行伪原创改写。如果您有具体段落或文本需要帮助,请提供详细信息。包含了 20万条语音命令及其相应的文字与声音反馈。建立于对模型进行培训以适用于语音交流环境。

LLaMA-Omni的项目位置

  • Git存储库:访问该项目的网址为 https://github.com/ictnlp/LLaMA-Omni
  • HuggingFace的模型集合库:访问该模型的页面为 https://huggingface.co/ICTNLP/Llama-3.1-8B-Omni
  • arXiv科技文章访问该论文的PDF版本,请前往:https://arxiv.org/pdf/2409.06666,以获取详细内容。

LLaMA-Omni的使用情境

  • 智能化助理与数字助理在智能手机、智能家用设备及个人电脑上实现语音互动功能。
  • 客户支持服务在客服中心及用户服务体系里,利用语音辨识与回应技术来解决客户的询问和难题。
  • 教育培训:打造一个以语音交流为基础的学习环境,涵盖语言培训、课程解析及互动授课等功能。
  • 健康咨询服务在远端医疗服务与健康咨询服务中,通过语音互动来传递医学资讯及专业意见。
  • 汽车制造业融合进汽车系统的语音操控服务,涵盖导航、娱乐及通讯等功能。
  • 可达性与辅助技术为视力受限或行动困难的用户提供通过语音来操控各种设备与服务的功能。
© 版权声明

相关文章