Baichuan-Audio – 百川智能开源的端到端语音交互模型

156 0 0

Baichuan-Audio是什么

Baichuan-Audio是百川智能推出的端到端音频大语言模型，支持无缝集成音频理解和生成功能，实现支持高质量、可控的实时中英双语对话。Baichuan-Audio基于多码本离散化技术将音频信号转化为离散标记，保留语义和声学信息，用独立的音频头增强音频特征处理能力。模型基于两阶段预训练策略，结合交错数据训练，平衡音频建模和语言理解能力。Baichuan-Audio在实时语音对话、问答、语音识别（ASR）和语音合成（TTS）等任务中表现出色，Baichuan-Audio开源的训练数据和模型为语音交互研究提供了重要资源。

Baichuan-Audio的主要功能

实时语音对话：支持流畅的语音交互，理解用户的语音指令、生成自然的语音回应。
语音理解与生成：结合语音识别（ASR）和语音合成（TTS）能力，实现语音输入到语音输出的无缝转换。
多语言支持：支持中文和英文的高质量对话，具备跨语言语音翻译能力。
语音问答：处理复杂的语音指令和问题，提供准确的语音回答。
音频内容生成：基于文本指导生成对齐的语音内容，确保语音输出的语义连贯性。

Baichuan-Audio的技术原理

音频标记化：基于多码本离散化技术，将连续的音频信号转化为离散的音频标记。用Whisper Large Encoder提取音频特征，基于8层残差向量量化（RVQ）技术保留语义和声学信息。
独立音频头：模型设计了独立的音频头，处理音频标记，增强音频特征的捕捉能力。
端到端框架：模型用端到端的架构，处理音频输入、生成音频输出，避免传统级联模型中语音到文本再到语音的多次转换。
两阶段预训练策略：为平衡音频建模和语言理解能力，Baichuan-Audio基于两阶段预训练策略。第一阶段固定语言模型参数，训练音频相关组件；第二阶段放开所有参数进行联合训练。
交错数据训练：模型用交错数据（如音频-文本交错数据和交错文本到语音数据）进行预训练，增强跨模态知识转移和语音生成能力。
流匹配解码器：基于流匹配（Flow-Matching）的解码器，将音频标记解码为高质量的梅尔频谱图，用HiFi-GAN vocoder合成自然语音。