LongCat-Audio-Codec：美团开源的语音编解码方案

23 0 0

什么是LongCat-Audio-Codec

LongCat-Audio-Codec是由美团LongCat团队公开发布的一款先进的语音编解码解决方案，专为优化语音大语言模型（Speech LLM）设计。该方案通过创新性的语义与声学双Token并行提取机制，实现了对语音内容的深度理解和高质量音频特征的保留，有效解决了传统技术中难以同时兼顾语音语义和声学信息的问题。此外，其低延迟流式解码功能支持实时交互场景，将解码过程中的延迟严格控制在百毫秒级别，完美满足车载语音助手、实时翻译等对响应速度要求极高的应用场景需求。

LongCat-Audio-Codec凭借其超低比特率高保真技术和集成的音频超分辨率设计，在保持极小带宽消耗的同时，实现了接近原始音质的音频重建效果。此外，该方案还提供了一套灵活且功能强大的Token生成器与还原器工具链，支持根据具体应用场景和下游任务需求，自由配置码本参数，从而适应各种不同的使用场景。值得一提的是，其独特的多阶段训练策略在确保高压缩率的同时，显著提升了音频输出的质量和自然度。