MuCodec – 由清华大学、腾讯人工智能实验室及香港中文大学联合开发的高效能低比特率音频编解码技术

AI工具3个月前发布 ainav
95 0

MuCodec指的是什么?

MuCodec是由清华大学深圳国际研究生院、腾讯AI实验室及香港中文大学的研究团队共同研发的一款超低码率音频编解码技术。该技术能够实现音乐文件的高度压缩同时保证高保真的还原效果。它利用MuEncoder来捕捉音频的声学与语义特性,通过RVQ方法进行特征离散化处理,并借助流匹配策略重构Mel-VAE特征集。最后,经由预先训练好的Mel-VAE解码器和HiFi-GAN模型合成复原后的音乐信号,在0.35kbps到1.35kbps的比特率区间内提供行业领先的压缩性能与音质体验。

MuCodec

MuCodec的核心作用

  • 音频压缩技术MuCodec具备在极限比特率条件下高效压缩音乐的能力,并可兼容低至0.35kbps的极低比特率。
  • 音乐重构在极低的位速率中,能够恢复高质量的音效。
  • 特性抽取利用MuEncoder来抽取音乐中的声学与语义特点,以把握其核心属性。
  • 离散化转换运用RVQ(残差向量量化)方法来对抽取到的特性实施离散转换,有利于实现更好的压缩效果。
  • 流量匹配重构运用流匹配技术重构Mel-VAE特性,以达成更为精准的声音复原效果。
  • 双重码率兼容性支持支持在较低的比特率(0.35kbps)及较高的比特率(1.35kbps)环境下运行,为用户带来多样化的应用选项。

MuCodec的核心技术机制

  • Mu编解码器采用MuEncoder进行特征抽取,重点围绕音乐中的人声与伴奏这两个核心要素,捕捉其音效特性及意义信息。
  • 分步式培训流程由于提供的内容为空,没有具体内容可以进行伪原创改写。如果您有特定的文本需要修改,请提供相关内容。
    • 初期阶段通过利用掩码语言模型指导训练过程来预测被遮盖的部分,在参考未被遮蔽的声音数据基础上,使得MuEncoder能够更好地捕捉到上下文的信息,并提升其表示性能。
    • 第二个阶段采用重构技术和歌词辨识限制,涵盖Mel频率倒谱系数与恒定Q变换(CQT)特征的重构,并且保证抽取到的特点含有意义明确的歌词信息。
  • 残差向量量化(RVQ)采用RVQ技术对MuEncoder特性进行离散处理,利用残差流程实现表达的压缩,并通过串联代码本提升逼近精度。
  • 流量配对通过采用流匹配技术来实现重构工作,该技术相较于生成对抗网络(GAN)更为稳定,并且能在极低码率的重构挑战中以较少的学习步骤获得更优的效果。在此过程中,流匹配利用离散化的MuEncoder作为前置条件,并借助Diffusion Transformer完成精细的重建任务。
  • Mel-VAE编码器与HiFi-GAN经过预训练的Mel-VAE解码器处理后,重构了Mel频谱图,并借助预先训练好的HiFi-GAN模型来合成修复后的音频片段。

MuCodec项目的网址

  • 官方网站建设项目https://github.io/xuyaoxun/MuCodec示范版本
  • Git代码库:在GitHub上可以找到由xuyaoxun维护的MuCodec项目,网址是https://github.com/xuyaoxun/MuCodec。
  • 关于技术的arXiv学术文章该文献的链接为:https://arxiv.org/pdf/2409.13216,您可以在此访问其内容。

MuCodec的使用情境

  • 网络音乐播放服务平台在线音乐流媒体服务商通过维持音质并大幅减小音乐文件体积,能够有效降低存储与带宽开支。
  • 歌曲获取用户能够下载容量较小的音乐文件,从而节约存储空间,并且在使用移动设备时降低数据用量。
  • 构建语言模型在创建需使用简短音乐序列的数据语言模型过程中,高效地缩减音乐信息量可以提升处理速度和效能。
  • 用于音频修改与处理的程序音编软件内置MuCodec用作音频压缩与复原的技术手段,从而实现更为高效的音频管理性能。
  • 便携式装置与集成化平台于移动设备或嵌入式系统的有限存储与计算能力下,力求维持音频质量的同时降低其对资源的需求。
© 版权声明

相关文章