面壁智能发布 VoxCPM 1.5 开源语音生成AI模型:高采样音频克隆,生成效率翻倍

AI资讯2个月前发布 ainav
64 0

12月10日最新消息,国内领先的人工智能企业面壁智能今日正式对外宣布,其旗下语音生成基座模型VoxCPM迎来重要升级,1.5版本已正式发布。此次更新不仅进一步优化了开发者的使用体验,更在核心技术能力上实现了显著突破。

据悉,VoxCPM是一款基于0.5亿参数规模的语音生成基础模型,自今年9月首次亮相以来便受到广泛关注。该模型主要面向开发者和研究人员,旨在提供高效、稳定的语音生成解决方案。

面壁智能发布 VoxCPM 1.5 开源语音生成AI模型:高采样音频克隆,生成效率翻倍

此次VoxCPM 1.5版本的更新带来了四大核心亮点:

  • 音频克隆技术升级:通过提升AudioVAE的采样率至44.1kHz,VoxCPM 1.5能够基于高质量音频实现更高精度的声音克隆,显著提升了音质细节和还原度。

  • 生成效率显著提升:在模型参数增加的基础上,新版本将语音生成效率提升至两倍,仅需6.25个token即可生成1秒音频。这意味着在保持速度的同时,输出质量得到了进一步优化。

  • 开发支持更加完善:新增LoRA和全量微调脚本功能,为开发者提供了更灵活的定制化选项,极大提升了模型的可塑性和适用性。

  • 稳定性与鲁棒性增强:通过对音频伪影的有效控制以及对长文本音频生成效果的优化,显著提升了模型的整体稳定性和输出质量。

目前,VoxCPM 1.5已在多个主流开源平台开放下载和使用。开发者可通过以下链接获取相关资源:

面壁智能发布 VoxCPM 1.5 开源语音生成AI模型:高采样音频克隆,生成效率翻倍

  • Huggingface地址:https://huggingface.co/openbmb/VoxCPM1.5

  • Github地址:https://github.com/OpenBMB/VoxCPM

© 版权声明

相关文章