12月10日最新消息,国内领先的人工智能企业面壁智能今日正式对外宣布,其旗下语音生成基座模型VoxCPM迎来重要升级,1.5版本已正式发布。此次更新不仅进一步优化了开发者的使用体验,更在核心技术能力上实现了显著突破。
据悉,VoxCPM是一款基于0.5亿参数规模的语音生成基础模型,自今年9月首次亮相以来便受到广泛关注。该模型主要面向开发者和研究人员,旨在提供高效、稳定的语音生成解决方案。

此次VoxCPM 1.5版本的更新带来了四大核心亮点:
-
音频克隆技术升级:通过提升AudioVAE的采样率至44.1kHz,VoxCPM 1.5能够基于高质量音频实现更高精度的声音克隆,显著提升了音质细节和还原度。
-
生成效率显著提升:在模型参数增加的基础上,新版本将语音生成效率提升至两倍,仅需6.25个token即可生成1秒音频。这意味着在保持速度的同时,输出质量得到了进一步优化。
-
开发支持更加完善:新增LoRA和全量微调脚本功能,为开发者提供了更灵活的定制化选项,极大提升了模型的可塑性和适用性。
-
稳定性与鲁棒性增强:通过对音频伪影的有效控制以及对长文本音频生成效果的优化,显著提升了模型的整体稳定性和输出质量。
目前,VoxCPM 1.5已在多个主流开源平台开放下载和使用。开发者可通过以下链接获取相关资源:

-
Huggingface地址:https://huggingface.co/openbmb/VoxCPM1.5
-
Github地址:https://github.com/OpenBMB/VoxCPM
© 版权声明
文章版权归作者所有,未经允许请勿转载。