趣丸科技携手香港中文大学发布语音生成大型模型MaskGCT

AI工具3个月前发布 ainav
148 0

MaskGCT指的是什么?

MaskGCT是由趣丸科技携手香港中文大学(深圳)共同开发的一款语音合成大模型,采用掩码生成与解耦编码技术,在声音模仿、多语种语音合成及语音控制等方面展现出了卓越的效果。该模型在多个TTS标准数据集上的表现处于行业领先地位,并且部分性能指标超越了人类水平。MaskGCT能够迅速而真实地复制各种声音,并可灵活调整音频的速度、持续时间和情感色彩,支持包括中文、英文、日文、韩文、法文和德文在内的六种语言的语音合成任务。目前,该模型已经在Amphion系统中开源并面向全球用户免费提供使用权限。

MaskGCT

MaskGCT的核心特性

  • 语音复制能够迅速模仿各种声音特质,涵盖真人及动画人物,并精准再现其语气、特色与情绪。
  • 多语言合成该服务能够生成多国语言的语音,涵盖中文、英语、日语、韩语、法语及德语等多种语言,实现了跨越不同语言的声音输出。
  • 声音操控能够调节生成音频的时长、速度及情感,并允许通过修改文字来调整音频内容,同时确保节奏与声音特质的一致性。
  • 高品质的语音资料集合基于优质多语言语音数据集Emilia进行培训,提供了丰富多元的语音合成资源。

MaskGCT的核心技术理念

  • 语音含义的编码与解码系统通过把语音转化为意义标签,并利用VQ-VAE架构训练向量量化词典,在基于自我监督的音频学习框架内重构出代表声音含义的信息表达形式。
  • 语音声音编码解码器通过采用多层级的离散标签对语音波形进行量化处理,确保所有音频细节得以保存;运用RVQ技术实现语音数据的压缩,并借助Vocos框架充当解码的角色。
  • 从文本至语义的转换模型采用非自回归掩码生成变换器,在无须依靠文本与语音对齐数据的情况下,利用语言模型的上下文理解功能来推测语义标签。
  • 从意义转换至语音模型通过利用基于非自回归的掩蔽生成变换器,并以语义标签作为条件来产生多层次的音学标签序列,从而复原出高保真的声音波形。

MaskGCT的仓库位置

  • Git存储库您可以访问此链接查看相关内容:https://github.com/open-mmlab/Amphion/blob/main/models/text_to_speech/maskgct
  • HuggingFace的模型集合访问此链接以查看amphion开发的MaskGCT模型:https://huggingface.co/amphion/MaskGCT
  • arXiv科技文章本文探讨的内容可以在如下链接中找到不一样的表述形式:https://arxiv.org/pdf/2409.00750v2,该文献提供了深入的研究分析。
  • 公开测试版本的网址(乐享千音):https://audio.funnyplatform.com/

MaskGCT的使用情境

  • 音频书籍与播客节目通过运用MaskGCT创造的高度真实语音,能够显著增强电子书、音频书籍及播客节目的阅读流畅性,极大地改善了观众们的聆听感受。
  • 智能化助理与对话机器人在智能装置与客户服务系统里,MaskGCT带来更为自然且个性化的语音交流体验。
  • 电子游戏与沉浸式体验技术在游戏及虚拟现实软件里,MaskGCT负责创造真实的角色声音,大幅提升用户的沉浸体验。
  • 电影与电视节目创作及声音表演在电影和电视节目的后制过程中,MaskGCT能够迅速创建或更换角色的声音,从而提升制作的速度与效率。
  • 学习语言与教育培训MaskGCT能够创建带有普通或特殊方言特色的音频,帮助语言学员提升他们的发音与听辨能力。
© 版权声明

相关文章