Amphion – 一款开源的多功能AI音频解决方案，专为音频、音乐及语音创作设计的工具集

AI工具1年前 (2025)发布 ainav

521 0 0

Amphion指的是什么？

Amphion是一款开源软件包，专注于音频、音乐与语音内容的创建，并由香港中文大学（深圳）武执政教授的研究团队联合上海人工智能实验室及深圳市大数据研究院共同研发而成。该工具箱旨在支持可重复研究，为新手研究人员和技术人员提供一个快速入门音频生成领域的平台。Amphion具备广泛的功能集，涵盖文本转语音(TTS)、歌声合成(SVS)、语音变换(VC)、歌声变换(SVC)，以及文本转音频(TTA)和音乐生成(TTM)等领域。它兼容多种神经声码器技术如MelGAN和HiFi-GAN，并提供详尽的评估标准以确保所产生音频的质量与一致性。此外，Amphion的一个亮点是其能够可视化经典模型及其架构的能力，这一特性对促进深入理解这些模型内部运作机制尤其有用。

Amphion的核心特性

语音合成(TTS)Amphion兼容多种前沿的TTS技术，能够把文字转化为流畅通顺的声音输出。
声乐合成(SVS)通过分析参照样本与原始音频的特性，Amphion能够生成歌声，并完成演唱者音色的转变。
声音变换（SV）Amphion具备将一个声音转变为另一个不同的声音的能力，同时保留原始的语音信息不变。
声乐变换（VSC）Amphion具备将一名歌手的 vocals 转变为另一名歌手的声音的能力。
文字转换为语音（Text-to-Audio）Amphion能够依据文字提示创造出身临其境的音响效果、人声以及乐曲。
文字转换成旋律（Text to Melody）Amphion具备把文字描述转化为音乐创作的能力。
语音编码器（Vocoder）Amphion融合了多种声码器技术，旨在创建高品质的音频信号。

Amphion的工作机制

模型结构图形化展示Amphion通过展示经典模型或架构的视觉表现，助力研究员与工程师深入洞察其运作机制。
一体化架构Amphion打造了一个整合的平台，兼容各类音频创作项目，使得科研与创新工作更为便捷。
预先训练的模型Amphion推出了众多高品质的预先训练模型，助力实现研究成果的可重复性。
神经语音合成技术融合Amphion融合了多元化的神经网络声码器技术，包括以生成对抗网络为基础的声码器（如MelGAN与HiFi-GAN），采用流动模型构建的声码器（例如WaveGlow），以及利用扩散机制设计的声码器（比如DiffWave）。
从文本转换为语音合成Amphion借助类似AudioLDM、Make-an-Audio及AUDIT架构的潜伏扩散模型，依据文字提示来创建音频内容。