鱼类演讲 – 一款开源且高效的文本转语音(TTS)生成器

AI工具2年前 (2025)发布 ainav

537 0 0

Fish Speech指的是什么？

VoiceCraft是由Fish Audio团队开发的一款开源文本转语音（TTS）软件，能够处理中文、英文和日文等多种语言。该工具基于大约15万小时的多语种训练数据集进行优化，现已达到接近人类发音水准的表现，并已升级至1.2版。其亮点包括极低的显存占用量（仅4GB）、迅捷的数据推理能力以及高度自定义与灵活的应用特性，使得用户能够便捷地实现语音模仿而无需繁琐的学习过程。此外，VoiceCraft兼容多种生成模型如VITS2和Bert-VITS2等，特别适用于智能助手、自动客服系统及语言学习工具等领域。

Fish Speech的特点与功能

高性能的文字转语音技术Fish Speech凭借其尖端算法，可以快速地把文字内容转化为听起来既自然又流畅的声音。借助于改进后的声学与语言模型，该系统保证了声音产出的真实性和精确性，在各种应用环境中均能实现优质的语音效果。
多种语言兼容性支持Fish Speech具备处理中文、英文及日文的能力，其多语言功能能够突破语言壁垒，服务于来自世界各地的用户群体，并且极大地促进了全球化应用环境的发展。
声音复制技术用户能够上传一段自己的或是他人的音频作为样本，Fish Speech利用先进的深度学习算法来分析和复制这段音频的特点，从而达成个性化的声音复刻效果。这项技术在打造定制化语音助理及制作播客等内容方面展现了广阔的应用前景。
较低的内存要求只需配备4GB的显存便能顺利运作，这显著减少了对高端硬件的需求，让更多用户可以在个人计算机上享受Fish Speech带来的便利，无需购置价格不菲的专业设备。
迅速的逻辑推断能力Fish Speech改进了其推理流程，大幅降低了处理延迟，并增强了语音生成的速度。使用者能够迅速得到他们的语音内容，从而显著改善了用户的整体体验感。
各类声音合成系统Fish Speech平台兼容多种声音生成技术，涵盖VITS2、Bert-V ITS2、GPT VITS、MQTTS、GPT Fast以及GPT-SoVITS等算法，使用者能够依据个人偏好挑选最适合的技术方案，从而达到最优质的语音合成体验。
简便操作Fish Speech在设计时特别关注用户的体验感受，它精简了安装与设置的步骤。使用者不必花费精力去理解复杂的操作原理，只需借助一个简单的启动命令就能迅速上手运行软件，显著地减少了使用的难度。
精细调节能力LORA微调方法让使用者能够精准地修改模型，使之契合特定的语言风格或表述习惯，极大地拓展了用户的创作自由度。
提升效能借助gradient checkpointing、因果采样及flash-attn等前沿技术的应用，Fish Speech大幅提升了其在训练与推断环节中的表现力，保障了在面对海量数据处理任务时既快速又稳定。

进入Fish Speech的官方主页

官方网站地址：https://speech.fish.audio/
FishAudio语音项目代码仓库地址如下：https://github.com/fishaudio/fish-speech
Fishaudio的语音模型1.2版本可以在Hugging Face平台上找到，其链接为：https://huggingface.co/fishaudio/fish-speech-1.2

怎样设置并运用Fish语音功能

执行需求

显存配置：4GB（适用于推理任务）、16GB（适用于模型微调）
操作系统：Linux和Windows

设置Windows环境

Windows 高级用户可选用 WSL2 或 Docker 来执行代码仓库。

对于非专业的 Windows 用户来说，可以采用下列方法作为在没有 Linux 环境下的基础操作方案（此方案同时支持模型的编译工作）。使用torch的编译功能以下是经过伪原创改写的版本：

（此部分内容已根据要求进行了适当的变换以达到伪原创的效果，但仍需具体文本内容来进行相应的改编。由于提供的原文仅有标点符号“）：”，没有具体内容，因此无法进行实质性的改写。若有需要，请提供详细的内容段落以便处理。）

展开项目压缩文件。
运行 install_env.bat 文件以设置环境。
- 可以对 install_env.bat 进行修改来利用镜像替代方案通过选择适当的选项来判断是否采用镜像站点进行下载。
- SET_USE_MIRROR_TO_FALSE=true从官方站点获取最新的稳定版本pytorch氛围。SET_USE_MIRROR=真为了从镜像站点获取最新的版本pytorch情境。设定为准确无误由于提供的内容为空，无法进行伪原创改写，请提供具体文本内容。
- 可以对 install_env.bat 文件进行修改来实现这一目的。安装类型通过该项选择以确定是否激活可编译环境的下载。
- SETUP_MODE=预览模式获取开发版本的编译工具环境。SETUP_MODE=稳定版获取不含编译环境的稳定版本。
如果在第二步中设置了 INSTALL_TYPE 为 preview，则需要进行这一步操作（此步骤可以省略，主要用于激活编译模型的环境）。
1. 通过提供的链接来获取 LLVM 编译器的下载服务。
  - 可以从官方站点获取LLVM-17.0.6的下载链接。
  - 可以从镜像站点获取LLVM-17.0.6版本。
  - 完成 LLVM-17.0.6-win64.exe 的下载后，通过双击启动安装程序，并挑选一个适合的安装路径。特别需要注意的是要确保选中相应的选项。添加路径至当前用户配置环境变量。
  - 验证安装已成功结束。
2. 安装 Microsoft Visual C++ 可再分发组件，以防止可能出现的 .dll 文件缺失问题。
  - 下载 MSVC++ 14.40.33810.0 版本
3. 为了满足 LLVM 头文件的依赖需求，请安装 Visual Studio 社区版本，从而获得 MSVC++ 编译器工具。
  - - 下载 Visual Studio
    - 完成Visual Studio Installer的安装后，下一步是获取Visual Studio Community 2022的版本。
    - 如图所示，进行点击操作。调整点击按钮，寻找目标选项。利用C++进行桌面应用程序开发条目，选择以下载
点击两次 start.bat 文件，即可访问用于 Fish-Speech 的训练和推理设置的 Web 用户界面。
- 想要快速跳转到推理界面吗？请修改项目主文件夹中的相关设置。API标记文件.txt由于您提供的原文不完整且特别指示了只改变前三行的格式，我直接根据您的要求构造了一个示例段落以供参考。请查看以下内容：
  首先展示的是引人入胜的内容开头，
  接下来的文字继续深化主题思想，
  最后一句巧妙过渡到下一部分。
  
  余下的部分将保持原意不变地进行阐述，但采用了不同的表达方式来呈现相同的信息点。由于没有给出具体的后续文本，因此这部分仅作为一个示范结尾，并非基于实际提供的内容修改而来。
```
...
# 使用API接口
# 开始监听 ...
```