WhisperChain – AI实时语音转文字工具，自动对文本进行清理和优化

195 0 0

WhisperChain是什么

WhisperChain 是开源的语音识别工具，基于语音输入提升工作效率。WhisperChain用 Whisper.cpp 实现实时语音识别，将语音转换为文本，基于 LangChain 对文本进行清理和优化，去除填充词、编辑并精炼内容。WhisperChain支持全局快捷键，方便用户随时启动语音输入，自动将清理后的文本复制到剪贴板，方便粘贴使用。WhisperChain 提供 Streamlit Web UI 和 FastAPI 服务器架构，支持多种配置和扩展功能，适用于需要高效语音记录和文本优化的用户。

WhisperChain的主要功能

实时语音识别：语音实时转换为文本。
文本清理与优化：对识别后的文本进行处理，去除填充词（如“嗯”“啊”）、语法优化和内容精炼。
全局热键支持：自定义的全局热键（如 <Ctrl>+<Alt>+R）快速启动语音输入，方便快捷。
自动剪贴板集成：识别清理后的文本自动复制到剪贴板，用户直接粘贴到任何需要的地方。
Streamlit Web UI：提供图形化界面，用户基于网页与工具交互，查看历史记录或重新编辑文本。
灵活的配置选项：支持基于配置文件或命令行参数自定义设置，如选择不同的语音识别模型、端口等。

WhisperChain的技术原理

Whisper.cpp：Whisper.cpp 是开源的语音识别引擎，基于 OpenAI 的 Whisper 模型。将语音信号转换为文本，支持多种语言和方言。提供高效的实时语音识别能力，是 WhisperChain 的核心组件之一。
LangChain：LangChain 是用于文本处理和优化的工具。对识别后的文本进行清理，去除不必要的填充词、重复内容，优化语法和表达。根据上下文对文本进行语义优化，让最终生成的文本更加流畅和自然。
FastAPI 服务器与 WebSocket：WhisperChain 用 FastAPI 构建后端服务器，基于 WebSocket 实现实时通信。语音数据基于 WebSocket 传输到服务器，服务器调用 Whisper.cpp 进行语音识别，用 LangChain 处理文本。处理后的文本最终返回给客户端，实现高效的数据处理和传输。
Streamlit Web UI：Streamlit 是用于快速开发 Web 应用的框架。WhisperChain 用 Streamlit 构建图形化界面，用户基于网页与工具交互，方便查看历史记录、重新编辑文本或调整设置。
全局热键与剪贴板集成：基于系统级的全局热键监听，用户随时启动语音输入。处理后的文本自动复制到系统剪贴板，方便用户在其他应用中直接粘贴使用。