video-subtitle-master – 开源AI字幕生成工具，支持批量为视频或音频生成字幕

AI工具1年前 (2025)发布 ainav

279 0 0

video-subtitle-master是什么

video-subtitle-master 是能批量为视频或音频生成字幕的工具，基于开源项目 VideoSubtitleGenerator 开发，支持批量为视频或音频生成字幕，将字幕翻译成其他语言。video-subtitle-master具备图形用户界面，操作便捷，支持多种翻译服务（如百度翻译、火山引擎翻译、DeepLX等），集成 whisper.cpp 和 fluent-ffmpeg，优化了性能。video-subtitle-master支持自定义字幕文件名、翻译内容格式、并发任务数量，适合普通用户和开发人员使用。

video-subtitle-master – 开源AI字幕生成工具，支持批量为视频或音频生成字幕

video-subtitle-master的主要功能

批量处理：
- 支持批量为视频或音频生成字幕。
- 支持批量翻译字幕文件。
字幕翻译：
- 支持将生成的字幕或导入的字幕翻译成其他语言。
- 支持多种翻译服务，包括百度翻译、火山引擎翻译、DeepLX、Ollama 本地模型、OpenAI 风格 API 等。
优化与集成：
- 集成 whisper.cpp，对 Apple Silicon 进行了优化，提高生成速度。
- 集成fluent-ffmpeg，无需单独安装 ffmpeg。
- 支持运行本地安装的 whisper 命令。
自定义功能：
- 支持自定义字幕文件名，方便兼容不同播放器。
- 支持自定义翻译后的字幕文件内容，可选择纯翻译结果或原字幕+翻译结果。
- 支持选择模型下载源（国内镜像源或官方源）。
- 支持自定义并发任务数量。

video-subtitle-master的技术原理

语音识别技术：用 whisper.cpp 或其他语音识别引擎从音频中提取文本内容。whisper.cpp 是基于深度学习的语音识别模型，能高效地将语音转换为文字。
字幕生成：基于语音识别引擎生成的文本内容，按照时间戳格式化为字幕文件（如 SRT 或 ASS 格式）。
翻译服务集成：支持多种翻译服务，基于调用外部 API（如百度翻译、火山引擎翻译）或本地模型（如 Ollama）将字幕翻译成目标语言。
图形用户界面（GUI）：用现代前端技术（如 Electron）开发，提供直观的用户界面，方便用户操作。
后端处理：用 Node.js 和后端技术处理文件读取、模型加载、任务调度等逻辑。