Whisper-WebUI：一站式语音识别字幕生成平台完整指南

Whisper-WebUI 是一款基于 Whisper 模型的一站式语音识别字幕生成平台，能够轻松从多种来源生成字幕，并支持多种格式输出与翻译功能。无论是视频创作者、内容编辑还是普通用户，都能通过这个直观的 Web 界面快速完成语音转文字及字幕制作工作。## 核心功能：满足多样化字幕需求 🎬### 多来源字幕生成Whisper-WebUI 支持从各种来源生成字幕，包括本地音频文件、视频

祖崧革

935人浏览 · 2026-04-11 10:29:57

祖崧革 · 2026-04-11 10:29:57 发布

Whisper-WebUI：一站式语音识别字幕生成平台完整指南

【免费下载链接】Whisper-WebUI A Web UI for easy subtitle using whisper model. 项目地址: https://gitcode.com/gh_mirrors/wh/Whisper-WebUI

Whisper-WebUI 是一款基于 Whisper 模型的一站式语音识别字幕生成平台，能够轻松从多种来源生成字幕，并支持多种格式输出与翻译功能。无论是视频创作者、内容编辑还是普通用户，都能通过这个直观的 Web 界面快速完成语音转文字及字幕制作工作。

核心功能：满足多样化字幕需求 🎬

多来源字幕生成

Whisper-WebUI 支持从各种来源生成字幕，包括本地音频文件、视频文件等，为用户提供灵活的输入方式。目前支持的字幕格式丰富，能够满足不同场景下的使用需求。

强大的翻译能力

平台集成了多种翻译功能，可使用 Facebook NLLB 模型或 DeepL API 对字幕文件进行翻译，打破语言壁垒，让内容传播更广泛。相关功能实现可参考 modules/translation/ 目录下的源码。

快速开始：简单三步上手使用 🚀

准备工作

在运行 WebUI 前，需确保系统已安装 git、3.10 <= python <= 3.12 以及 FFmpeg。安装完成后，务必将 FFmpeg/bin 文件夹添加到系统 PATH 中，这是保证音频处理功能正常运行的关键。

安装步骤

克隆仓库：git clone https://gitcode.com/gh_mirrors/wh/Whisper-WebUI
运行 install.bat（Windows）或 install.sh（Linux/Mac）安装依赖，脚本会自动创建 venv 虚拟环境并安装所需包。
通过 start-webui.bat 或 start-webui.sh 启动 WebUI，本质上是激活虚拟环境后运行 python app.py。

高级运行选项

如果需要自定义运行参数，可参考项目 Wiki 中的命令行参数指南，根据自身需求调整启动参数。

技术架构：模块化设计解析 🔧

后端服务

后端采用 Python 构建，主要逻辑位于 backend/ 目录。其中，backend/main.py 是应用入口，routers/ 目录下包含了转录、VAD、BGM 分离等功能的路由定义，实现了清晰的接口设计。

模型管理

项目使用的各类模型，如 Whisper 系列模型、NLLB 翻译模型等，会被统一保存在 models/ 目录下，方便管理与维护。

实用工具

modules/utils/ 目录提供了丰富的工具类，包括音频管理、文件处理、日志记录等功能，为整个项目提供了坚实的基础支持。

常见问题：轻松解决使用难题 ❓

依赖安装失败

若 install.bat 或 install.sh 运行出错，可尝试手动创建虚拟环境并安装依赖：

python -m venv venv
source venv/bin/activate  # Linux/Mac
venv\Scripts\activate  # Windows
pip install -r requirements.txt
pip install -r backend/requirements-backend.txt

启动后无法访问 WebUI

检查端口是否被占用，可通过命令行参数 --port 指定其他端口，如 python app.py --port 8080。

Whisper-WebUI 凭借其强大的功能、简洁的操作流程和灵活的扩展性，成为语音识别字幕生成领域的得力工具。无论是个人用户还是专业团队，都能从中高效完成字幕制作工作，提升内容创作效率。

【免费下载链接】Whisper-WebUI A Web UI for easy subtitle using whisper model. 项目地址: https://gitcode.com/gh_mirrors/wh/Whisper-WebUI

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

让 Codex 桌面版拥抱 DeepSeek-V4：协议桥接与模型网关接入实践

4SAPI 提供了一套标准的 Chat Completions 接口，完全兼容 DeepSeek V4 Pro 等模型，使用时只需将 base URL 和密钥替换为平台分配的值即可。这样一来，既保留了桥接层的协议转换能力，又获得了网关带来的额外弹性。这样的模型网关，则进一步提升了链路的稳定性和密钥管理的便捷度，尤其适合团队或对服务可用性有更高要求的场景。│Codex 桌面版│ ──────────

AI Agent技术社区

别再迷信“突破限制”：Gemini 3.5-flash 边界测试实战复盘

AI Agent技术社区

Hermes Agent 上下文压缩机制深度剖析：长对话场景下的有损压缩策略

大语言模型的上下文窗口是有限资源。在长对话场景中，Token 数量不可避免地逼近模型的上下文长度上限，此时系统面临两难选择：截断历史导致信息丢失，或超出限制导致 API 报错。Hermes Agent 的上下文压缩引擎（`ContextCompressor`）实现了一套三阶段有损压缩算法，在保持对话连续性的同时将 Token 消耗控制在安全阈值内。本文从源码层面详细分析该机制的算法设计、边界处理、