零代码启动ASR语音识别|科哥定制FunASR WebUI镜像使用指南
本文介绍了如何在星图GPU平台自动化部署“FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥”镜像,实现零代码启动中文语音识别系统。该镜像支持WebUI交互式操作,适用于会议记录转写、视频字幕生成等场景,用户可快速完成音频上传、实时录音识别及结果导出,显著提升AI语音应用开发效率。
零代码启动ASR语音识别|科哥定制FunASR WebUI镜像使用指南
1. 快速开始:一键部署中文语音识别系统
1.1 镜像简介与核心价值
FunASR 是由阿里巴巴达摩院开源的高性能语音识别工具包,支持离线识别、实时流式识别、标点恢复、语音活动检测(VAD)等多种功能。本镜像基于官方 speech_ngram_lm_zh-cn 模型进行二次开发,由开发者“科哥”封装为即用型 WebUI 镜像,极大降低了本地部署门槛。
该镜像的核心优势在于:
- 零代码启动:无需编写任何 Python 脚本或配置服务
- 开箱即用:集成 Paraformer-Large 和 SenseVoice-Small 双模型
- 多格式支持:兼容 WAV、MP3、M4A、FLAC 等主流音频格式
- 全功能界面:提供上传识别、实时录音、结果导出等完整交互流程
- GPU 加速优化:自动检测 CUDA 环境并启用 GPU 推理
适用于会议记录转写、视频字幕生成、语音笔记整理等实际场景。
1.2 启动与访问方式
镜像启动后,默认监听端口为 7860,可通过以下地址访问:
http://localhost:7860
若在远程服务器上运行,可通过公网 IP 访问:
http://<服务器IP>:7860
无需额外安装依赖或编译源码,真正实现“拉取即用”。
2. 界面功能详解
2.1 头部信息区域
页面顶部展示应用的基本信息:
- 标题:FunASR 语音识别 WebUI
- 描述:基于 FunASR 的中文语音识别系统
- 版权信息:webUI二次开发 by 科哥 | 微信:312088415
此部分为固定展示内容,保留原始开发者信息以示尊重。
2.2 控制面板(左侧)
2.2.1 模型选择
支持两种预置模型切换:
- Paraformer-Large:大参数量模型,识别精度高,适合对准确率要求高的场景
- SenseVoice-Small:轻量级模型,响应速度快,适合实时性要求高的短语音识别
默认选中 SenseVoice-Small 模型,用户可根据需求手动切换。
2.2.2 设备选择
推理设备可自由切换:
- CUDA:使用 GPU 进行加速推理(推荐有显卡用户)
- CPU:纯 CPU 模式运行,兼容无独立显卡环境
系统会根据硬件自动判断是否启用 CUDA,确保最佳性能匹配。
2.2.3 功能开关
三个关键功能可独立启停:
- 启用标点恢复 (PUNC):自动为识别文本添加逗号、句号等标点符号
- 启用语音活动检测 (VAD):自动分割长音频中的有效语音段,跳过静音部分
- 输出时间戳:在结果中显示每个词或句子的时间起止位置
建议开启 PUNC 和 VAD 提升识别质量,时间戳用于后续字幕制作。
2.2.4 模型状态指示
实时显示当前模型加载状态:
- ✓ 模型已加载 —— 正常可用
- ✗ 模型未加载 —— 需点击“加载模型”按钮初始化
首次启动时需手动加载一次模型,后续操作无需重复。
2.2.5 操作按钮
- 加载模型:触发模型加载流程,重新初始化当前选中模型
- 刷新:更新界面状态信息,检查设备和模型状态
3. 使用流程详解
3.1 方式一:上传音频文件识别
3.1.1 支持的音频格式
系统支持以下常见音频格式:
- WAV (.wav)
- MP3 (.mp3)
- M4A (.m4a)
- FLAC (.flac)
- OGG (.ogg)
- PCM (.pcm)
推荐使用 16kHz 采样率 的音频文件以获得最佳识别效果。非标准采样率的音频将被自动重采样处理。
3.1.2 文件上传步骤
- 在主界面找到 “ASR 语音识别” 区域
- 点击 "上传音频" 按钮
- 从本地选择符合格式的音频文件
- 等待上传完成(进度条提示)
上传成功后,音频将在前端预览区显示波形图。
3.1.3 参数配置说明
- 批量大小(秒):默认值为 300 秒(5 分钟),表示每次处理的最大音频长度。范围为 60–600 秒,可用于控制内存占用。
- 识别语言:支持多种语言选项:
auto—— 自动检测语言(推荐混合语种场景)zh—— 中文普通话en—— 英语yue—— 粤语ja—— 日语ko—— 韩语
建议中文内容明确选择 zh,避免误判为其他语言。
3.1.4 开始识别与结果查看
点击 "开始识别" 按钮后,系统将调用后端模型进行推理,处理完成后返回结果。识别结果分为三个标签页展示:
文本结果
显示最终识别出的纯文本内容,支持复制粘贴直接使用。
详细信息
以 JSON 格式呈现完整识别数据,包含:
- 识别文本
- 时间戳区间
- 各片段置信度分数
- 语言类型判断
便于程序化处理或调试分析。
时间戳
按顺序列出每个词语或短句的起止时间,格式如下:
[序号] 开始时间 - 结束时间 (时长)
例如:
[001] 0.000s - 0.500s (时长: 0.500s)
[002] 0.500s - 2.500s (时长: 2.000s)
适用于视频剪辑定位、语音对齐等专业用途。
3.2 方式二:浏览器实时录音识别
3.2.1 录音准备
点击 "麦克风录音" 按钮,浏览器将弹出权限请求框,需点击 "允许" 授予麦克风访问权限。
注意:部分浏览器(如 Safari)可能限制 HTTPS 环境下才允许麦克风调用,请确保服务通过安全代理暴露。
3.2.2 录音与停止
- 开始说话后,界面会出现声波动画反馈
- 点击 "停止录音" 结束录制,音频将自动保存为临时 WAV 文件
录音最长支持 5 分钟,超时将自动终止。
3.2.3 实时识别流程
停止录音后,点击 "开始识别" 即可启动识别流程,后续步骤与上传文件完全一致。
该模式适合快速记录灵感、会议摘要等即时语音输入场景。
4. 结果下载与文件管理
4.1 下载功能说明
识别完成后,可通过三个按钮下载不同格式的结果:
| 按钮 | 文件格式 | 用途 |
|---|---|---|
| 下载文本 | .txt | 纯文本,适合导入文档编辑器 |
| 下载 JSON | .json | 完整结构化数据,便于二次开发 |
| 下载 SRT | .srt | 视频字幕文件,兼容主流播放器 |
所有文件均打包为 ZIP 压缩包供下载。
4.2 输出目录结构
每次识别会在本地生成一个带时间戳的输出目录,路径为:
outputs/outputs_YYYYMMDDHHMMSS/
例如:
outputs/outputs_20260104123456/
├── audio_001.wav # 原始音频副本
├── result_001.json # JSON 格式结果
├── text_001.txt # 纯文本结果
└── subtitle_001.srt # SRT 字幕文件
每项任务独立存储,避免文件覆盖,方便归档管理。
5. 高级功能设置
5.1 批量大小调整策略
- 小批量(60–120秒):适用于低显存设备(如 4GB GPU),降低内存压力
- 中等批量(180–300秒):平衡速度与资源消耗,通用推荐设置
- 大批量(300–600秒):适合高性能 GPU,提升长音频处理效率
建议根据设备性能动态调整,避免因内存溢出导致服务崩溃。
5.2 语言识别最佳实践
| 场景 | 推荐语言设置 |
|---|---|
| 普通话演讲 | zh |
| 英文访谈 | en |
| 粤语对话 | yue |
| 中英混杂 | auto |
| 多语种会议 | auto |
手动指定语言可显著提高特定语种的识别准确率,减少跨语言干扰。
5.3 时间戳应用场景
启用时间戳后,可支持以下高级用途:
- 视频字幕同步:将
.srt文件导入 Premiere 或 Final Cut Pro 实现自动字幕嵌入 - 语音内容检索:结合时间戳快速定位某句话出现的位置
- 教学材料标注:标记课程讲解中重点段落的时间节点
是构建智能音视频处理流水线的关键能力。
6. 常见问题与解决方案
6.1 识别结果不准确
可能原因及对策:
- 语言设置错误 → 明确选择对应语言或使用
auto - 音频质量差 → 使用降噪软件预处理(如 Adobe Audition)
- 背景噪音大 → 启用 VAD 并关闭无关声源
- 发音模糊 → 保持清晰语速,避免吞音
建议优先尝试 Paraformer-Large 模型提升精度。
6.2 识别速度慢
排查方向:
- 是否使用 CPU 模式?→ 切换至 CUDA 设备
- 音频是否过长?→ 分段处理或减小批量大小
- 模型是否过大?→ 切换为 SenseVoice-Small 模型
GPU 用户应确认驱动正常且 PyTorch 已正确绑定 CUDA。
6.3 无法上传音频文件
检查清单:
- 文件格式是否在支持列表内(优先使用 MP3/WAV)
- 文件大小是否超过 100MB 限制
- 浏览器是否存在兼容性问题(建议使用 Chrome/Firefox)
大文件建议先压缩后再上传。
6.4 录音无声或中断
解决方法:
- 确认浏览器已授予麦克风权限
- 检查操作系统音频设置中麦克风是否启用
- 测试其他录音软件验证硬件正常
- 尝试重启浏览器或更换设备
部分笔记本需手动开启麦克风开关。
6.5 输出乱码或异常字符
处理建议:
- 确保音频编码为标准 PCM 或 MP3 编码
- 尝试转换为 WAV 格式再上传
- 检查是否包含非语音信号(如音乐、铃声)
复杂编码可能导致解码失败。
6.6 提高识别准确率的综合建议
- 使用 16kHz 采样率、单声道 的音频文件
- 保持安静环境,减少背景噪声
- 发音清晰,避免过快语速
- 优先选用高质量麦克风录制
- 对专业术语可考虑后期人工校正
对于重要会议或正式场合,建议双模型交叉验证结果。
7. 服务管理与退出
7.1 停止 WebUI 服务
在运行终端中按下快捷键:
Ctrl + C
或执行命令强制终止进程:
pkill -f "python.*app.main"
停止后容器将退出,资源释放。
7.2 快捷键汇总
| 操作 | 快捷键 |
|---|---|
| 停止服务 | Ctrl + C |
| 刷新页面 | F5 或 Ctrl + R |
| 复制文本 | Ctrl + C |
| 全选文本 | Ctrl + A |
提升日常操作效率。
8. 技术支持与反馈渠道
- 开发者:科哥
- 联系方式:微信 312088415
- 问题反馈要求:请提供完整的操作步骤、错误截图、音频样本(如有)、设备信息(CPU/GPU型号)
承诺永久开源使用,欢迎社区共建。
9. 更新日志与版本信息
v1.0.0 (2026-01-04)
- ✅ 首次发布版本
- ✅ 支持中文语音识别(zh)
- ✅ 支持多语言自动检测(auto)
- ✅ 支持主流音频格式上传
- ✅ 支持浏览器内实时录音
- ✅ 支持 TXT/JSON/SRT 多格式导出
- ✅ 采用紫蓝渐变主题 UI 设计
未来计划增加热词自定义、批量任务队列、API 接口开放等功能。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐

所有评论(0)