基于FunASR语音识别镜像快速搭建中文ASR系统｜科哥二次开发版

本文介绍了基于“星图GPU”平台自动化部署FunASR语音识别镜像（speech_ngram_lm_zh-cn 二次开发构建by科哥）的完整流程。该镜像集成Paraformer-Large与SenseVoice-Small双模型，支持WebUI操作，可快速实现中文语音转文字，在会议记录、字幕生成等AI应用开发场景中具备高实用性与部署效率。

Ma Daniel

1046人浏览 · 2026-01-16 05:13:59

Ma Daniel · 2026-01-16 05:13:59 发布

基于FunASR语音识别镜像快速搭建中文ASR系统｜科哥二次开发版

1. 引言

随着语音交互技术的普及，中文自动语音识别（ASR）在智能客服、会议记录、字幕生成等场景中展现出巨大价值。然而，从零部署一个高精度、易用性强的ASR系统对开发者而言仍存在较高门槛。

本文将基于FunASR语音识别镜像（speech_ngram_lm_zh-cn 二次开发构建 by 科哥），手把手教你快速搭建一套支持WebUI操作的中文语音识别系统。该镜像已集成Paraformer-Large和SenseVoice-Small双模型，支持实时录音、批量识别、标点恢复、时间戳输出及多格式结果导出，开箱即用，极大降低部署复杂度。

通过本教程，你将在10分钟内完成环境部署，并掌握核心功能使用方法与常见问题应对策略。

2. 镜像特性与技术优势

2.1 镜像核心能力概览

该定制化FunASR镜像由开发者“科哥”基于官方模型进行深度优化与二次开发，主要特性包括：

✅ 支持 Paraformer-Large 和 SenseVoice-Small 双模型切换
✅ 提供直观易用的 WebUI界面
✅ 支持 GPU(CUDA) 与 CPU 双模式运行
✅ 内置 VAD（语音活动检测） 与 PUNC（标点恢复）
✅ 输出支持 文本、JSON、SRT字幕 三种格式
✅ 支持 上传文件识别 与 浏览器实时录音
✅ 自动创建带时间戳的结果目录，便于管理

相比原始FunASR SDK，此版本显著提升了用户体验和工程实用性，特别适合企业内部工具链集成或个人项目快速验证。

2.2 核心技术栈解析

组件	技术说明
ASR引擎	FunASR（ModelScope开源项目）
主模型	`damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx`
小模型	`iic/SenseVoiceSmall-onnx`
语言模型	`speech_ngram_lm_zh-cn-ai-wesp-fst`（提升中文流利度）
标点模型	`punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx`
VAD模型	`speech_fsmn_vad_zh-cn-16k-common-onnx`
前端框架	Gradio WebUI（Python）
部署方式	Docker容器化封装

其中，speech_ngram_lm_zh-cn 的引入有效增强了中文语义连贯性，尤其在专业术语、长句识别上表现更优。

3. 快速部署与启动流程

3.1 环境准备

确保服务器满足以下任一条件：

GPU模式：NVIDIA显卡 + CUDA驱动 + nvidia-docker2
CPU模式：x86_64架构，内存 ≥ 8GB

安装Docker（若未安装）：

curl -fsSL https://get.docker.com | sh

3.2 拉取并运行镜像

执行以下命令拉取科哥定制镜像并启动服务：

# 拉取镜像（请替换为实际镜像名称）
docker pull your-registry/funasr-speech-ngram-lm:latest

# 创建输出目录
mkdir -p ./outputs

# 启动容器（映射端口7860，挂载输出目录）
docker run -d \
  --name funasr-webui \
  -p 7860:7860 \
  -v $PWD/outputs:/app/outputs \
  --gpus all \  # 若无GPU可删除此行
  your-registry/funasr-speech-ngram-lm:latest

注：若使用CPU模式，请移除 --gpus all 参数。

3.3 访问WebUI界面

服务启动后，在浏览器访问：

http://localhost:7860

或远程访问：

http://<服务器IP>:7860

页面加载成功后将显示如下界面：

WebUI界面示意图

4. WebUI功能详解与使用指南

4.1 界面布局说明

整个WebUI分为两大区域：

左侧控制面板：模型选择、设备配置、功能开关
右侧识别区域：音频输入、识别按钮、结果展示

头部信息栏

标题：FunASR 语音识别 WebUI
描述：基于 FunASR 的中文语音识别系统
版权声明：webUI二次开发 by 科哥 | 微信：312088415

4.2 控制面板配置项详解

模型选择

模型	特点	推荐场景
Paraformer-Large	高精度，识别质量好	对准确率要求高的正式任务
SenseVoice-Small	响应快，资源占用低	实时交互、测试调试

默认选中SenseVoice-Small以提升响应速度。

设备选择

CUDA：启用GPU加速，识别速度提升3~5倍（推荐有显卡用户）
CPU：通用兼容模式，适用于无独立显卡环境

系统会自动检测CUDA可用性，首次启动建议手动确认。

功能开关

启用标点恢复 (PUNC)：为识别结果自动添加逗号、句号等标点
启用语音活动检测 (VAD)：自动切分静音段，避免无效识别
输出时间戳：返回每个词/句的时间区间，用于后期编辑

建议日常使用开启全部三项功能。

操作按钮

加载模型：重新加载当前配置的模型（可用于切换模型后刷新）
刷新：更新模型状态图标（✓ 已加载 / ✗ 未加载）

5. 使用流程实战演示

5.1 方式一：上传音频文件识别

步骤1：准备音频文件

支持格式： - .wav, .mp3, .m4a, .flac, .ogg, .pcm - 推荐采样率：16kHz - 单文件大小建议 < 100MB

步骤2：上传并设置参数

点击“上传音频”按钮，选择本地文件
设置识别参数：
批量大小（秒）：默认300秒（5分钟），可调范围60~600秒
识别语言：
- auto：自动检测（推荐）
- zh：强制中文
- en：英文
- yue：粤语
- ja：日语
- ko：韩语

步骤3：开始识别

点击“开始识别”，等待处理完成。识别进度可通过日志观察。

步骤4：查看结果

识别完成后，结果分三个标签页展示：

标签页	内容说明
文本结果	清晰可复制的纯文本
详细信息	JSON结构数据，含置信度、时间戳等元信息
时间戳	每个片段的起止时间列表

示例输出：

你好，欢迎使用语音识别系统。这是一个基于 FunASR 的中文语音识别 WebUI。

5.2 方式二：浏览器实时录音识别

步骤1：授权麦克风

点击“麦克风录音”按钮，浏览器弹出权限请求 → 点击“允许”。

步骤2：录制语音

开始说话，录音波形实时显示
点击“停止录音”结束录制

步骤3：识别与查看

点击“开始识别”，后续流程同上传文件方式。

⚠️ 注意：部分浏览器（如Safari）可能不支持Web Audio API，请优先使用Chrome/Firefox。

6. 结果导出与高级配置

6.1 多格式结果下载

识别完成后，可通过三个按钮下载不同格式结果：

下载按钮	文件格式	典型用途
下载文本	`.txt`	直接粘贴使用，简洁高效
下载 JSON	`.json`	程序解析，获取完整结构化数据
下载 SRT	`.srt`	视频字幕嵌入，支持播放器同步显示

所有文件保存路径为：

outputs/outputs_YYYYMMDDHHMMSS/

例如一次识别生成目录结构：

outputs/outputs_20260104123456/
├── audio_001.wav      
├── result_001.json    
├── text_001.txt       
└── subtitle_001.srt

每轮识别独立命名，防止覆盖。

6.2 高级参数调优建议

参数	调整建议
批量大小	长音频（>3分钟）建议设为300~600秒；短语音可设为60秒以内
识别语言	中文为主内容建议固定为`zh`，避免误判为其他语种
时间戳输出	视频剪辑、访谈转录等需定位场景必开
VAD	多人对话、含背景噪音录音建议开启，提升分割准确性

7. 常见问题与解决方案

7.1 识别结果不准确？

排查方向： 1. 检查是否选择了正确的语言模式（混合语言建议用auto） 2. 音频质量是否清晰？推荐使用16kHz、单声道WAV格式 3. 是否存在严重背景噪音？建议先做降噪处理 4. 尝试切换至Paraformer-Large模型提升精度

7.2 识别速度慢？

可能原因与对策：

原因	解决方案
使用CPU模式	切换至CUDA模式（需GPU支持）
模型过大	改用SenseVoice-Small模型
音频过长	分段上传，每段不超过5分钟
批量大小设置过高	调整为120~300秒区间