零代码启动ASR语音识别｜科哥定制FunASR WebUI镜像使用指南

本文介绍了如何在星图GPU平台自动化部署“FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥”镜像，实现零代码启动中文语音识别系统。该镜像支持WebUI交互式操作，适用于会议记录转写、视频字幕生成等场景，用户可快速完成音频上传、实时录音识别及结果导出，显著提升AI语音应用开发效率。

爱军习武

153人浏览 · 2026-01-20 07:41:24

爱军习武 · 2026-01-20 07:41:24 发布

零代码启动ASR语音识别｜科哥定制FunASR WebUI镜像使用指南

1. 快速开始：一键部署中文语音识别系统

1.1 镜像简介与核心价值

FunASR 是由阿里巴巴达摩院开源的高性能语音识别工具包，支持离线识别、实时流式识别、标点恢复、语音活动检测（VAD）等多种功能。本镜像基于官方 speech_ngram_lm_zh-cn 模型进行二次开发，由开发者“科哥”封装为即用型 WebUI 镜像，极大降低了本地部署门槛。

该镜像的核心优势在于：

零代码启动：无需编写任何 Python 脚本或配置服务
开箱即用：集成 Paraformer-Large 和 SenseVoice-Small 双模型
多格式支持：兼容 WAV、MP3、M4A、FLAC 等主流音频格式
全功能界面：提供上传识别、实时录音、结果导出等完整交互流程
GPU 加速优化：自动检测 CUDA 环境并启用 GPU 推理

适用于会议记录转写、视频字幕生成、语音笔记整理等实际场景。

1.2 启动与访问方式

镜像启动后，默认监听端口为 7860，可通过以下地址访问：

http://localhost:7860

若在远程服务器上运行，可通过公网 IP 访问：

http://<服务器IP>:7860

无需额外安装依赖或编译源码，真正实现“拉取即用”。

2. 界面功能详解

2.1 头部信息区域

页面顶部展示应用的基本信息：

标题：FunASR 语音识别 WebUI
描述：基于 FunASR 的中文语音识别系统
版权信息：webUI二次开发 by 科哥 | 微信：312088415

此部分为固定展示内容，保留原始开发者信息以示尊重。

2.2 控制面板（左侧）

2.2.1 模型选择

支持两种预置模型切换：

Paraformer-Large：大参数量模型，识别精度高，适合对准确率要求高的场景
SenseVoice-Small：轻量级模型，响应速度快，适合实时性要求高的短语音识别

默认选中 SenseVoice-Small 模型，用户可根据需求手动切换。

2.2.2 设备选择

推理设备可自由切换：

CUDA：使用 GPU 进行加速推理（推荐有显卡用户）
CPU：纯 CPU 模式运行，兼容无独立显卡环境

系统会根据硬件自动判断是否启用 CUDA，确保最佳性能匹配。

2.2.3 功能开关

三个关键功能可独立启停：

启用标点恢复 (PUNC)：自动为识别文本添加逗号、句号等标点符号
启用语音活动检测 (VAD)：自动分割长音频中的有效语音段，跳过静音部分
输出时间戳：在结果中显示每个词或句子的时间起止位置

建议开启 PUNC 和 VAD 提升识别质量，时间戳用于后续字幕制作。

2.2.4 模型状态指示

实时显示当前模型加载状态：

✓ 模型已加载 —— 正常可用
✗ 模型未加载 —— 需点击“加载模型”按钮初始化

首次启动时需手动加载一次模型，后续操作无需重复。

2.2.5 操作按钮

加载模型：触发模型加载流程，重新初始化当前选中模型
刷新：更新界面状态信息，检查设备和模型状态

3. 使用流程详解

3.1 方式一：上传音频文件识别

3.1.1 支持的音频格式

系统支持以下常见音频格式：

WAV (.wav)
MP3 (.mp3)
M4A (.m4a)
FLAC (.flac)
OGG (.ogg)
PCM (.pcm)

推荐使用 16kHz 采样率 的音频文件以获得最佳识别效果。非标准采样率的音频将被自动重采样处理。

3.1.2 文件上传步骤

在主界面找到 “ASR 语音识别” 区域
点击 "上传音频" 按钮
从本地选择符合格式的音频文件
等待上传完成（进度条提示）

上传成功后，音频将在前端预览区显示波形图。

3.1.3 参数配置说明

批量大小（秒）：默认值为 300 秒（5 分钟），表示每次处理的最大音频长度。范围为 60–600 秒，可用于控制内存占用。
识别语言：支持多种语言选项：
- auto —— 自动检测语言（推荐混合语种场景）
- zh —— 中文普通话
- en —— 英语
- yue —— 粤语
- ja —— 日语
- ko —— 韩语

建议中文内容明确选择 zh，避免误判为其他语言。

3.1.4 开始识别与结果查看

点击 "开始识别" 按钮后，系统将调用后端模型进行推理，处理完成后返回结果。识别结果分为三个标签页展示：

文本结果

显示最终识别出的纯文本内容，支持复制粘贴直接使用。

详细信息

以 JSON 格式呈现完整识别数据，包含：

识别文本
时间戳区间
各片段置信度分数
语言类型判断

便于程序化处理或调试分析。

时间戳

按顺序列出每个词语或短句的起止时间，格式如下：

[序号] 开始时间 - 结束时间 (时长)

例如：

[001] 0.000s - 0.500s (时长: 0.500s)
[002] 0.500s - 2.500s (时长: 2.000s)

适用于视频剪辑定位、语音对齐等专业用途。

3.2 方式二：浏览器实时录音识别

3.2.1 录音准备

点击 "麦克风录音" 按钮，浏览器将弹出权限请求框，需点击 "允许" 授予麦克风访问权限。

注意：部分浏览器（如 Safari）可能限制 HTTPS 环境下才允许麦克风调用，请确保服务通过安全代理暴露。

3.2.2 录音与停止

开始说话后，界面会出现声波动画反馈
点击 "停止录音" 结束录制，音频将自动保存为临时 WAV 文件

录音最长支持 5 分钟，超时将自动终止。

3.2.3 实时识别流程

停止录音后，点击 "开始识别" 即可启动识别流程，后续步骤与上传文件完全一致。

该模式适合快速记录灵感、会议摘要等即时语音输入场景。

4. 结果下载与文件管理

4.1 下载功能说明

识别完成后，可通过三个按钮下载不同格式的结果：

按钮	文件格式	用途
下载文本	.txt	纯文本，适合导入文档编辑器
下载 JSON	.json	完整结构化数据，便于二次开发
下载 SRT	.srt	视频字幕文件，兼容主流播放器

所有文件均打包为 ZIP 压缩包供下载。

4.2 输出目录结构

每次识别会在本地生成一个带时间戳的输出目录，路径为：

outputs/outputs_YYYYMMDDHHMMSS/

例如：

outputs/outputs_20260104123456/
├── audio_001.wav      # 原始音频副本
├── result_001.json    # JSON 格式结果
├── text_001.txt       # 纯文本结果
└── subtitle_001.srt   # SRT 字幕文件

每项任务独立存储，避免文件覆盖，方便归档管理。

5. 高级功能设置

5.1 批量大小调整策略

小批量（60–120秒）：适用于低显存设备（如 4GB GPU），降低内存压力
中等批量（180–300秒）：平衡速度与资源消耗，通用推荐设置
大批量（300–600秒）：适合高性能 GPU，提升长音频处理效率

建议根据设备性能动态调整，避免因内存溢出导致服务崩溃。

5.2 语言识别最佳实践

场景	推荐语言设置
普通话演讲	`zh`
英文访谈	`en`
粤语对话	`yue`
中英混杂	`auto`
多语种会议	`auto`

手动指定语言可显著提高特定语种的识别准确率，减少跨语言干扰。

5.3 时间戳应用场景

启用时间戳后，可支持以下高级用途：

视频字幕同步：将 .srt 文件导入 Premiere 或 Final Cut Pro 实现自动字幕嵌入
语音内容检索：结合时间戳快速定位某句话出现的位置
教学材料标注：标记课程讲解中重点段落的时间节点

是构建智能音视频处理流水线的关键能力。

6. 常见问题与解决方案

6.1 识别结果不准确

可能原因及对策：

语言设置错误 → 明确选择对应语言或使用 auto
音频质量差 → 使用降噪软件预处理（如 Adobe Audition）
背景噪音大 → 启用 VAD 并关闭无关声源
发音模糊 → 保持清晰语速，避免吞音

建议优先尝试 Paraformer-Large 模型提升精度。

6.2 识别速度慢

排查方向：

是否使用 CPU 模式？→ 切换至 CUDA 设备
音频是否过长？→ 分段处理或减小批量大小
模型是否过大？→ 切换为 SenseVoice-Small 模型

GPU 用户应确认驱动正常且 PyTorch 已正确绑定 CUDA。

6.3 无法上传音频文件

检查清单：

文件格式是否在支持列表内（优先使用 MP3/WAV）
文件大小是否超过 100MB 限制
浏览器是否存在兼容性问题（建议使用 Chrome/Firefox）

大文件建议先压缩后再上传。

6.4 录音无声或中断

解决方法：

确认浏览器已授予麦克风权限
检查操作系统音频设置中麦克风是否启用
测试其他录音软件验证硬件正常
尝试重启浏览器或更换设备

部分笔记本需手动开启麦克风开关。

6.5 输出乱码或异常字符

处理建议：

确保音频编码为标准 PCM 或 MP3 编码
尝试转换为 WAV 格式再上传
检查是否包含非语音信号（如音乐、铃声）

复杂编码可能导致解码失败。

6.6 提高识别准确率的综合建议

使用 16kHz 采样率、单声道 的音频文件
保持安静环境，减少背景噪声
发音清晰，避免过快语速
优先选用高质量麦克风录制
对专业术语可考虑后期人工校正

对于重要会议或正式场合，建议双模型交叉验证结果。

7. 服务管理与退出

7.1 停止 WebUI 服务

在运行终端中按下快捷键：

Ctrl + C

或执行命令强制终止进程：

pkill -f "python.*app.main"

停止后容器将退出，资源释放。

7.2 快捷键汇总

操作	快捷键
停止服务	Ctrl + C
刷新页面	F5 或 Ctrl + R
复制文本	Ctrl + C
全选文本	Ctrl + A

提升日常操作效率。

8. 技术支持与反馈渠道

开发者：科哥
联系方式：微信 312088415
问题反馈要求：请提供完整的操作步骤、错误截图、音频样本（如有）、设备信息（CPU/GPU型号）

承诺永久开源使用，欢迎社区共建。

9. 更新日志与版本信息

v1.0.0 (2026-01-04)

✅ 首次发布版本
✅ 支持中文语音识别（zh）
✅ 支持多语言自动检测（auto）
✅ 支持主流音频格式上传
✅ 支持浏览器内实时录音
✅ 支持 TXT/JSON/SRT 多格式导出
✅ 采用紫蓝渐变主题 UI 设计

未来计划增加热词自定义、批量任务队列、API 接口开放等功能。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

Agent 工程中的模型缓存优化经验分享

AI Agent技术社区

CC-Switch不只是切换API：从GitHub更新日志看懂它的功能和底层原理

CC Switch：从配置切换器到AI编程统一管理平台摘要： CC Switch已从最初的Claude Code/Codex供应商切换工具，发展为功能全面的AI编程管理平台。它通过统一界面管理多个AI编程工具（Claude Code、Codex、Gemini CLI等）的配置，支持供应商切换、本地代理路由、跨工具能力同步等功能。核心演进包括：采用SSOT架构集中管理供应商数据、扩展支持6+工具、

AI Agent技术社区

告别手动写PoC！Gemini如何全方位赋能安全工程师自动化漏洞测试

在日常渗透测试、企业内网巡检中，经常会遇到未公开编号的自定义漏洞、小众组件漏洞，无现成PoC可参考。此时只需向Gemini输入漏洞核心特征，包括注入点位、请求路径、参数缺陷、权限漏洞、数据交互异常等关键信息，模型即可自主推导漏洞触发逻辑，针对性生成SQL注入、XSS跨站、文件上传、命令执行、路径遍历等各类自定义测试代码，满足个性化渗透测试需求。AI不会取代安全工程师，但熟练使用AI的安全工程师，将

AI Agent技术社区

所有评论(0)

查看更多评论

爱军习武

@weixin_32747681

已为社区贡献6条内容

零代码启动ASR语音识别｜科哥定制FunASR WebUI镜像使用指南

爱军习武

零代码启动ASR语音识别｜科哥定制FunASR WebUI镜像使用指南

1. 快速开始：一键部署中文语音识别系统

1.1 镜像简介与核心价值

1.2 启动与访问方式

2. 界面功能详解

2.1 头部信息区域

2.2 控制面板（左侧）

2.2.1 模型选择

2.2.2 设备选择

2.2.3 功能开关

2.2.4 模型状态指示

2.2.5 操作按钮

3. 使用流程详解

3.1 方式一：上传音频文件识别

3.1.1 支持的音频格式

3.1.2 文件上传步骤

3.1.3 参数配置说明

3.1.4 开始识别与结果查看

文本结果

详细信息

时间戳

3.2 方式二：浏览器实时录音识别

3.2.1 录音准备

3.2.2 录音与停止

3.2.3 实时识别流程

4. 结果下载与文件管理

4.1 下载功能说明

4.2 输出目录结构

5. 高级功能设置

5.1 批量大小调整策略

5.2 语言识别最佳实践

5.3 时间戳应用场景

6. 常见问题与解决方案

6.1 识别结果不准确

6.2 识别速度慢

6.3 无法上传音频文件

6.4 录音无声或中断

6.5 输出乱码或异常字符

6.6 提高识别准确率的综合建议

7. 服务管理与退出

7.1 停止 WebUI 服务

7.2 快捷键汇总

8. 技术支持与反馈渠道

9. 更新日志与版本信息

v1.0.0 (2026-01-04)

所有评论(0)

温馨提示：您尚未绑定手机号

爱军习武