支持实时录音与批量处理｜科哥开发的FunASR语音识别WebUI使用指南

本文介绍了基于“星图GPU”平台自动化部署FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥镜像的方法，支持实时录音与批量音频转写。该镜像可广泛应用于语音转文字、视频字幕生成等场景，结合WebUI实现高效AI语音处理。

一曲歌长安

289人浏览 · 2026-01-15 05:51:34

一曲歌长安 · 2026-01-15 05:51:34 发布

支持实时录音与批量处理｜科哥开发的FunASR语音识别WebUI使用指南

1. 快速开始与访问方式

1.1 服务启动与访问地址

在成功部署 FunASR 语音识别 WebUI 后，系统将自动启动基于 Gradio 的可视化界面。用户可通过以下地址访问：

http://localhost:7860

若需从远程设备访问，请替换 localhost 为服务器的实际 IP 地址：

http://<服务器IP>:7860

该 WebUI 基于 Paraformer-Large 和 SenseVoice-Small 模型构建，支持中文、英文、粤语、日语、韩语等多种语言识别，并集成了标点恢复、语音活动检测（VAD）和时间戳输出等实用功能。

2. 界面功能详解

2.1 头部信息区域

页面顶部展示核心标识信息： - 应用名称：FunASR 语音识别 WebUI - 功能描述：基于 FunASR 的中文语音识别系统 - 版权信息：webUI二次开发 by 科哥 | 微信：312088415

此部分为固定展示内容，便于用户确认当前运行环境来源。

2.2 控制面板功能说明

左侧控制面板包含模型配置与操作控制模块，是实现精准识别的关键设置区。

模型选择

提供两种主流 ASR 模型供切换： - Paraformer-Large：大参数量模型，识别精度高，适合对准确率要求高的场景 - SenseVoice-Small：轻量化模型，响应速度快，适合实时交互或资源受限环境（默认）

设备运行模式

CUDA：启用 GPU 加速推理（推荐有 NVIDIA 显卡时使用）
CPU：纯 CPU 推理模式，兼容无独立显卡设备

系统会根据硬件自动推荐最优选项，用户也可手动调整。

功能开关配置

启用标点恢复 (PUNC)：开启后自动为识别文本添加句号、逗号等标点符号
启用语音活动检测 (VAD)：自动分割静音段落，提升长音频处理效率
输出时间戳：生成每句话或词的时间区间，适用于字幕制作与音频剪辑定位

模型状态显示

实时反馈当前模型加载情况： - ✓ 模型已成功加载 - ✗ 模型未加载或加载失败

操作按钮

加载模型：手动触发模型初始化或重新加载以更新配置
刷新：刷新当前状态信息，排查异常问题

3. 使用流程详解

3.1 方式一：上传音频文件进行识别

步骤 1：准备支持格式的音频文件

系统支持多种常见音频格式输入，包括： - WAV (.wav) - MP3 (.mp3) - M4A (.m4a) - FLAC (.flac) - OGG (.ogg) - PCM (.pcm)

建议采样率为 16kHz，确保最佳识别效果。单个文件最大支持长度由“批量大小”参数决定，默认最长可处理 300 秒（5 分钟）音频。

步骤 2：上传音频文件

进入主界面的 “ASR 语音识别” 区域，点击 "上传音频" 按钮，选择本地文件并等待上传完成。上传成功后，波形图将自动预览。

步骤 3：配置识别参数

参数项	可选值	推荐设置
批量大小（秒）	60 - 600	默认 300
识别语言	auto, zh, en, yue, ja, ko	中文推荐 `zh` 或 `auto`

提示：对于多语种混合内容，建议选择 auto 实现自动语言检测；若明确为单一语言，则指定对应语言可提高识别准确率。

步骤 4：启动识别任务

点击 "开始识别" 按钮，系统将调用选定模型进行语音转写。处理时间取决于音频长度、模型类型及运行设备性能。

步骤 5：查看识别结果

识别完成后，结果将以三个标签页形式呈现：

文本结果

显示最终生成的纯文本内容，支持一键复制到剪贴板。

详细信息

返回完整的 JSON 结构数据，包含： - 识别文本 - 各片段置信度得分 - 时间戳范围（起始/结束时间） - 分词边界信息

时间戳

以 [序号] 开始时间 - 结束时间 (时长) 格式列出每个语义单元的时间位置，便于后期编辑定位。

3.2 方式二：浏览器端实时录音识别

步骤 1：授权麦克风权限

点击 "麦克风录音" 按钮后，浏览器将弹出权限请求框。请务必点击 "允许"，否则无法采集声音信号。

步骤 2：录制语音输入

允许权限后，即可开始说话。录音过程中会有视觉反馈指示音量强度。点击 "停止录音" 结束录制。

步骤 3：执行在线识别

录音结束后，无需额外上传，直接点击 "开始识别" 即可启动转写流程。

步骤 4：获取实时识别结果

结果展示方式与上传文件一致，支持文本、JSON 和时间戳三种视图，满足不同用途需求。

优势说明：该功能完全在客户端完成录音，不依赖第三方插件，保障用户隐私安全。

4. 结果导出与文件管理

4.1 多格式结果下载

识别完成后，可通过下方按钮下载不同格式的结果文件：

下载按钮	输出格式	典型应用场景
下载文本	.txt	内容整理、文档归档
下载 JSON	.json	程序解析、二次开发
下载 SRT	.srt	视频字幕嵌入、剪辑同步

所有输出均保留原始时间信息，SRT 文件符合标准字幕规范，可直接导入 Premiere、Final Cut Pro 等视频编辑软件。

4.2 输出目录结构

每次识别任务都会创建一个独立的时间戳命名文件夹，路径如下：

outputs/outputs_YYYYMMDDHHMMSS/

示例目录结构：

outputs/outputs_20260104123456/
├── audio_001.wav          # 原始音频副本
├── result_001.json        # 完整识别结果（JSON）
├── text_001.txt           # 纯文本结果
└── subtitle_001.srt       # SRT 字幕文件

设计优点：按时间隔离输出，避免文件覆盖，方便追溯历史记录。

5. 高级功能配置指南

5.1 批量大小调节策略

“批量大小”参数决定了模型一次处理的最大音频时长（单位：秒），其设置直接影响内存占用与处理效率。

设置建议	适用场景
60-120 秒	显存较小的 GPU 或低配 CPU 设备
300 秒（默认）	平衡性能与资源消耗的通用设置
600 秒	高性能 GPU 上处理长录音（如会议、讲座）

注意：过大的批量可能导致 OOM（内存溢出），建议根据设备能力逐步测试调整。

5.2 语言识别优化建议

正确设置语言选项能显著提升识别准确率：

语言类型	推荐设置
普通话	`zh`
英文演讲	`en`
粤语对话	`yue`
日语访谈	`ja`
中英混杂	`auto`

当使用 auto 模式时，系统会自动判断主要语言并切换模型分支，适合不确定语种或混合语言场景。

5.3 时间戳输出应用场景

启用“输出时间戳”功能后，系统将在结果中附加精确到毫秒的时间信息，典型用途包括： - 自动生成视频字幕（SRT） - 音频剪辑中的关键节点标记 - 讲话人分离前的数据预处理 - 教学材料的重点段落索引

6. 常见问题与解决方案

6.1 识别结果不准确

可能原因分析： - 音频背景噪音较大 - 发音模糊或语速过快 - 语言设置错误 - 音频编码异常

解决方法： 1. 使用降噪工具（如 Audacity）预处理音频 2. 调整发音清晰度，保持适中语速 3. 明确选择目标语言而非依赖自动检测 4. 将音频转换为标准 WAV 或 MP3 格式再上传

6.2 识别速度慢

性能瓶颈排查： - 是否运行在 CPU 模式？建议优先使用 CUDA - 音频是否过长？建议分段处理超过 10 分钟的内容 - 当前模型是否为 Paraformer-Large？可尝试切换至 SenseVoice-Small 提升速度

优化建议： - 在高性能 GPU 上运行 Paraformer-Large 以兼顾精度与速度 - 对实时性要求高的场景，选用 SenseVoice-Small 模型

6.3 无法上传音频文件

检查清单： - 文件格式是否在支持列表内（WAV/MP3/M4A/FLAC/OGG/PCM） - 文件体积是否过大（建议小于 100MB） - 浏览器是否存在兼容性问题（推荐 Chrome/Firefox 最新版）

6.4 录音无声或无法启动

故障排查步骤： 1. 确认浏览器已授予麦克风权限 2. 检查操作系统麦克风是否被其他程序占用 3. 测试系统录音功能是否正常（可用系统自带录音机验证） 4. 调整麦克风输入增益，避免音量过低

6.5 输出文本出现乱码

处理方案： - 确保选择正确的语言模型（如中文应选 zh） - 检查音频是否包含非语音内容（如音乐、噪声） - 尝试重新导出为 UTF-8 编码的 TXT 文件

6.6 提升识别准确率的最佳实践

实践建议	说明
使用 16kHz 采样率音频	匹配模型训练数据分布
减少环境噪音	提高信噪比，降低误识别
清晰发音，避免吞音	有助于声学模型捕捉特征
合理选择语言模式	特别是方言或小语种内容

7. 服务管理与退出方式

7.1 停止 WebUI 服务

在终端中按下快捷键：

Ctrl + C

或通过命令强制终止进程：

pkill -f "python.*app.main"

提醒：关闭服务后，Web 页面将无法访问，需重新启动方可使用。

8. 快捷键与技术支持

8.1 常用快捷键汇总

操作	快捷键
终止服务	Ctrl + C
刷新页面	F5 或 Ctrl + R
复制文本	Ctrl + C

8.2 技术支持渠道

开发者：科哥
联系方式：微信：312088415
反馈要求：请提供具体操作步骤、错误截图及日志信息，以便快速定位问题

9. 更新日志与未来展望

9.1 当前版本特性（v1.0.0 - 2026-01-04）

✅ 首次公开发布
✅ 支持中文语音识别（Paraformer & SenseVoice）
✅ 支持多格式音频上传（WAV/MP3/M4A/FLAC/OGG/PCM）
✅ 实现浏览器端实时录音功能
✅ 提供 TXT/JSON/SRT 三类结果导出
✅ 采用紫蓝渐变主题 UI，提升用户体验

9.2 后续迭代方向

支持热词自定义注入
增加说话人分离功能
集成 ITN（Inverse Text Normalization）数字规范化
提供 RESTful API 接口供外部调用

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

“不可替代内容”=GEO 核心：AI 抄不走的经验、数据、案例

当 Gemini、各类生成式 AI 全面渗透谷歌搜索，GEO（生成式引擎优化）正式从可选玩法变成所有英文独立站、跨境站点、垂直内容站的必做项之后，行业里出现了一种普遍的焦虑：AI 可以在几秒内生成一篇完整文案、整理行业知识、仿写页面内容，人工创作的常规内容正在快速失去竞争力。把亲自使用总结的经验、反复测试得出的数据、一步步落地的案例，转化为网站内容，既能补齐 E-E-A-T 四大维度的评分短板，建

AI Agent技术社区

零信任，验证一切！Anthropic发布企业自主智能体安全白皮书

AI Agent 正在接管越来越多的事务，从搜索网页、综合信息到调用数据库、操作文件系统，全程无需人工介入。Anthropic 刚发布了 Zero Trust 安全白皮书：Zero Trust for AI Agents（对AI智能体零信任）。白皮书提出了一个尖锐的问题：当 Agent 能以机器速度行动，你的安全体系跟得上吗？白皮书内容梳理了包括 Agent 面临的新威胁、六个安全能力域的三级路线