支持实时录音与批量处理|科哥开发的FunASR语音识别WebUI使用指南

1. 快速开始与访问方式

1.1 服务启动与访问地址

在成功部署 FunASR 语音识别 WebUI 后,系统将自动启动基于 Gradio 的可视化界面。用户可通过以下地址访问:

http://localhost:7860

若需从远程设备访问,请替换 localhost 为服务器的实际 IP 地址:

http://<服务器IP>:7860

该 WebUI 基于 Paraformer-Large 和 SenseVoice-Small 模型构建,支持中文、英文、粤语、日语、韩语等多种语言识别,并集成了标点恢复、语音活动检测(VAD)和时间戳输出等实用功能。


2. 界面功能详解

2.1 头部信息区域

页面顶部展示核心标识信息: - 应用名称:FunASR 语音识别 WebUI - 功能描述:基于 FunASR 的中文语音识别系统 - 版权信息:webUI二次开发 by 科哥 | 微信:312088415

此部分为固定展示内容,便于用户确认当前运行环境来源。

2.2 控制面板功能说明

左侧控制面板包含模型配置与操作控制模块,是实现精准识别的关键设置区。

模型选择

提供两种主流 ASR 模型供切换: - Paraformer-Large:大参数量模型,识别精度高,适合对准确率要求高的场景 - SenseVoice-Small:轻量化模型,响应速度快,适合实时交互或资源受限环境(默认)

设备运行模式
  • CUDA:启用 GPU 加速推理(推荐有 NVIDIA 显卡时使用)
  • CPU:纯 CPU 推理模式,兼容无独立显卡设备

系统会根据硬件自动推荐最优选项,用户也可手动调整。

功能开关配置
  • 启用标点恢复 (PUNC):开启后自动为识别文本添加句号、逗号等标点符号
  • 启用语音活动检测 (VAD):自动分割静音段落,提升长音频处理效率
  • 输出时间戳:生成每句话或词的时间区间,适用于字幕制作与音频剪辑定位
模型状态显示

实时反馈当前模型加载情况: - ✓ 模型已成功加载 - ✗ 模型未加载或加载失败

操作按钮
  • 加载模型:手动触发模型初始化或重新加载以更新配置
  • 刷新:刷新当前状态信息,排查异常问题

3. 使用流程详解

3.1 方式一:上传音频文件进行识别

步骤 1:准备支持格式的音频文件

系统支持多种常见音频格式输入,包括: - WAV (.wav) - MP3 (.mp3) - M4A (.m4a) - FLAC (.flac) - OGG (.ogg) - PCM (.pcm)

建议采样率为 16kHz,确保最佳识别效果。单个文件最大支持长度由“批量大小”参数决定,默认最长可处理 300 秒(5 分钟)音频。

步骤 2:上传音频文件

进入主界面的 “ASR 语音识别” 区域,点击 "上传音频" 按钮,选择本地文件并等待上传完成。上传成功后,波形图将自动预览。

步骤 3:配置识别参数
参数项 可选值 推荐设置
批量大小(秒) 60 - 600 默认 300
识别语言 auto, zh, en, yue, ja, ko 中文推荐 zhauto

提示:对于多语种混合内容,建议选择 auto 实现自动语言检测;若明确为单一语言,则指定对应语言可提高识别准确率。

步骤 4:启动识别任务

点击 "开始识别" 按钮,系统将调用选定模型进行语音转写。处理时间取决于音频长度、模型类型及运行设备性能。

步骤 5:查看识别结果

识别完成后,结果将以三个标签页形式呈现:

文本结果

显示最终生成的纯文本内容,支持一键复制到剪贴板。

详细信息

返回完整的 JSON 结构数据,包含: - 识别文本 - 各片段置信度得分 - 时间戳范围(起始/结束时间) - 分词边界信息

时间戳

[序号] 开始时间 - 结束时间 (时长) 格式列出每个语义单元的时间位置,便于后期编辑定位。


3.2 方式二:浏览器端实时录音识别

步骤 1:授权麦克风权限

点击 "麦克风录音" 按钮后,浏览器将弹出权限请求框。请务必点击 "允许",否则无法采集声音信号。

步骤 2:录制语音输入

允许权限后,即可开始说话。录音过程中会有视觉反馈指示音量强度。点击 "停止录音" 结束录制。

步骤 3:执行在线识别

录音结束后,无需额外上传,直接点击 "开始识别" 即可启动转写流程。

步骤 4:获取实时识别结果

结果展示方式与上传文件一致,支持文本、JSON 和时间戳三种视图,满足不同用途需求。

优势说明:该功能完全在客户端完成录音,不依赖第三方插件,保障用户隐私安全。


4. 结果导出与文件管理

4.1 多格式结果下载

识别完成后,可通过下方按钮下载不同格式的结果文件:

下载按钮 输出格式 典型应用场景
下载文本 .txt 内容整理、文档归档
下载 JSON .json 程序解析、二次开发
下载 SRT .srt 视频字幕嵌入、剪辑同步

所有输出均保留原始时间信息,SRT 文件符合标准字幕规范,可直接导入 Premiere、Final Cut Pro 等视频编辑软件。

4.2 输出目录结构

每次识别任务都会创建一个独立的时间戳命名文件夹,路径如下:

outputs/outputs_YYYYMMDDHHMMSS/

示例目录结构:

outputs/outputs_20260104123456/
├── audio_001.wav          # 原始音频副本
├── result_001.json        # 完整识别结果(JSON)
├── text_001.txt           # 纯文本结果
└── subtitle_001.srt       # SRT 字幕文件

设计优点:按时间隔离输出,避免文件覆盖,方便追溯历史记录。


5. 高级功能配置指南

5.1 批量大小调节策略

“批量大小”参数决定了模型一次处理的最大音频时长(单位:秒),其设置直接影响内存占用与处理效率。

设置建议 适用场景
60-120 秒 显存较小的 GPU 或低配 CPU 设备
300 秒(默认) 平衡性能与资源消耗的通用设置
600 秒 高性能 GPU 上处理长录音(如会议、讲座)

注意:过大的批量可能导致 OOM(内存溢出),建议根据设备能力逐步测试调整。

5.2 语言识别优化建议

正确设置语言选项能显著提升识别准确率:

语言类型 推荐设置
普通话 zh
英文演讲 en
粤语对话 yue
日语访谈 ja
中英混杂 auto

当使用 auto 模式时,系统会自动判断主要语言并切换模型分支,适合不确定语种或混合语言场景。

5.3 时间戳输出应用场景

启用“输出时间戳”功能后,系统将在结果中附加精确到毫秒的时间信息,典型用途包括: - 自动生成视频字幕(SRT) - 音频剪辑中的关键节点标记 - 讲话人分离前的数据预处理 - 教学材料的重点段落索引


6. 常见问题与解决方案

6.1 识别结果不准确

可能原因分析: - 音频背景噪音较大 - 发音模糊或语速过快 - 语言设置错误 - 音频编码异常

解决方法: 1. 使用降噪工具(如 Audacity)预处理音频 2. 调整发音清晰度,保持适中语速 3. 明确选择目标语言而非依赖自动检测 4. 将音频转换为标准 WAV 或 MP3 格式再上传


6.2 识别速度慢

性能瓶颈排查: - 是否运行在 CPU 模式?建议优先使用 CUDA - 音频是否过长?建议分段处理超过 10 分钟的内容 - 当前模型是否为 Paraformer-Large?可尝试切换至 SenseVoice-Small 提升速度

优化建议: - 在高性能 GPU 上运行 Paraformer-Large 以兼顾精度与速度 - 对实时性要求高的场景,选用 SenseVoice-Small 模型


6.3 无法上传音频文件

检查清单: - 文件格式是否在支持列表内(WAV/MP3/M4A/FLAC/OGG/PCM) - 文件体积是否过大(建议小于 100MB) - 浏览器是否存在兼容性问题(推荐 Chrome/Firefox 最新版)


6.4 录音无声或无法启动

故障排查步骤: 1. 确认浏览器已授予麦克风权限 2. 检查操作系统麦克风是否被其他程序占用 3. 测试系统录音功能是否正常(可用系统自带录音机验证) 4. 调整麦克风输入增益,避免音量过低


6.5 输出文本出现乱码

处理方案: - 确保选择正确的语言模型(如中文应选 zh) - 检查音频是否包含非语音内容(如音乐、噪声) - 尝试重新导出为 UTF-8 编码的 TXT 文件


6.6 提升识别准确率的最佳实践

实践建议 说明
使用 16kHz 采样率音频 匹配模型训练数据分布
减少环境噪音 提高信噪比,降低误识别
清晰发音,避免吞音 有助于声学模型捕捉特征
合理选择语言模式 特别是方言或小语种内容

7. 服务管理与退出方式

7.1 停止 WebUI 服务

在终端中按下快捷键:

Ctrl + C

或通过命令强制终止进程:

pkill -f "python.*app.main"

提醒:关闭服务后,Web 页面将无法访问,需重新启动方可使用。


8. 快捷键与技术支持

8.1 常用快捷键汇总

操作 快捷键
终止服务 Ctrl + C
刷新页面 F5 或 Ctrl + R
复制文本 Ctrl + C

8.2 技术支持渠道

  • 开发者:科哥
  • 联系方式:微信:312088415
  • 反馈要求:请提供具体操作步骤、错误截图及日志信息,以便快速定位问题

9. 更新日志与未来展望

9.1 当前版本特性(v1.0.0 - 2026-01-04)

  • ✅ 首次公开发布
  • ✅ 支持中文语音识别(Paraformer & SenseVoice)
  • ✅ 支持多格式音频上传(WAV/MP3/M4A/FLAC/OGG/PCM)
  • ✅ 实现浏览器端实时录音功能
  • ✅ 提供 TXT/JSON/SRT 三类结果导出
  • ✅ 采用紫蓝渐变主题 UI,提升用户体验

9.2 后续迭代方向

  • 支持热词自定义注入
  • 增加说话人分离功能
  • 集成 ITN(Inverse Text Normalization)数字规范化
  • 提供 RESTful API 接口供外部调用

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐