零代码启动ASR语音识别|科哥定制FunASR WebUI镜像使用指南

1. 快速开始:一键部署中文语音识别系统

1.1 镜像简介与核心价值

FunASR 是由阿里巴巴达摩院开源的高性能语音识别工具包,支持离线识别、实时流式识别、标点恢复、语音活动检测(VAD)等多种功能。本镜像基于官方 speech_ngram_lm_zh-cn 模型进行二次开发,由开发者“科哥”封装为即用型 WebUI 镜像,极大降低了本地部署门槛。

该镜像的核心优势在于:

  • 零代码启动:无需编写任何 Python 脚本或配置服务
  • 开箱即用:集成 Paraformer-Large 和 SenseVoice-Small 双模型
  • 多格式支持:兼容 WAV、MP3、M4A、FLAC 等主流音频格式
  • 全功能界面:提供上传识别、实时录音、结果导出等完整交互流程
  • GPU 加速优化:自动检测 CUDA 环境并启用 GPU 推理

适用于会议记录转写、视频字幕生成、语音笔记整理等实际场景。

1.2 启动与访问方式

镜像启动后,默认监听端口为 7860,可通过以下地址访问:

http://localhost:7860

若在远程服务器上运行,可通过公网 IP 访问:

http://<服务器IP>:7860

无需额外安装依赖或编译源码,真正实现“拉取即用”。


2. 界面功能详解

2.1 头部信息区域

页面顶部展示应用的基本信息:

  • 标题:FunASR 语音识别 WebUI
  • 描述:基于 FunASR 的中文语音识别系统
  • 版权信息:webUI二次开发 by 科哥 | 微信:312088415

此部分为固定展示内容,保留原始开发者信息以示尊重。

2.2 控制面板(左侧)

2.2.1 模型选择

支持两种预置模型切换:

  • Paraformer-Large:大参数量模型,识别精度高,适合对准确率要求高的场景
  • SenseVoice-Small:轻量级模型,响应速度快,适合实时性要求高的短语音识别

默认选中 SenseVoice-Small 模型,用户可根据需求手动切换。

2.2.2 设备选择

推理设备可自由切换:

  • CUDA:使用 GPU 进行加速推理(推荐有显卡用户)
  • CPU:纯 CPU 模式运行,兼容无独立显卡环境

系统会根据硬件自动判断是否启用 CUDA,确保最佳性能匹配。

2.2.3 功能开关

三个关键功能可独立启停:

  • 启用标点恢复 (PUNC):自动为识别文本添加逗号、句号等标点符号
  • 启用语音活动检测 (VAD):自动分割长音频中的有效语音段,跳过静音部分
  • 输出时间戳:在结果中显示每个词或句子的时间起止位置

建议开启 PUNC 和 VAD 提升识别质量,时间戳用于后续字幕制作。

2.2.4 模型状态指示

实时显示当前模型加载状态:

  • ✓ 模型已加载 —— 正常可用
  • ✗ 模型未加载 —— 需点击“加载模型”按钮初始化

首次启动时需手动加载一次模型,后续操作无需重复。

2.2.5 操作按钮
  • 加载模型:触发模型加载流程,重新初始化当前选中模型
  • 刷新:更新界面状态信息,检查设备和模型状态

3. 使用流程详解

3.1 方式一:上传音频文件识别

3.1.1 支持的音频格式

系统支持以下常见音频格式:

  • WAV (.wav)
  • MP3 (.mp3)
  • M4A (.m4a)
  • FLAC (.flac)
  • OGG (.ogg)
  • PCM (.pcm)

推荐使用 16kHz 采样率 的音频文件以获得最佳识别效果。非标准采样率的音频将被自动重采样处理。

3.1.2 文件上传步骤
  1. 在主界面找到 “ASR 语音识别” 区域
  2. 点击 "上传音频" 按钮
  3. 从本地选择符合格式的音频文件
  4. 等待上传完成(进度条提示)

上传成功后,音频将在前端预览区显示波形图。

3.1.3 参数配置说明
  • 批量大小(秒):默认值为 300 秒(5 分钟),表示每次处理的最大音频长度。范围为 60–600 秒,可用于控制内存占用。
  • 识别语言:支持多种语言选项:
    • auto —— 自动检测语言(推荐混合语种场景)
    • zh —— 中文普通话
    • en —— 英语
    • yue —— 粤语
    • ja —— 日语
    • ko —— 韩语

建议中文内容明确选择 zh,避免误判为其他语言。

3.1.4 开始识别与结果查看

点击 "开始识别" 按钮后,系统将调用后端模型进行推理,处理完成后返回结果。识别结果分为三个标签页展示:

文本结果

显示最终识别出的纯文本内容,支持复制粘贴直接使用。

详细信息

以 JSON 格式呈现完整识别数据,包含:

  • 识别文本
  • 时间戳区间
  • 各片段置信度分数
  • 语言类型判断

便于程序化处理或调试分析。

时间戳

按顺序列出每个词语或短句的起止时间,格式如下:

[序号] 开始时间 - 结束时间 (时长)

例如:

[001] 0.000s - 0.500s (时长: 0.500s)
[002] 0.500s - 2.500s (时长: 2.000s)

适用于视频剪辑定位、语音对齐等专业用途。


3.2 方式二:浏览器实时录音识别

3.2.1 录音准备

点击 "麦克风录音" 按钮,浏览器将弹出权限请求框,需点击 "允许" 授予麦克风访问权限。

注意:部分浏览器(如 Safari)可能限制 HTTPS 环境下才允许麦克风调用,请确保服务通过安全代理暴露。

3.2.2 录音与停止
  • 开始说话后,界面会出现声波动画反馈
  • 点击 "停止录音" 结束录制,音频将自动保存为临时 WAV 文件

录音最长支持 5 分钟,超时将自动终止。

3.2.3 实时识别流程

停止录音后,点击 "开始识别" 即可启动识别流程,后续步骤与上传文件完全一致。

该模式适合快速记录灵感、会议摘要等即时语音输入场景。


4. 结果下载与文件管理

4.1 下载功能说明

识别完成后,可通过三个按钮下载不同格式的结果:

按钮 文件格式 用途
下载文本 .txt 纯文本,适合导入文档编辑器
下载 JSON .json 完整结构化数据,便于二次开发
下载 SRT .srt 视频字幕文件,兼容主流播放器

所有文件均打包为 ZIP 压缩包供下载。

4.2 输出目录结构

每次识别会在本地生成一个带时间戳的输出目录,路径为:

outputs/outputs_YYYYMMDDHHMMSS/

例如:

outputs/outputs_20260104123456/
├── audio_001.wav      # 原始音频副本
├── result_001.json    # JSON 格式结果
├── text_001.txt       # 纯文本结果
└── subtitle_001.srt   # SRT 字幕文件

每项任务独立存储,避免文件覆盖,方便归档管理。


5. 高级功能设置

5.1 批量大小调整策略

  • 小批量(60–120秒):适用于低显存设备(如 4GB GPU),降低内存压力
  • 中等批量(180–300秒):平衡速度与资源消耗,通用推荐设置
  • 大批量(300–600秒):适合高性能 GPU,提升长音频处理效率

建议根据设备性能动态调整,避免因内存溢出导致服务崩溃。

5.2 语言识别最佳实践

场景 推荐语言设置
普通话演讲 zh
英文访谈 en
粤语对话 yue
中英混杂 auto
多语种会议 auto

手动指定语言可显著提高特定语种的识别准确率,减少跨语言干扰。

5.3 时间戳应用场景

启用时间戳后,可支持以下高级用途:

  • 视频字幕同步:将 .srt 文件导入 Premiere 或 Final Cut Pro 实现自动字幕嵌入
  • 语音内容检索:结合时间戳快速定位某句话出现的位置
  • 教学材料标注:标记课程讲解中重点段落的时间节点

是构建智能音视频处理流水线的关键能力。


6. 常见问题与解决方案

6.1 识别结果不准确

可能原因及对策:

  1. 语言设置错误 → 明确选择对应语言或使用 auto
  2. 音频质量差 → 使用降噪软件预处理(如 Adobe Audition)
  3. 背景噪音大 → 启用 VAD 并关闭无关声源
  4. 发音模糊 → 保持清晰语速,避免吞音

建议优先尝试 Paraformer-Large 模型提升精度。

6.2 识别速度慢

排查方向:

  1. 是否使用 CPU 模式?→ 切换至 CUDA 设备
  2. 音频是否过长?→ 分段处理或减小批量大小
  3. 模型是否过大?→ 切换为 SenseVoice-Small 模型

GPU 用户应确认驱动正常且 PyTorch 已正确绑定 CUDA。

6.3 无法上传音频文件

检查清单:

  • 文件格式是否在支持列表内(优先使用 MP3/WAV)
  • 文件大小是否超过 100MB 限制
  • 浏览器是否存在兼容性问题(建议使用 Chrome/Firefox)

大文件建议先压缩后再上传。

6.4 录音无声或中断

解决方法:

  • 确认浏览器已授予麦克风权限
  • 检查操作系统音频设置中麦克风是否启用
  • 测试其他录音软件验证硬件正常
  • 尝试重启浏览器或更换设备

部分笔记本需手动开启麦克风开关。

6.5 输出乱码或异常字符

处理建议:

  • 确保音频编码为标准 PCM 或 MP3 编码
  • 尝试转换为 WAV 格式再上传
  • 检查是否包含非语音信号(如音乐、铃声)

复杂编码可能导致解码失败。

6.6 提高识别准确率的综合建议

  1. 使用 16kHz 采样率、单声道 的音频文件
  2. 保持安静环境,减少背景噪声
  3. 发音清晰,避免过快语速
  4. 优先选用高质量麦克风录制
  5. 对专业术语可考虑后期人工校正

对于重要会议或正式场合,建议双模型交叉验证结果。


7. 服务管理与退出

7.1 停止 WebUI 服务

在运行终端中按下快捷键:

Ctrl + C

或执行命令强制终止进程:

pkill -f "python.*app.main"

停止后容器将退出,资源释放。

7.2 快捷键汇总

操作 快捷键
停止服务 Ctrl + C
刷新页面 F5 或 Ctrl + R
复制文本 Ctrl + C
全选文本 Ctrl + A

提升日常操作效率。


8. 技术支持与反馈渠道

  • 开发者:科哥
  • 联系方式:微信 312088415
  • 问题反馈要求:请提供完整的操作步骤、错误截图、音频样本(如有)、设备信息(CPU/GPU型号)

承诺永久开源使用,欢迎社区共建。


9. 更新日志与版本信息

v1.0.0 (2026-01-04)

  • ✅ 首次发布版本
  • ✅ 支持中文语音识别(zh)
  • ✅ 支持多语言自动检测(auto)
  • ✅ 支持主流音频格式上传
  • ✅ 支持浏览器内实时录音
  • ✅ 支持 TXT/JSON/SRT 多格式导出
  • ✅ 采用紫蓝渐变主题 UI 设计

未来计划增加热词自定义、批量任务队列、API 接口开放等功能。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐