告别复杂配置！FunASR语音识别WebUI保姆级教程，上传音频/实时录音都搞定

本文介绍了如何在星图GPU平台上自动化部署FunASR语音识别镜像（基于speech_ngram_lm_zh-cn二次开发构建by科哥），快速搭建开箱即用的语音识别WebUI服务。该服务支持上传音频文件或实时录音，可高效将语音转换为文字并生成字幕，极大地简化了会议记录、视频字幕制作等场景的语音转文本工作流程。

weixin_42613017

164人浏览 · 2026-03-07 01:18:26

weixin_42613017 · 2026-03-07 01:18:26 发布

告别复杂配置！FunASR语音识别WebUI保姆级教程，上传音频/实时录音都搞定

1. 引言：为什么你需要这个“开箱即用”的语音识别工具？

如果你曾经尝试过部署一个语音识别系统，大概率会被各种环境配置、模型下载、代码调试搞得焦头烂额。命令行、Python包、CUDA版本、依赖冲突……这些技术细节足以劝退大部分只想“用起来”的人。

今天我要介绍的，就是一个能让你彻底告别这些烦恼的解决方案——FunASR语音识别WebUI。

这是一个基于阿里达摩院开源的FunASR工具包，由开发者“科哥”进行了二次开发并封装成Docker镜像的语音识别系统。它最大的特点就是：简单。

有多简单？你只需要运行两条命令，打开浏览器，就能拥有一个功能完整的语音识别服务。无论是上传音频文件，还是直接用麦克风实时录音，都能一键转换成文字，还支持导出字幕文件。

更重要的是，这个镜像已经内置了专门针对中文优化的speech_ngram_lm_zh-cn语言模型。这意味着它在处理中文内容时，识别准确率更高，文本更符合我们的语言习惯。

接下来，我会手把手带你完成从零到一的完整部署和使用过程。即使你没有任何深度学习或语音识别经验，也能在10分钟内让这个系统跑起来。

2. 环境准备：你的电脑需要什么？

在开始之前，我们先看看需要准备些什么。其实要求很低，大部分现代电脑都能满足。

2.1 硬件和软件要求

项目	最低要求	推荐配置
操作系统	Windows 10 / macOS 10.15+ / Ubuntu 18.04+	Windows 11 / macOS 12+
CPU	Intel i5 或同等性能	Intel i7 / AMD Ryzen 7
内存	8 GB	16 GB 或更多
存储空间	10 GB 可用空间	20 GB 以上
显卡	集成显卡即可	NVIDIA GPU（用于加速）
关键软件	Docker Desktop	Docker Desktop 最新版

几个重要的说明：

关于显卡：有NVIDIA显卡（比如GTX 1060以上）的话，识别速度会快很多。没有也没关系，用CPU也能跑，只是稍微慢一点。
关于Docker：如果你还没安装Docker Desktop，去官网下载安装就行，过程很简单，一路点“下一步”就好。
关于存储：主要是用来存放模型文件，第一次运行时会自动下载，大概需要几个GB的空间。

2.2 创建本地文件夹（Windows用户特别注意）

为了让识别结果能保存到你的电脑上，而不是在容器里“消失”，我们需要创建一个本地文件夹。

打开命令行（CMD或PowerShell），执行：

# 在D盘创建FunASR文件夹（你也可以选其他盘）
mkdir D:\FunASR\model

这个D:\FunASR\model路径很重要，后面启动容器时会用到。它有两个作用：

存放下载的语音识别模型（避免重复下载）
保存你识别后的结果文件

如果你是Linux或macOS用户，命令稍微不同：

# Linux/macOS
mkdir -p /home/yourname/FunASR/model
# 或者
mkdir -p ~/FunASR/model

环境准备就这些，是不是很简单？接下来我们进入核心的部署环节。

3. 三步部署：让语音识别服务跑起来

整个部署过程只需要三步，我保证每一步都有详细的说明和截图。

3.1 第一步：拉取Docker镜像

打开命令行工具（Windows用户可以用PowerShell或CMD），输入以下命令：

docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.9

这个命令会从阿里云的镜像仓库下载科哥已经打包好的FunASR镜像。下载时间取决于你的网速，镜像大小约几个GB，一般10-30分钟能完成。

如果下载太慢怎么办？ 可以尝试设置Docker镜像加速器。在Docker Desktop的设置里，找到Docker Engine，修改配置：

{
  "registry-mirrors": [
    "https://docker.mirrors.ustc.edu.cn",
    "https://hub-mirror.c.163.com"
  ]
}

3.2 第二步：启动容器服务

镜像下载完成后，用这个命令启动服务：

docker run -p 7860:7860 -it --privileged=true -v D:\FunASR\model:/workspace/models registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.9

命令参数解释：

-p 7860:7860：把容器内部的7860端口映射到你电脑的7860端口
-v D:\FunASR\model:/workspace/models：把你刚才创建的文件夹挂载到容器里
--privileged=true：给容器更高的权限（避免一些设备访问问题）

注意：如果你用的是Linux或macOS，需要修改挂载路径：

# Linux/macOS版本
docker run -p 7860:7860 -it --privileged=true -v /home/yourname/FunASR/model:/workspace/models registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.9

执行后，你会看到一个命令行界面，表示已经进入了容器内部。

3.3 第三步：启动WebUI服务

在容器内部的命令行中，输入：

cd /workspace/FunASR/runtime/webui && python app.main.py

稍等几秒钟，你会看到类似这样的输出：

Running on local URL:  http://0.0.0.0:7860

这表示服务已经启动成功了！现在打开你的浏览器。

4. 访问与界面：看看这个工具长什么样

在浏览器地址栏输入：

http://localhost:7860

如果你是在另一台电脑上访问这个服务（比如服务器部署），就用服务器的IP地址：

http://你的服务器IP:7860

第一次打开页面时，系统需要加载语音识别模型，可能需要1-2分钟。看到“模型已加载”的提示后，就可以开始使用了。

4.1 界面布局一览

整个WebUI界面很简洁，分为左右两大块：

左侧是控制面板，包括：

模型选择（大模型还是小模型）
设备选择（用CPU还是GPU）
功能开关（要不要标点、要不要时间戳）
操作按钮（加载模型、刷新）

右侧是主要操作区，包括：

音频上传区域
录音按钮
识别参数设置
结果显示区域

界面顶部有醒目的标题：“FunASR 语音识别 WebUI”，下面还有一行小字写着“基于 FunASR 的中文语音识别系统”。最下面是开发者的信息：“webUI二次开发 by 科哥”。

4.2 控制面板详细说明

让我们仔细看看左侧每个设置的作用：

模型选择

Paraformer-Large：大模型，识别准确率更高，但需要更多内存，速度稍慢
SenseVoice-Small：小模型，速度快，资源占用少，适合实时录音

建议：第一次使用或做实时录音时，先用小模型。处理重要文件时，再换大模型。

设备选择

CUDA：如果你有NVIDIA显卡，选这个会快很多
CPU：没有显卡或显卡不支持时用这个

系统会自动检测，有显卡的话默认会选中CUDA。

功能开关（建议全部打开）

启用标点恢复 (PUNC)：自动给识别出的文字加标点，比如逗号、句号
启用语音活动检测 (VAD)：自动检测哪里是说话，哪里是静音，处理长音频时很有用
输出时间戳：记录每个词或每句话的开始和结束时间

操作按钮

加载模型：如果你切换了模型，点这个按钮重新加载
刷新：更新页面状态

了解完界面，接下来就是最实用的部分了——怎么用这个工具。

5. 实战操作：两种方式把语音变文字

这个工具提供了两种使用方式，都很简单。我先介绍最常用的“上传音频文件”。

5.1 方式一：上传音频文件识别（推荐给初学者）

步骤1：准备你的音频文件

系统支持很多常见的音频格式：

MP3 (.mp3) - 最常用
WAV (.wav) - 音质好，文件大
M4A (.m4a) - 苹果设备常用
FLAC (.flac) - 无损格式
OGG (.ogg)
PCM (.pcm)

给音频文件的小建议：

尽量用清晰的录音，背景噪音少一点
如果是会议录音，说话人离麦克风近一点
采样率16kHz效果最好（大部分手机录音就是这个参数）

步骤2：上传文件

在右侧区域找到“上传音频”按钮，点击后选择你的音频文件。也支持直接把文件拖拽到上传区域。

上传后，你会看到文件名显示在按钮下方。

步骤3：设置识别参数

这里有两个重要设置：

批量大小（秒）：默认是300秒，也就是5分钟。如果你的音频超过5分钟，系统会自动分成多段处理。一般不用改。
识别语言：
- auto - 自动检测语言（推荐）
- zh - 中文
- en - 英文
- yue - 粤语
- ja - 日语
- ko - 韩语

如果你确定是中文内容，选zh会更准。如果是中英混合，就选auto。

步骤4：开始识别

点击蓝色的“开始识别”按钮，然后就是等待了。

处理时间取决于：

音频长度（1分钟音频大概需要10-30秒）
你选的模型（大模型慢一点，小模型快一点）
有没有用GPU加速（用GPU能快3-5倍）

处理过程中，进度条会显示状态。

步骤5：查看和下载结果

识别完成后，结果会显示在下面，有三个标签页可以切换：

文本结果 就是纯文字，可以直接复制粘贴到Word、记事本里。

详细信息 JSON格式的完整数据，包含每个词的置信度、语言类型等信息。开发人员可能用得上。

时间戳 显示每个词或每句话的时间信息，格式是这样的：

[001] 0.000s - 0.500s (时长: 0.500s)
[002] 0.500s - 2.500s (时长: 2.000s)

这个特别有用，比如你要给视频加字幕，或者想快速找到录音的某个部分。

5.2 方式二：浏览器实时录音（适合快速记录）

如果你需要实时把说的话转成文字，比如会议记录、采访整理，这个功能就派上用场了。

步骤1：允许麦克风权限

点击“麦克风录音”按钮，浏览器会弹出一个提示，问你是否允许使用麦克风。一定要点“允许”。

如果没看到提示，可能是浏览器设置里禁用了。以Chrome为例，检查方法：

点击地址栏左边的小锁图标
选择“网站设置”
找到“麦克风”，确保是“允许”状态

步骤2：开始录音

允许权限后，就可以对着麦克风说话了。你可以说一段话，然后点击“停止录音”。

小技巧：

说话时离麦克风近一点
语速不要太快，清晰一点
避免背景噪音（比如风扇声、键盘声）

步骤3：识别录音

录音停止后，点击“开始识别”按钮，处理方式和上传文件一样。

步骤4：保存结果

识别完成后，你可以：

直接复制文字
下载为文本文件
下载为SRT字幕文件（给视频用）

两种方式都介绍完了，是不是比想象中简单？接下来我们看看怎么把识别结果保存下来。

6. 结果导出：三种格式满足不同需求

识别完成后，页面上有三个下载按钮，每个按钮对应不同的文件格式。

6.1 三种导出格式对比

按钮	文件格式	适合什么场景	文件内容示例
下载文本	.txt	直接阅读、复制到文档	`你好，欢迎使用语音识别系统。`
下载JSON	.json	程序调用、数据分析	`{"text": "你好，欢迎使用语音识别系统。", "confidence": 0.95, ...}`
下载SRT	.srt	视频字幕、剪辑软件	`1 00:00:00,000 --> 00:00:02,500 你好`

给不同用户的建议：

普通用户：下载.txt文件就够了，直接能用
视频创作者：下载.srt文件，导入剪映、Premiere就能自动加字幕
开发人员：下载.json文件，里面有完整的时间戳和置信度数据

6.2 文件保存到哪里了？

还记得我们最开始创建的D:\FunASR\model文件夹吗？所有识别结果都保存在这里的outputs子文件夹里。

每次识别都会创建一个带时间戳的新文件夹，比如：

D:\FunASR\model\outputs\outputs_20240115_143022\
├── audio_001.wav      # 你上传的音频（系统保存了一份）
├── result_001.json    # JSON格式的完整结果
├── text_001.txt       # 纯文本结果
└── subtitle_001.srt   # SRT字幕文件

这样设计的好处是：

不会覆盖之前的文件
按时间整理，找起来方便
所有相关文件都在一个文件夹里

7. 高级技巧：让识别更准更快

虽然默认设置已经很好用了，但了解一些高级设置能让你用得更顺手。

7.1 根据场景选择模型

什么时候用大模型（Paraformer-Large）？

重要的会议录音
需要高准确率的转录
音频质量一般，有噪音
不赶时间，可以等久一点

什么时候用小模型（SenseVoice-Small）？

实时录音，需要快速响应
电脑配置一般，内存不够大
只是试一下效果
音频很短，简单处理

7.2 语言设置的小窍门

虽然有个auto（自动检测）选项，但手动设置语言往往更准：

纯中文会议 → 选zh
英文播客 → 选en
粤语访谈 → 选yue
中英混合 → 还是选auto吧

特别是处理专业术语时，正确设置语言能明显提升准确率。

7.3 时间戳的实际用途

你可能觉得时间戳只是给开发人员用的，其实不然：

给视频加字幕

识别语音得到.srt文件
导入剪映、Premiere等软件
字幕自动对齐到正确时间点

快速定位录音内容 假设你有一个2小时的会议录音，领导说了一句重要的话，但你不记得在哪个位置了。有了时间戳，你可以：

在文本结果里搜索关键词
找到对应的时间点
直接跳到录音的那个位置

分析说话节奏 通过时间戳可以分析：

每个人说话的时间长度
停顿的频率和时长
语速变化

8. 常见问题与解决方法

在实际使用中，你可能会遇到一些问题。这里我整理了最常见的几个问题和解决方法。

8.1 识别结果不准怎么办？

这是最常遇到的问题，通常有几个原因：

音频质量太差

解决方法：用Audacity（免费软件）给音频降噪、提高音量
预防：录音时用手机自带录音APP，比电脑麦克风效果好

语言设置错误

现象：中文内容识别出英文，或反之
解决：明确设置语言，不要总用auto

背景噪音太大

现象：识别出一些莫名其妙的词
解决：启用VAD功能，它能自动过滤静音段

8.2 识别速度太慢？

处理一个10分钟的音频要等好久，可能的原因：

用了CPU模式

检查：看左侧面板是否选了CUDA
解决：有NVIDIA显卡的话，一定要选CUDA

音频太长

现象：超过30分钟的音频处理很慢
解决：把长音频切成几段，每段5-10分钟

模型太大

现象：用了Paraformer-Large模型
解决：换SenseVoice-Small模型，速度能快2-3倍

8.3 无法上传文件？

文件格式不支持

支持格式：MP3, WAV, M4A, FLAC, OGG, PCM
解决：用格式工厂转换一下

文件太大

限制：建议不超过100MB
解决：用音频编辑软件压缩，或切成小段

浏览器问题

尝试：换Chrome或Edge浏览器
检查：浏览器是否禁用了JavaScript

8.4 录音没声音？

浏览器没给权限

现象：点击录音没反应
解决：检查浏览器地址栏左边的小图标，确保麦克风权限是“允许”

麦克风被占用

现象：其他软件（微信、Teams）正在用麦克风
解决：关闭其他可能使用麦克风的软件

硬件问题

检查：系统设置里麦克风是否正常工作
测试：用系统自带的录音机试试

8.5 结果有乱码？

编码问题

现象：中文字显示成问号或方块
解决：确保音频是标准编码，用MP3格式最保险

语言模型不匹配

现象：中文识别出乱码
解决：明确设置语言为zh

9. 最佳实践：专业用户的建议

如果你打算长期使用这个工具，或者用在正式工作中，这里有一些进阶建议。

9.1 音频预处理很重要

降噪处理 用Audacity的降噪功能，能显著提升识别准确率。步骤：

选择一段纯噪音（没人说话的部分）
点击“效果” → “降噪”
获取噪声样本，然后应用到整个音频

音量标准化 确保音量在-3dB到-6dB之间，不要太小声，也不要爆音。

格式统一 把所有音频转成16kHz、单声道的MP3或WAV格式，这样最稳定。

9.2 批量处理技巧

如果你有很多音频文件要处理：

方法一：用脚本批量处理 写一个简单的Python脚本，自动调用FunASR的API接口。不过这个需要一些编程基础。

方法二：分段处理长音频 对于超过30分钟的音频：

用音频编辑软件切成20分钟一段
分别识别
最后把文本合并

方法三：利用输出文件夹 所有结果都按时间戳保存在outputs文件夹里，定期整理归档。

9.3 准确率提升技巧

启用所有功能 VAD、PUNC、时间戳都打开，虽然稍微慢一点，但结果质量高很多。

选择合适的模型

正式工作 → Paraformer-Large
快速草稿 → SenseVoice-Small

后期校对 再好的语音识别也不可能100%准确，重要内容一定要人工校对一遍。常见的错误类型：

同音字错误（“期中” vs “期终”）
专业术语识别不准
标点位置不对

10. 总结

通过这篇教程，你应该已经掌握了FunASR语音识别WebUI的完整使用方法。我们来回顾一下重点：

你学会了什么？

环境准备：只需要Docker和一点存储空间
快速部署：两条命令启动服务，浏览器直接访问
两种使用方式：上传文件或实时录音，都很简单
结果导出：文本、JSON、字幕三种格式，满足不同需求
问题解决：常见问题的排查和解决方法

这个工具的优势在哪？

简单：不用配环境，不用写代码，打开就用
中文优化：内置了专门的中文语言模型，识别更准
功能完整：标点恢复、时间戳、字幕导出都有
免费开源：科哥承诺永久开源，可以放心使用

适合哪些场景？

会议记录转文字
采访录音整理
视频字幕生成
学习笔记制作
播客内容转录

最后的小建议 第一次使用时，建议：

先用一小段音频测试（1-2分钟）
熟悉界面和各个功能
尝试不同的设置，看看效果差异
遇到问题先看第8节的常见问题

语音识别技术已经越来越成熟，准确率也越来越高。有了这样简单易用的工具，你可以把更多时间花在内容创作上，而不是繁琐的转录工作上。

现在就去试试吧，上传一段音频，看看效果如何。你会发现，把语音变成文字，原来可以这么简单。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

聚合AI工具KULAAI：GPT、Claude、Gemini、DeepSeek热门模型一键使用

AI Agent技术社区

本地部署更安全！OpenClaw 数字员工搭建教程

AI Agent技术社区

NuminaMath-7B-CoT-openmind未来路线图：数学AI的发展方向

NuminaMath-7B-CoT-openmind作为一款专注于数学推理的AI模型，正引领着数学问题解决的智能化浪潮。本文将深入探讨这款数学AI的未来发展方向，为您揭示其在提升推理能力、扩展应用场景等方面的清晰路径。## 强化数学推理能力：迈向更高难度问题NuminaMath-7B-CoT-openmind目前已在AMC 12级别的数学竞赛问题上展现出一定的解题能力，但在AIME和数学奥