告别复杂配置!FunASR语音识别WebUI保姆级教程,上传音频/实时录音都搞定
本文介绍了如何在星图GPU平台上自动化部署FunASR语音识别镜像(基于speech_ngram_lm_zh-cn二次开发构建by科哥),快速搭建开箱即用的语音识别WebUI服务。该服务支持上传音频文件或实时录音,可高效将语音转换为文字并生成字幕,极大地简化了会议记录、视频字幕制作等场景的语音转文本工作流程。
告别复杂配置!FunASR语音识别WebUI保姆级教程,上传音频/实时录音都搞定
1. 引言:为什么你需要这个“开箱即用”的语音识别工具?
如果你曾经尝试过部署一个语音识别系统,大概率会被各种环境配置、模型下载、代码调试搞得焦头烂额。命令行、Python包、CUDA版本、依赖冲突……这些技术细节足以劝退大部分只想“用起来”的人。
今天我要介绍的,就是一个能让你彻底告别这些烦恼的解决方案——FunASR语音识别WebUI。
这是一个基于阿里达摩院开源的FunASR工具包,由开发者“科哥”进行了二次开发并封装成Docker镜像的语音识别系统。它最大的特点就是:简单。
有多简单?你只需要运行两条命令,打开浏览器,就能拥有一个功能完整的语音识别服务。无论是上传音频文件,还是直接用麦克风实时录音,都能一键转换成文字,还支持导出字幕文件。
更重要的是,这个镜像已经内置了专门针对中文优化的speech_ngram_lm_zh-cn语言模型。这意味着它在处理中文内容时,识别准确率更高,文本更符合我们的语言习惯。
接下来,我会手把手带你完成从零到一的完整部署和使用过程。即使你没有任何深度学习或语音识别经验,也能在10分钟内让这个系统跑起来。
2. 环境准备:你的电脑需要什么?
在开始之前,我们先看看需要准备些什么。其实要求很低,大部分现代电脑都能满足。
2.1 硬件和软件要求
| 项目 | 最低要求 | 推荐配置 |
|---|---|---|
| 操作系统 | Windows 10 / macOS 10.15+ / Ubuntu 18.04+ | Windows 11 / macOS 12+ |
| CPU | Intel i5 或同等性能 | Intel i7 / AMD Ryzen 7 |
| 内存 | 8 GB | 16 GB 或更多 |
| 存储空间 | 10 GB 可用空间 | 20 GB 以上 |
| 显卡 | 集成显卡即可 | NVIDIA GPU(用于加速) |
| 关键软件 | Docker Desktop | Docker Desktop 最新版 |
几个重要的说明:
- 关于显卡:有NVIDIA显卡(比如GTX 1060以上)的话,识别速度会快很多。没有也没关系,用CPU也能跑,只是稍微慢一点。
- 关于Docker:如果你还没安装Docker Desktop,去官网下载安装就行,过程很简单,一路点“下一步”就好。
- 关于存储:主要是用来存放模型文件,第一次运行时会自动下载,大概需要几个GB的空间。
2.2 创建本地文件夹(Windows用户特别注意)
为了让识别结果能保存到你的电脑上,而不是在容器里“消失”,我们需要创建一个本地文件夹。
打开命令行(CMD或PowerShell),执行:
# 在D盘创建FunASR文件夹(你也可以选其他盘)
mkdir D:\FunASR\model
这个D:\FunASR\model路径很重要,后面启动容器时会用到。它有两个作用:
- 存放下载的语音识别模型(避免重复下载)
- 保存你识别后的结果文件
如果你是Linux或macOS用户,命令稍微不同:
# Linux/macOS
mkdir -p /home/yourname/FunASR/model
# 或者
mkdir -p ~/FunASR/model
环境准备就这些,是不是很简单?接下来我们进入核心的部署环节。
3. 三步部署:让语音识别服务跑起来
整个部署过程只需要三步,我保证每一步都有详细的说明和截图。
3.1 第一步:拉取Docker镜像
打开命令行工具(Windows用户可以用PowerShell或CMD),输入以下命令:
docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.9
这个命令会从阿里云的镜像仓库下载科哥已经打包好的FunASR镜像。下载时间取决于你的网速,镜像大小约几个GB,一般10-30分钟能完成。
如果下载太慢怎么办? 可以尝试设置Docker镜像加速器。在Docker Desktop的设置里,找到Docker Engine,修改配置:
{
"registry-mirrors": [
"https://docker.mirrors.ustc.edu.cn",
"https://hub-mirror.c.163.com"
]
}
3.2 第二步:启动容器服务
镜像下载完成后,用这个命令启动服务:
docker run -p 7860:7860 -it --privileged=true -v D:\FunASR\model:/workspace/models registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.9
命令参数解释:
-p 7860:7860:把容器内部的7860端口映射到你电脑的7860端口-v D:\FunASR\model:/workspace/models:把你刚才创建的文件夹挂载到容器里--privileged=true:给容器更高的权限(避免一些设备访问问题)
注意:如果你用的是Linux或macOS,需要修改挂载路径:
# Linux/macOS版本
docker run -p 7860:7860 -it --privileged=true -v /home/yourname/FunASR/model:/workspace/models registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.9
执行后,你会看到一个命令行界面,表示已经进入了容器内部。
3.3 第三步:启动WebUI服务
在容器内部的命令行中,输入:
cd /workspace/FunASR/runtime/webui && python app.main.py
稍等几秒钟,你会看到类似这样的输出:
Running on local URL: http://0.0.0.0:7860
这表示服务已经启动成功了!现在打开你的浏览器。
4. 访问与界面:看看这个工具长什么样
在浏览器地址栏输入:
http://localhost:7860
如果你是在另一台电脑上访问这个服务(比如服务器部署),就用服务器的IP地址:
http://你的服务器IP:7860
第一次打开页面时,系统需要加载语音识别模型,可能需要1-2分钟。看到“模型已加载”的提示后,就可以开始使用了。
4.1 界面布局一览
整个WebUI界面很简洁,分为左右两大块:
左侧是控制面板,包括:
- 模型选择(大模型还是小模型)
- 设备选择(用CPU还是GPU)
- 功能开关(要不要标点、要不要时间戳)
- 操作按钮(加载模型、刷新)
右侧是主要操作区,包括:
- 音频上传区域
- 录音按钮
- 识别参数设置
- 结果显示区域
界面顶部有醒目的标题:“FunASR 语音识别 WebUI”,下面还有一行小字写着“基于 FunASR 的中文语音识别系统”。最下面是开发者的信息:“webUI二次开发 by 科哥”。
4.2 控制面板详细说明
让我们仔细看看左侧每个设置的作用:
模型选择
- Paraformer-Large:大模型,识别准确率更高,但需要更多内存,速度稍慢
- SenseVoice-Small:小模型,速度快,资源占用少,适合实时录音
建议:第一次使用或做实时录音时,先用小模型。处理重要文件时,再换大模型。
设备选择
- CUDA:如果你有NVIDIA显卡,选这个会快很多
- CPU:没有显卡或显卡不支持时用这个
系统会自动检测,有显卡的话默认会选中CUDA。
功能开关(建议全部打开)
- 启用标点恢复 (PUNC):自动给识别出的文字加标点,比如逗号、句号
- 启用语音活动检测 (VAD):自动检测哪里是说话,哪里是静音,处理长音频时很有用
- 输出时间戳:记录每个词或每句话的开始和结束时间
操作按钮
- 加载模型:如果你切换了模型,点这个按钮重新加载
- 刷新:更新页面状态
了解完界面,接下来就是最实用的部分了——怎么用这个工具。
5. 实战操作:两种方式把语音变文字
这个工具提供了两种使用方式,都很简单。我先介绍最常用的“上传音频文件”。
5.1 方式一:上传音频文件识别(推荐给初学者)
步骤1:准备你的音频文件
系统支持很多常见的音频格式:
- MP3 (.mp3) - 最常用
- WAV (.wav) - 音质好,文件大
- M4A (.m4a) - 苹果设备常用
- FLAC (.flac) - 无损格式
- OGG (.ogg)
- PCM (.pcm)
给音频文件的小建议:
- 尽量用清晰的录音,背景噪音少一点
- 如果是会议录音,说话人离麦克风近一点
- 采样率16kHz效果最好(大部分手机录音就是这个参数)
步骤2:上传文件
在右侧区域找到“上传音频”按钮,点击后选择你的音频文件。也支持直接把文件拖拽到上传区域。
上传后,你会看到文件名显示在按钮下方。
步骤3:设置识别参数
这里有两个重要设置:
-
批量大小(秒):默认是300秒,也就是5分钟。如果你的音频超过5分钟,系统会自动分成多段处理。一般不用改。
-
识别语言:
auto- 自动检测语言(推荐)zh- 中文en- 英文yue- 粤语ja- 日语ko- 韩语
如果你确定是中文内容,选zh会更准。如果是中英混合,就选auto。
步骤4:开始识别
点击蓝色的“开始识别”按钮,然后就是等待了。
处理时间取决于:
- 音频长度(1分钟音频大概需要10-30秒)
- 你选的模型(大模型慢一点,小模型快一点)
- 有没有用GPU加速(用GPU能快3-5倍)
处理过程中,进度条会显示状态。
步骤5:查看和下载结果
识别完成后,结果会显示在下面,有三个标签页可以切换:
文本结果 就是纯文字,可以直接复制粘贴到Word、记事本里。
详细信息 JSON格式的完整数据,包含每个词的置信度、语言类型等信息。开发人员可能用得上。
时间戳 显示每个词或每句话的时间信息,格式是这样的:
[001] 0.000s - 0.500s (时长: 0.500s)
[002] 0.500s - 2.500s (时长: 2.000s)
这个特别有用,比如你要给视频加字幕,或者想快速找到录音的某个部分。
5.2 方式二:浏览器实时录音(适合快速记录)
如果你需要实时把说的话转成文字,比如会议记录、采访整理,这个功能就派上用场了。
步骤1:允许麦克风权限
点击“麦克风录音”按钮,浏览器会弹出一个提示,问你是否允许使用麦克风。一定要点“允许”。
如果没看到提示,可能是浏览器设置里禁用了。以Chrome为例,检查方法:
- 点击地址栏左边的小锁图标
- 选择“网站设置”
- 找到“麦克风”,确保是“允许”状态
步骤2:开始录音
允许权限后,就可以对着麦克风说话了。你可以说一段话,然后点击“停止录音”。
小技巧:
- 说话时离麦克风近一点
- 语速不要太快,清晰一点
- 避免背景噪音(比如风扇声、键盘声)
步骤3:识别录音
录音停止后,点击“开始识别”按钮,处理方式和上传文件一样。
步骤4:保存结果
识别完成后,你可以:
- 直接复制文字
- 下载为文本文件
- 下载为SRT字幕文件(给视频用)
两种方式都介绍完了,是不是比想象中简单?接下来我们看看怎么把识别结果保存下来。
6. 结果导出:三种格式满足不同需求
识别完成后,页面上有三个下载按钮,每个按钮对应不同的文件格式。
6.1 三种导出格式对比
| 按钮 | 文件格式 | 适合什么场景 | 文件内容示例 |
|---|---|---|---|
| 下载文本 | .txt | 直接阅读、复制到文档 | 你好,欢迎使用语音识别系统。 |
| 下载JSON | .json | 程序调用、数据分析 | {"text": "你好,欢迎使用语音识别系统。", "confidence": 0.95, ...} |
| 下载SRT | .srt | 视频字幕、剪辑软件 | 1 00:00:00,000 --> 00:00:02,500 你好 |
给不同用户的建议:
- 普通用户:下载.txt文件就够了,直接能用
- 视频创作者:下载.srt文件,导入剪映、Premiere就能自动加字幕
- 开发人员:下载.json文件,里面有完整的时间戳和置信度数据
6.2 文件保存到哪里了?
还记得我们最开始创建的D:\FunASR\model文件夹吗?所有识别结果都保存在这里的outputs子文件夹里。
每次识别都会创建一个带时间戳的新文件夹,比如:
D:\FunASR\model\outputs\outputs_20240115_143022\
├── audio_001.wav # 你上传的音频(系统保存了一份)
├── result_001.json # JSON格式的完整结果
├── text_001.txt # 纯文本结果
└── subtitle_001.srt # SRT字幕文件
这样设计的好处是:
- 不会覆盖之前的文件
- 按时间整理,找起来方便
- 所有相关文件都在一个文件夹里
7. 高级技巧:让识别更准更快
虽然默认设置已经很好用了,但了解一些高级设置能让你用得更顺手。
7.1 根据场景选择模型
什么时候用大模型(Paraformer-Large)?
- 重要的会议录音
- 需要高准确率的转录
- 音频质量一般,有噪音
- 不赶时间,可以等久一点
什么时候用小模型(SenseVoice-Small)?
- 实时录音,需要快速响应
- 电脑配置一般,内存不够大
- 只是试一下效果
- 音频很短,简单处理
7.2 语言设置的小窍门
虽然有个auto(自动检测)选项,但手动设置语言往往更准:
- 纯中文会议 → 选
zh - 英文播客 → 选
en - 粤语访谈 → 选
yue - 中英混合 → 还是选
auto吧
特别是处理专业术语时,正确设置语言能明显提升准确率。
7.3 时间戳的实际用途
你可能觉得时间戳只是给开发人员用的,其实不然:
给视频加字幕
- 识别语音得到.srt文件
- 导入剪映、Premiere等软件
- 字幕自动对齐到正确时间点
快速定位录音内容 假设你有一个2小时的会议录音,领导说了一句重要的话,但你不记得在哪个位置了。有了时间戳,你可以:
- 在文本结果里搜索关键词
- 找到对应的时间点
- 直接跳到录音的那个位置
分析说话节奏 通过时间戳可以分析:
- 每个人说话的时间长度
- 停顿的频率和时长
- 语速变化
8. 常见问题与解决方法
在实际使用中,你可能会遇到一些问题。这里我整理了最常见的几个问题和解决方法。
8.1 识别结果不准怎么办?
这是最常遇到的问题,通常有几个原因:
音频质量太差
- 解决方法:用Audacity(免费软件)给音频降噪、提高音量
- 预防:录音时用手机自带录音APP,比电脑麦克风效果好
语言设置错误
- 现象:中文内容识别出英文,或反之
- 解决:明确设置语言,不要总用
auto
背景噪音太大
- 现象:识别出一些莫名其妙的词
- 解决:启用VAD功能,它能自动过滤静音段
8.2 识别速度太慢?
处理一个10分钟的音频要等好久,可能的原因:
用了CPU模式
- 检查:看左侧面板是否选了CUDA
- 解决:有NVIDIA显卡的话,一定要选CUDA
音频太长
- 现象:超过30分钟的音频处理很慢
- 解决:把长音频切成几段,每段5-10分钟
模型太大
- 现象:用了Paraformer-Large模型
- 解决:换SenseVoice-Small模型,速度能快2-3倍
8.3 无法上传文件?
文件格式不支持
- 支持格式:MP3, WAV, M4A, FLAC, OGG, PCM
- 解决:用格式工厂转换一下
文件太大
- 限制:建议不超过100MB
- 解决:用音频编辑软件压缩,或切成小段
浏览器问题
- 尝试:换Chrome或Edge浏览器
- 检查:浏览器是否禁用了JavaScript
8.4 录音没声音?
浏览器没给权限
- 现象:点击录音没反应
- 解决:检查浏览器地址栏左边的小图标,确保麦克风权限是“允许”
麦克风被占用
- 现象:其他软件(微信、Teams)正在用麦克风
- 解决:关闭其他可能使用麦克风的软件
硬件问题
- 检查:系统设置里麦克风是否正常工作
- 测试:用系统自带的录音机试试
8.5 结果有乱码?
编码问题
- 现象:中文字显示成问号或方块
- 解决:确保音频是标准编码,用MP3格式最保险
语言模型不匹配
- 现象:中文识别出乱码
- 解决:明确设置语言为
zh
9. 最佳实践:专业用户的建议
如果你打算长期使用这个工具,或者用在正式工作中,这里有一些进阶建议。
9.1 音频预处理很重要
降噪处理 用Audacity的降噪功能,能显著提升识别准确率。步骤:
- 选择一段纯噪音(没人说话的部分)
- 点击“效果” → “降噪”
- 获取噪声样本,然后应用到整个音频
音量标准化 确保音量在-3dB到-6dB之间,不要太小声,也不要爆音。
格式统一 把所有音频转成16kHz、单声道的MP3或WAV格式,这样最稳定。
9.2 批量处理技巧
如果你有很多音频文件要处理:
方法一:用脚本批量处理 写一个简单的Python脚本,自动调用FunASR的API接口。不过这个需要一些编程基础。
方法二:分段处理长音频 对于超过30分钟的音频:
- 用音频编辑软件切成20分钟一段
- 分别识别
- 最后把文本合并
方法三:利用输出文件夹 所有结果都按时间戳保存在outputs文件夹里,定期整理归档。
9.3 准确率提升技巧
启用所有功能 VAD、PUNC、时间戳都打开,虽然稍微慢一点,但结果质量高很多。
选择合适的模型
- 正式工作 → Paraformer-Large
- 快速草稿 → SenseVoice-Small
后期校对 再好的语音识别也不可能100%准确,重要内容一定要人工校对一遍。常见的错误类型:
- 同音字错误(“期中” vs “期终”)
- 专业术语识别不准
- 标点位置不对
10. 总结
通过这篇教程,你应该已经掌握了FunASR语音识别WebUI的完整使用方法。我们来回顾一下重点:
你学会了什么?
- 环境准备:只需要Docker和一点存储空间
- 快速部署:两条命令启动服务,浏览器直接访问
- 两种使用方式:上传文件或实时录音,都很简单
- 结果导出:文本、JSON、字幕三种格式,满足不同需求
- 问题解决:常见问题的排查和解决方法
这个工具的优势在哪?
- 简单:不用配环境,不用写代码,打开就用
- 中文优化:内置了专门的中文语言模型,识别更准
- 功能完整:标点恢复、时间戳、字幕导出都有
- 免费开源:科哥承诺永久开源,可以放心使用
适合哪些场景?
- 会议记录转文字
- 采访录音整理
- 视频字幕生成
- 学习笔记制作
- 播客内容转录
最后的小建议 第一次使用时,建议:
- 先用一小段音频测试(1-2分钟)
- 熟悉界面和各个功能
- 尝试不同的设置,看看效果差异
- 遇到问题先看第8节的常见问题
语音识别技术已经越来越成熟,准确率也越来越高。有了这样简单易用的工具,你可以把更多时间花在内容创作上,而不是繁琐的转录工作上。
现在就去试试吧,上传一段音频,看看效果如何。你会发现,把语音变成文字,原来可以这么简单。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐


所有评论(0)