Fun-ASR多语言语音识别实战：一键部署Web界面，上传音频秒转文字

本文介绍了如何在星图GPU平台上自动化部署Fun-ASR-MLT-Nano-2512语音识别模型镜像，快速搭建多语言语音识别服务。该平台简化了部署流程，用户可一键启动Web界面，实现上传音频文件秒转文字，典型应用于会议录音整理、访谈资料转录等场景，显著提升工作效率。

八位数花园

220人浏览 · 2026-03-07 00:21:35

八位数花园 · 2026-03-07 00:21:35 发布

Fun-ASR多语言语音识别实战：一键部署Web界面，上传音频秒转文字

1. 从语音到文字的魔法：为什么你需要Fun-ASR？

想象一下这样的场景：你手头有一段重要的会议录音，需要快速整理成文字稿；或者你收集了大量用户语音反馈，想要批量分析其中的关键词。传统的方法要么是手动听写，耗时耗力，要么是使用一些识别不准、功能单一的语音转文字工具，结果往往不尽如人意。

今天，我要介绍的就是一个能彻底改变你处理语音方式的“瑞士军刀”——Fun-ASR-MLT-Nano-2512。这不是一个普通的语音识别工具，而是阿里通义实验室推出的多语言语音识别大模型。它最吸引人的地方在于，它不仅支持中文和英文，还一口气支持包括粤语、日语、韩语在内的31种语言，甚至能识别方言和歌词，远场嘈杂环境下的表现也相当出色。

更棒的是，这个模型已经有人帮你打包好了，做成了一个开箱即用的Web应用镜像。这意味着你不需要从零开始研究复杂的模型部署，只需要跟着这篇教程，就能在几分钟内搭建起一个属于自己的、功能强大的语音识别服务。无论是个人学习、团队协作，还是集成到你的产品中，都非常方便。

接下来，我会手把手带你完成从环境准备到实际使用的全过程，让你真正体验到“上传音频，秒转文字”的畅快感。

2. 准备工作：搭建你的语音识别“工作站”

在开始施展魔法之前，我们需要先准备好“魔法阵”。别担心，整个过程非常简单，我会用最直白的方式告诉你每一步该做什么。

2.1 检查你的“装备清单”

首先，确保你的电脑或服务器满足以下基本要求。这就像做饭前要确认厨房有锅有灶一样：

操作系统：最好是Linux系统，比如Ubuntu 20.04或更新版本。这是最稳定、兼容性最好的环境。如果你用的是Windows，可以考虑在WSL2（Windows的Linux子系统）里操作，或者直接使用我们后面会提到的Docker方式，它能跨平台运行。
Python环境：需要Python 3.8或更高版本。我推荐使用Python 3.10，这是一个比较平衡的版本。
硬件资源：
- 内存：至少8GB。模型本身和运行过程都需要占用内存，内存越大，处理越流畅。
- 磁盘空间：准备至少5GB的可用空间，主要用来存放模型文件（大约2GB）。
- GPU（可选但推荐）：如果你有NVIDIA的显卡，并且安装了CUDA驱动，那么识别速度会快很多。没有GPU也能用，只是第一次加载和每次识别会稍微慢一点。

小提示：你可以打开终端，输入 python3 --version 来查看Python版本，输入 free -h 查看内存，输入 df -h 查看磁盘空间。

2.2 第一步：创建一个独立的Python“小房间”

为了避免这个项目的依赖包和你电脑上其他项目的包“打架”，我们最好创建一个虚拟环境。你可以把它理解为一个独立的、干净的房间，专门用来运行Fun-ASR。

打开终端，依次执行以下命令：

# 1. 创建一个名为 funasr-env 的虚拟环境
python3 -m venv funasr-env

# 2. 进入这个虚拟环境（激活它）
source funasr-env/bin/activate

激活成功后，你会发现命令行前面多了一个 (funasr-env) 的提示，这就表示你现在已经在这个“小房间”里工作了。以后所有安装操作都在这里进行，不会影响到外面。

2.3 第二步：安装系统“助手”ffmpeg

Fun-ASR在处理音频时，需要一个叫 ffmpeg 的强大工具来帮忙读取和转换各种格式的音频文件。安装它很简单：

sudo apt update
sudo apt install -y ffmpeg

安装完成后，可以输入 ffmpeg -version 检查一下，如果能看到版本信息，就说明安装成功了。

2.4 第三步：获取“魔法原料”——项目文件

现在，我们需要把Fun-ASR的项目文件拿到手。假设你已经通过某种方式（比如从CSDN星图镜像广场下载）获得了名为 Fun-ASR-MLT-Nano-2512 的文件夹。

进入这个文件夹，并安装所有Python依赖包：

# 进入项目目录（请根据你的实际路径调整）
cd /path/to/Fun-ASR-MLT-Nano-2512

# 升级pip工具
pip install --upgrade pip

# 安装项目需要的所有Python包
pip install -r requirements.txt

这个过程会安装PyTorch（深度学习框架）、Gradio（用来做Web界面）等一系列必要的库，耐心等待它完成即可。

如果有GPU：确保你的CUDA驱动已经装好，可以运行 nvidia-smi 命令看看显卡信息。PyTorch会自动检测并使用GPU，这会让后续的识别速度快上好几倍。

好了，“工作站”搭建完毕！接下来，我们来看看这个项目里都有些什么宝贝。

3. 核心文件与一个关键“补丁”

在启动服务之前，我们先快速浏览一下项目结构，并解决一个可能影响稳定性的小问题。

3.1 项目文件“全家福”

进入 Fun-ASR-MLT-Nano-2512 文件夹，你会看到类似下面这样的文件列表：

Fun-ASR-MLT-Nano-2512/
├── model.pt                  # 最重要的文件！预训练好的模型，约2GB
├── model.py                  # 模型的核心代码文件
├── ctc.py                    # 负责把声音特征转换成文字的解码模块
├── app.py                    # Web界面的主程序，我们一会就启动它
├── config.yaml               # 模型的一些配置参数
├── configuration.json        # 模型的描述信息
├── multilingual.tiktoken     # 支持多语言的分词词典
├── requirements.txt          # 我们刚才安装的依赖包列表
└── example/                  # 示例音频文件夹，用来测试
    ├── zh.mp3                # 中文示例
    ├── en.mp3                # 英文示例
    ├── ja.mp3                # 日文示例
    ├── ko.mp3                # 韩文示例
    └── yue.mp3               # 粤语示例

其中最核心的就是 model.pt 文件，它包含了模型从海量数据中学到的“知识”。app.py 则是我们与模型交互的窗口。

3.2 打上一个重要的“稳定性补丁”

在原始版本的 model.py 文件中，有一个地方可能存在小瑕疵。简单来说，就是在加载某些格式异常的音频文件时，程序可能会因为一个变量没有正确初始化而意外崩溃。

虽然不一定会遇到，但为了服务的绝对稳定，我们最好修复它。这个修复很简单，就是确保程序在遇到错误时能优雅地跳过当前文件，而不是直接罢工。

修复方法：用文本编辑器打开 model.py 文件，找到大约第368行到第406行附近（不同版本可能略有差异），你会看到类似下面这样的代码结构：

# 原始代码可能类似这样（问题区域）：
try:
    data_src = load_audio_text_image_video(...) # 尝试加载音频
except Exception as e:
    logging.error(f"Failed to load input: {e}")
# 注意：如果上面加载失败了，data_src这个变量就没有被定义！
# 但下面的代码依然会尝试使用它，导致报错。
speech, speech_lengths = extract_fbank(data_src, ...)

我们需要把处理音频特征的代码也移到 try 语句块内部，修改后如下：

# 修复后的代码：
try:
    data_src = load_audio_text_image_video(input_path) # 加载音频
    speech, speech_lengths = extract_fbank(data_src,   # 提取声音特征
                                          sample_rate=16000,
                                          mean_norm=True)
    # ... 这里还有其他处理步骤
except Exception as e:
    logging.error(f"Feature extraction failed: {e}")
    continue  # 如果出错了，就跳过这个文件，继续处理下一个，程序不会崩溃

这个改动保证了即使某个文件有问题，整个识别服务也不会停止，大大提升了健壮性。如果你不确定如何修改，也可以直接使用已经修复好的镜像版本。

4. 启动Web服务：你的私人语音识别网站

一切准备就绪，最激动人心的时刻到了——启动服务，打开浏览器就能用！

4.1 一键启动后台服务

在项目根目录下，运行下面这个命令：

cd /root/Fun-ASR-MLT-Nano-2512  # 确保你在正确的目录
nohup python app.py > /tmp/funasr_web.log 2>&1 &
echo $! > /tmp/funasr_web.pid

我来解释一下这个命令在做什么：

nohup：让程序在后台运行，即使你关闭了终端窗口，它也不会停止。
> /tmp/funasr_web.log：把程序运行过程中打印的信息（日志）保存到 /tmp/funasr_web.log 这个文件里，方便以后查看。
2>&1：把错误信息也一起记录到日志文件。
&：在后台运行。
echo $! > /tmp/funasr_web.pid：把刚刚启动的程序的“身份证号”（进程ID）存起来，以后想关闭它的时候就知道该关谁了。

运行后，如果没报错，就说明服务已经在后台默默启动了。

4.2 打开浏览器，开始识别！

现在，打开你的浏览器，在地址栏输入：

http://localhost:7860

如果你的服务是运行在另一台服务器上，就把 localhost 换成那台服务器的IP地址。

第一次访问页面时，可能会需要等待30秒到1分钟。这是因为模型采用了“懒加载”机制，只在第一次被使用时才完全加载到内存中。请耐心等待一下。

加载完成后，你会看到一个简洁明了的界面，通常包含以下几个部分：

音频上传区域：可以点击上传按钮，或者直接把音频文件拖进来。支持MP3、WAV、M4A、FLAC等常见格式。
语言选择（可选）：如果你知道音频是什么语言，在这里指定一下（比如“中文”、“English”），识别准确率会更高。不选的话，模型也会自动检测。
ITN开关：建议打开。这个功能叫“智能文本归一化”，能自动把识别出的“一二三”转换成“123”，把“百分之二十”转换成“20%”，让结果更规范。
“开始识别”按钮：点击它，魔法就开始了！
结果显示区域：识别出的文字会显示在这里。

动手试试：你可以直接用项目自带的 example/ 文件夹里的示例音频来测试。上传一个 zh.mp3，点击识别，看看是不是秒出结果？

5. 不止于Web：用Python代码调用它

Web界面很方便，但如果你想把这个功能集成到自己的自动化脚本、数据分析流程或者后端服务里，该怎么办呢？别担心，Fun-ASR提供了非常友好的Python API。

5.1 像调用库一样使用模型

在你的Python脚本中，可以这样写：

# 导入必要的模块
from funasr import AutoModel

# 第一步：初始化模型
# 告诉程序：“模型文件就在当前目录下”
model = AutoModel(
    model=".",                    # 这个点号代表当前目录
    trust_remote_code=True,       # 必须设置为True，允许加载自定义的模型代码
    device="cuda:0"               # 使用GPU。如果没有GPU，这里可以改成 "cpu"
)

print("模型加载完毕，准备就绪！")

device 参数很智能，如果你写 "cuda:0" 但电脑没有GPU，它会自动退回到使用CPU，所以不用担心报错。

5.2 执行识别并获取结果

模型加载好后，识别音频就一行代码的事：

# 第二步：识别音频
# 可以一次识别一个文件，也可以传一个列表批量识别
result = model.generate(
    input=["path/to/your/audio.mp3"],  # 音频文件的路径，放在列表里
    cache={},                          # 用于长音频分段的缓存，先留空
    batch_size=1,                      # 一次处理几个文件。有GPU且显存大可以调高
    language="中文",                    # 指定语言（可选）
    itn=True                           # 开启智能文本归一化（推荐）
)

# 第三步：查看结果
# result 是一个列表，里面是字典，每个字典对应一个音频文件的结果
recognized_text = result[0]["text"]
print(f"识别结果：{recognized_text}")

# 结果里可能还包含时间戳等信息
# print(result[0])  # 可以打印整个结果字典看看

这样，你就把强大的语音识别功能封装成了一个函数，可以轻松地嵌入到任何Python项目中，比如自动为视频生成字幕、分析客服录音、构建语音笔记应用等等。

6. 高级玩法：用Docker一键部署

如果你觉得上面配置环境有点麻烦，或者你想在多个不同的机器上快速部署同样的服务，那么Docker是你的最佳选择。Docker可以把整个应用和它的运行环境一起打包成一个“集装箱”，在任何支持Docker的机器上都能秒级启动。

6.1 编写Docker的“打包说明书”

首先，在项目根目录创建一个名为 Dockerfile 的文件（没有后缀），内容如下：

# 使用一个轻量级的Python 3.11官方镜像作为基础
FROM python:3.11-slim

# 设置工作目录
WORKDIR /app

# 安装系统依赖，主要是ffmpeg
RUN apt-get update && apt-get install -y \
    ffmpeg \
    git \
    && rm -rf /var/lib/apt/lists/*  # 清理缓存，减小镜像体积

# 复制依赖列表并安装Python包
COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt

# 把当前目录的所有项目文件复制到容器的/app目录下
COPY . .

# 声明容器运行时对外提供的端口号
EXPOSE 7860

# 容器启动时自动执行的命令
CMD ["python", "app.py"]

这个文件就像一份食谱，告诉Docker如何一步步构建我们的应用镜像。

6.2 构建镜像并运行

打开终端，在包含 Dockerfile 的目录下，执行以下命令：

# 1. 构建镜像，给它起个名字叫 funasr-nano
docker build -t funasr-nano:latest .

# 2. 运行容器
# 如果你有GPU，并且安装了nvidia-docker，用这个命令：
docker run -d -p 7860:7860 --gpus all --name my_funasr funasr-nano:latest

# 如果你没有GPU，或者不想用GPU，用这个命令：
docker run -d -p 7860:7860 --name my_funasr funasr-nano:latest

解释一下：

-d：让容器在后台运行。
-p 7860:7860：把容器内部的7860端口映射到你电脑的7860端口。
--gpus all：把主机的GPU资源分配给容器使用（仅限GPU版本命令）。
--name my_funasr：给这个容器实例起个名字，方便管理。

运行成功后，同样访问 http://localhost:7860，你的语音识别服务就已经在Docker容器里跑起来了！这种方式彻底解决了“在我电脑上能跑，到你那就环境报错”的难题。

7. 管理、优化与常见问题

服务跑起来之后，你可能还想知道它表现如何，以及怎么维护它。

7.1 服务管理常用命令

服务在后台运行，我们怎么知道它是否健康呢？

# 查看服务是否在运行
ps aux | grep "python app.py"

# 实时查看服务输出的日志（非常有用，可以看到识别请求和错误信息）
tail -f /tmp/funasr_web.log

# 停止服务（使用我们之前保存的进程ID）
kill $(cat /tmp/funasr_web.pid)

# 重启服务（一个组合命令）
kill $(cat /tmp/funasr_web.pid) && \
nohup python app.py > /tmp/funasr_web.log 2>&1 & \
echo $! > /tmp/funasr_web.pid

建议把重启命令写进一个 restart.sh 脚本文件里，以后需要重启时，运行一下这个脚本就行了。

7.2 性能与效果

这个模型在保证精度的同时，速度也很快：

模型大小：约2GB，不算大，部署门槛低。
识别速度：在NVIDIA T4这样的普通服务器GPU上，处理一段10秒的音频，大概只需要0.7秒。用CPU的话，可能在2-3秒左右。
识别准确率：在远场、带一些环境噪音的场景下，准确率也能达到93%以上，日常使用完全足够。
支持语言：31种，中文、英文、日语、韩语、粤语、西班牙语、法语等等，覆盖面非常广。

7.3 你可能会遇到的问题

第一次识别特别慢：正常现象！因为模型是“懒加载”的，第一次使用时才完全载入内存，可能需要30-60秒。之后就会飞快。
上传文件失败或识别不出：请检查音频格式。它支持MP3, WAV, M4A, FLAC等，但最好的是16kHz采样率的单声道音频。太长的音频（比如超过30分钟）建议先切割一下。
GPU没被用到：在Python代码里，确认 device 参数设置的是 "cuda:0"。在终端可以运行 python -c "import torch; print(torch.cuda.is_available())"，如果输出 True 就说明PyTorch检测到了GPU。
磁盘空间不足：确保你的磁盘有至少5GB剩余空间，主要给 model.pt 文件用。

8. 总结

回顾一下，我们今天完成了一件很酷的事情：从零开始，部署了一个支持31种语言、识别准确率高、带有友好Web界面的语音识别服务。

整个过程的核心步骤非常清晰：

准备环境：确保有Python和足够的内存磁盘空间。
安装依赖：用 pip 安装必要的包，别忘了 ffmpeg。
启动Web服务：运行 python app.py，然后打开浏览器访问。
开始使用：上传音频，选择语言，点击识别，文字即刻呈现。

你还学到了两种更进阶的用法：用 Python API 将它集成到你的自动化流程中，以及用 Docker 实现一次构建、随处运行的便捷部署。

Fun-ASR-MLT-Nano-2512就像一个功能强大的语音识别引擎，而我们今天做的就是给它装上了方向盘和仪表盘（Web界面），或者把它封装成一个即插即用的模块（Python API/Docker）。现在，你可以用它来处理会议记录、整理访谈资料、为视频自动生成字幕，或者开发更有创意的语音交互应用了。

语音技术的门槛正在变得越来越低，希望这篇教程能帮你轻松地迈出第一步，将这门技术转化为实实在在的生产力。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

从Anthropic官方文档看Claude的安全机制：隔离、模型与外部内容的三层防御体系

十二个月前，如果有人提议让Claude拥有足以搞垮Anthropic内部服务的权限，我们一定会断然拒绝。而今天，这种访问级别已经成为常态，Anthropic内部的开发者们正因为这种部署而大幅提升了生产力。这是我读完Anthropic官方工程博客《How we contain Claude across products》（2026年5月25日发布）后的第一感受。当AI Agent的能力越强大，它的