5分钟搞定！Fun-ASR-MLT-Nano-2512多语言语音识别一键部署指南

本文介绍了如何在星图GPU平台上自动化部署Fun-ASR-MLT-Nano-2512语音识别模型（二次开发构建by113小贝），实现多语言语音识别功能。该轻量级模型支持31种语言识别，包括方言和歌词识别，适用于会议记录自动生成、语音转文字等场景，5分钟即可完成部署，大幅提升语音处理效率。

无形小手

324人浏览 · 2026-03-27 04:49:40

无形小手 · 2026-03-27 04:49:40 发布

5分钟搞定！Fun-ASR-MLT-Nano-2512多语言语音识别一键部署指南

1. 快速了解Fun-ASR-MLT-Nano-2512

Fun-ASR-MLT-Nano-2512是阿里通义实验室推出的轻量级多语言语音识别模型，特别适合需要本地化部署的场景。这个800M参数的模型虽然小巧，但功能强大：

多语言支持：能识别31种语言，包括中文、英文、粤语、日文和韩文等
特色功能：方言识别（如四川话）、歌词识别、远场拾音能力
高效推理：在普通GPU上就能流畅运行，响应速度快

相比云端语音识别服务，本地部署的优势很明显：数据不出内网、响应更快、没有调用次数限制，长期使用成本也更低。

2. 环境准备与快速安装

2.1 系统要求

在开始前，请确保你的系统满足以下最低配置：

操作系统：Linux（推荐Ubuntu 20.04或更高版本）
Python版本：3.8+
内存：至少8GB
磁盘空间：5GB以上

如果有NVIDIA显卡（如RTX 3060及以上），建议启用CUDA加速，识别速度会快很多。

2.2 一键安装依赖

打开终端，执行以下命令安装必要依赖：

# 安装系统依赖
sudo apt-get update
sudo apt-get install -y ffmpeg git

# 安装Python依赖
pip install -r requirements.txt

如果使用conda，可以先创建虚拟环境：

conda create -n funasr python=3.11
conda activate funasr

3. 快速启动Web服务

3.1 启动服务

进入项目目录后，只需一条命令就能启动服务：

cd /root/Fun-ASR-MLT-Nano-2512
nohup python app.py > /tmp/funasr_web.log 2>&1 &
echo $! > /tmp/funasr_web.pid

这个命令会在后台运行服务，并将日志输出到/tmp/funasr_web.log。

3.2 访问Web界面

服务启动后，在浏览器访问：

http://localhost:7860

如果要从其他设备访问，需要修改app.py中的启动参数：

gr.Interface.launch(server_name="0.0.0.0", server_port=7860, share=False)

别忘了开放防火墙端口：

sudo ufw allow 7860

4. 核心功能使用指南

4.1 Web界面操作

Web界面非常直观易用：

点击"上传"按钮选择音频文件，或直接录制语音
选择语言类型（如果不确定可以留空，模型会自动检测）
点击"开始识别"按钮
稍等片刻就能看到识别结果

识别结果会自动显示在界面上，你可以复制文本或导出为TXT文件。

4.2 Python API调用

如果你想在自己的Python项目中使用这个模型，可以这样调用：

from funasr import AutoModel

# 初始化模型
model = AutoModel(
    model=".",  # 使用当前目录下的模型
    trust_remote_code=True,
    device="cuda:0"  # 使用GPU加速
)

# 识别音频文件
res = model.generate(
    input=["example/zh.mp3"],  # 音频文件路径
    language="中文",  # 指定语言
    itn=True  # 启用文本规整
)

print(res[0]["text"])  # 打印识别结果

5. 常见问题与解决方案

5.1 首次运行加载慢

模型采用懒加载机制，第一次识别时需要加载模型权重，可能需要30-60秒。这是正常现象，后续识别会快很多。

5.2 音频格式支持

模型支持常见的音频格式：

MP3
WAV
M4A
FLAC

推荐使用16kHz采样率的音频文件，识别效果最好。

5.3 服务管理命令

几个常用的服务管理命令：

# 查看服务是否运行
ps aux | grep "python app.py"

# 查看实时日志
tail -f /tmp/funasr_web.log

# 停止服务
kill $(cat /tmp/funasr_web.pid)

# 重启服务
kill $(cat /tmp/funasr_web.pid) && \
nohup python app.py > /tmp/funasr_web.log 2>&1 & \
echo $! > /tmp/funasr_web.pid

6. 总结与下一步

通过这篇指南，你应该已经成功部署了Fun-ASR-MLT-Nano-2512语音识别模型。这个轻量级模型在保持高精度的同时，对硬件要求不高，非常适合中小企业或个人开发者使用。

接下来你可以：

尝试识别不同语言的音频，测试模型的多语言能力
探索方言识别功能，比如上传一段四川话录音
将API集成到你自己的应用中，比如自动生成会议记录

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

后端接入 AI Agent：Tool Calling 网关、幂等与审计日志实战

AI Agent技术社区

AI导出鸭惊了！DeepSeek代码手机导出保姆级实操，不看亏一套海景房

AI Agent技术社区

OpenClaw vs Hermes Agent：企业级执行 vs 自我进化，一文读懂怎么选！

AI Agent 开源双子星深度对比：OpenClaw（GitHub 26.4w⭐）主打工程化落地，四层记忆+20+渠道+13,700+技能，适合企业自动化；Hermes Agent（53天10w⭐）主打闭环学习，四级记忆+自动技能进化+3,200+社区技能，越用越聪明。两者可互补组合：OpenClaw 做稳定执行引擎，Hermes 做持续学习大脑。短期落地选 OpenClaw，长期陪伴选 Her