从零部署SenseVoice-Small：ONNX量化语音识别模型Gradio前端完整教程

本文介绍了如何在星图GPU平台上自动化部署sensevoice-small-语音识别-onnx模型(带量化后)，快速搭建一个支持多语言识别与情感分析的语音转文字应用。该平台简化了部署流程，用户可轻松创建智能字幕生成、会议纪要整理等实用工具，显著提升音频内容处理效率。

疑样

670人浏览 · 2026-03-13 00:37:51

疑样 · 2026-03-13 00:37:51 发布

从零部署SenseVoice-Small：ONNX量化语音识别模型Gradio前端完整教程

想快速搭建一个能听懂50多种语言、还能识别说话人情绪的智能语音助手吗？今天，我就带你从零开始，一步步部署SenseVoice-Small这个强大的语音识别模型。它最大的亮点是推理速度极快，而且自带一个漂亮的网页界面，让你用浏览器就能轻松体验。

你可能听说过Whisper，但SenseVoice-Small在识别精度和速度上都有优势，特别是它还支持情感识别和声音事件检测。更重要的是，我们今天用的是它的ONNX量化版本，这意味着模型更小、运行更快，对电脑配置要求也更友好。

无论你是想做个智能字幕工具、语音笔记应用，还是探索多语言语音交互，这篇教程都能帮你快速上手。我们不用写复杂的代码，全程跟着步骤来就行。

1. 环境准备与快速部署

1.1 系统要求与准备工作

在开始之前，我们先看看需要准备什么。其实要求很简单：

操作系统：推荐使用Linux系统（如Ubuntu 20.04或更高版本），Windows和macOS也可以，但Linux的兼容性最好。
Python环境：需要Python 3.8或以上版本。
内存：至少4GB可用内存（8GB更佳）。
磁盘空间：准备2-3GB的可用空间来存放模型和依赖包。
网络：需要能正常访问互联网，因为要下载模型文件。

如果你用的是CSDN星图镜像，很多环境都已经预装好了，可以跳过部分步骤。

1.2 一键安装依赖

打开你的终端（命令行窗口），我们先把需要的软件包都装好。复制下面这行命令，粘贴到终端里运行：

pip install modelscope gradio torch onnxruntime

这条命令会安装四个核心的包：

modelscope：阿里的模型社区，用来下载和管理模型
gradio：用来快速搭建网页界面的神器
torch：PyTorch深度学习框架
onnxruntime：运行ONNX模型的环境

安装过程可能需要几分钟，取决于你的网速。如果看到“Successfully installed”这样的提示，就说明安装成功了。

有时候可能会遇到网络问题，如果下载很慢或者失败，可以试试用国内的镜像源：

pip install modelscope gradio torch onnxruntime -i https://pypi.tuna.tsinghua.edu.cn/simple

1.3 下载SenseVoice-Small模型

模型我们已经准备好了ONNX量化版本，你不需要自己训练或转换。量化是什么意思呢？简单说就是把模型“瘦身”，让它在保持精度的同时，运行更快、占用内存更少。

模型文件比较大，有几百MB，所以下载需要一点时间。不过你只需要下载一次，以后就可以直接用了。

2. 理解SenseVoice-Small的核心能力

在开始写代码之前，我们先花几分钟了解一下这个模型到底能做什么。这样你用起来会更得心应手。

2.1 多语言识别：能听懂50多种语言

SenseVoice-Small最厉害的地方就是它的多语言能力。它训练时用了超过40万小时的语音数据，支持包括中文、英文、日语、韩语、粤语等在内的50多种语言。

这意味着你可以：

上传一段英文演讲，它给你转写成英文文本
上传一段日语对话，它给你转写成日文
甚至混合语言的音频也能处理

在实际测试中，它的识别效果比大家熟悉的Whisper模型还要好一些。

2.2 富文本识别：不只是转文字

普通的语音识别只能把声音转成文字，但SenseVoice-Small能给出更丰富的信息：

情感识别：能判断说话人是开心、生气、悲伤还是中性情绪
声音事件检测：能识别出音频中的特殊声音，比如：
- 音乐背景
- 掌声
- 笑声
- 哭声
- 咳嗽声
- 喷嚏声

这对于做内容分析特别有用。比如分析一段会议录音，不仅能知道大家说了什么，还能知道什么时候有掌声、什么时候大家笑了。

2.3 极速推理：快到不可思议

速度是SenseVoice-Small的一大优势。它采用了一种叫“非自回归端到端”的技术架构，推理速度非常快。

举个例子：处理10秒钟的音频，只需要大约70毫秒。这是什么概念呢？比Whisper-Large模型快了15倍！几乎是你点击“识别”按钮，结果马上就出来了。

2.4 模型结构简单理解

你不用深入了解技术细节，但知道个大概有帮助。SenseVoice是一个多任务学习模型，它同时处理：

语音转文字（ASR）
语种识别（LID）
情感识别（SER）
声音事件检测（AED）

所有这些功能都在一个模型里完成，所以效率很高。模型结构图展示了它是如何把音频输入变成富文本输出的完整流程。

3. 编写Gradio前端界面代码

现在我们来创建网页界面。Gradio的好处是，你只需要写很少的Python代码，就能得到一个功能完整的Web应用。

3.1 创建主程序文件

新建一个文件，命名为 webui.py（这个名字可以自己定，但后面我们会用到）。然后用文本编辑器打开，开始写代码。

首先导入需要的库：

import gradio as gr
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
import numpy as np
import soundfile as sf
import tempfile
import os

这些库各自的作用是：

gradio：创建网页界面
modelscope：加载和运行语音识别模型
numpy和soundfile：处理音频数据
tempfile和os：管理临时文件

3.2 初始化语音识别模型

接下来，我们要初始化语音识别管道。这是最关键的一步：

# 初始化语音识别管道
print("正在加载SenseVoice-Small模型，请稍候...")
asr_pipeline = pipeline(
    task=Tasks.auto_speech_recognition,
    model='iic/SenseVoiceSmall',
    model_revision='v1.0.0'
)
print("模型加载完成！")

代码解释：

task=Tasks.auto_speech_recognition：告诉模型我们要做语音识别任务
model='iic/SenseVoiceSmall'：指定使用SenseVoice-Small模型
model_revision='v1.0.0'：使用特定的版本

第一次运行时会自动下载模型文件，所以需要一些时间。下载完成后，模型会缓存在本地，下次启动就很快了。

3.3 创建音频处理函数

我们需要一个函数来处理用户上传的音频文件：

def transcribe_audio(audio_file):
    """
    将音频文件转写成文字
    """
    if audio_file is None:
        return "请先上传或录制音频文件"
    
    try:
        # 读取音频文件
        audio_data, sample_rate = sf.read(audio_file)
        
        # 确保是单声道
        if len(audio_data.shape) > 1:
            audio_data = audio_data[:, 0]
        
        # 调用模型进行识别
        result = asr_pipeline(audio_data, audio_fs=sample_rate)
        
        # 提取识别结果
        if result and 'text' in result:
            # 基础文本转写
            text_result = result['text']
            
            # 如果有情感信息，也显示出来
            if 'emotion' in result:
                emotion = result['emotion']
                text_result += f"\n\n【情感分析】: {emotion}"
            
            # 如果有声音事件，也显示出来
            if 'events' in result and result['events']:
                events = result['events']
                text_result += f"\n\n【检测到的声音事件】: {events}"
            
            return text_result
        else:
            return "识别失败，请重试"
            
    except Exception as e:
        return f"处理出错: {str(e)}"

这个函数做了几件事：

检查是否有音频文件上传
读取音频数据
确保音频是单声道（模型要求）
调用模型进行识别
整理识别结果，包括文字、情感和声音事件

3.4 创建Gradio界面

现在我们来创建用户界面。Gradio让这一切变得很简单：

# 创建Gradio界面
with gr.Blocks(title="SenseVoice-Small 语音识别系统", theme=gr.themes.Soft()) as demo:
    gr.Markdown("# 🎤 SenseVoice-Small 语音识别系统")
    gr.Markdown("上传或录制音频文件，系统将自动识别语音内容、情感和声音事件")
    
    with gr.Row():
        with gr.Column(scale=1):
            # 音频输入组件
            audio_input = gr.Audio(
                label="上传或录制音频",
                type="filepath",
                sources=["upload", "microphone"]
            )
            
            # 控制按钮
            submit_btn = gr.Button("开始识别", variant="primary")
            clear_btn = gr.Button("清空")
            
            # 示例音频
            gr.Markdown("### 试试示例音频")
            gr.Examples(
                examples=[
                    ["example_audio_chinese.wav", "中文示例"],
                    ["example_audio_english.wav", "英文示例"],
                ],
                inputs=audio_input,
                label="点击加载示例"
            )
            
        with gr.Column(scale=2):
            # 结果显示区域
            output_text = gr.Textbox(
                label="识别结果",
                placeholder="识别结果将显示在这里...",
                lines=10,
                max_lines=20
            )
    
    # 按钮事件绑定
    submit_btn.click(
        fn=transcribe_audio,
        inputs=audio_input,
        outputs=output_text
    )
    
    clear_btn.click(
        fn=lambda: (None, ""),
        inputs=[],
        outputs=[audio_input, output_text]
    )
    
    gr.Markdown("---")
    gr.Markdown("### 使用说明")
    gr.Markdown("""
    1. **上传音频**：点击上传按钮，选择音频文件（支持wav、mp3等格式）
    2. **录制音频**：点击麦克风按钮，直接录制语音
    3. **开始识别**：点击"开始识别"按钮，等待处理结果
    4. **查看结果**：识别结果会显示在右侧，包括转写文本、情感分析和声音事件
    
    **支持功能**：
    - 多语言识别（50+种语言）
    - 情感识别（开心、生气、悲伤等）
    - 声音事件检测（音乐、掌声、笑声等）
    - 快速推理（10秒音频约70ms处理时间）
    """)

# 启动应用
if __name__ == "__main__":
    demo.launch(
        server_name="0.0.0.0",
        server_port=7860,
        share=False
    )

界面主要包含：

标题和说明
左侧：音频上传/录制区域、控制按钮、示例音频
右侧：结果显示区域
底部：详细的使用说明

4. 运行与测试你的语音识别系统

代码写好了，现在让我们来运行它，看看效果如何。

4.1 启动应用

在终端中，进入你保存 webui.py 文件的目录，然后运行：

python webui.py

你会看到类似这样的输出：

正在加载SenseVoice-Small模型，请稍候...
Downloading model from https://modelscope.cn/api/v1/models/iic/SenseVoiceSmall/repo?Revision=v1.0.0&FilePath=...
模型加载完成！
Running on local URL:  http://0.0.0.0:7860

第一次运行需要下载模型，可能会花几分钟时间。下载完成后，模型会保存在本地，下次启动就很快了。

4.2 访问Web界面

打开你的浏览器，输入：http://localhost:7860

如果是在远程服务器上运行，需要把 localhost 换成服务器的IP地址。比如服务器IP是 192.168.1.100，就访问 http://192.168.1.100:7860

4.3 测试识别功能

现在我们来实际测试一下：

上传测试音频：
- 点击"上传"按钮
- 选择一个音频文件（wav、mp3格式都可以）
- 点击"开始识别"按钮
- 等待几秒钟，结果就会显示在右侧
录制音频测试：
- 点击麦克风图标
- 允许浏览器访问麦克风
- 说几句话（中英文都可以）
- 停止录制后，点击"开始识别"
使用示例音频：
- 点击"中文示例"或"英文示例"
- 系统会自动加载示例音频
- 点击"开始识别"查看效果

4.4 理解识别结果

识别结果会包含三部分信息：

转写文本：音频中的语音内容转写成文字
情感分析：分析说话人的情绪状态
声音事件：检测到的特殊声音（如笑声、掌声等）

比如你上传一段包含笑声的对话，结果可能是：

今天天气真好，我们出去散步吧。

【情感分析】: happy

【检测到的声音事件】: [{'type': 'laughter', 'start': 2.5, 'end': 3.1}]

5. 进阶使用与实用技巧

基本的系统跑起来了，下面我分享一些实用技巧，让你的语音识别系统更好用。

5.1 处理常见音频格式

有时候上传的音频格式可能不兼容，我们可以添加格式转换功能：

import librosa
from pydub import AudioSegment

def convert_audio_format(input_path, output_format="wav"):
    """
    转换音频格式为WAV
    """
    try:
        # 读取音频
        audio = AudioSegment.from_file(input_path)
        
        # 创建临时文件
        temp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
        temp_path = temp_file.name
        temp_file.close()
        
        # 转换为WAV格式
        audio.export(temp_path, format="wav")
        
        return temp_path
    except Exception as e:
        print(f"格式转换失败: {e}")
        return input_path

然后在 transcribe_audio 函数开头添加格式检查：

# 检查并转换音频格式
if not audio_file.endswith('.wav'):
    audio_file = convert_audio_format(audio_file)

5.2 批量处理音频文件

如果你有很多音频文件需要处理，可以添加批量处理功能：

def batch_transcribe(audio_files):
    """
    批量处理多个音频文件
    """
    results = []
    for i, audio_file in enumerate(audio_files):
        print(f"处理第 {i+1}/{len(audio_files)} 个文件...")
        result = transcribe_audio(audio_file)
        results.append({
            "filename": os.path.basename(audio_file),
            "result": result
        })
    
    # 将结果保存到文件
    output_file = "batch_results.txt"
    with open(output_file, "w", encoding="utf-8") as f:
        for r in results:
            f.write(f"文件: {r['filename']}\n")
            f.write(f"结果: {r['result']}\n")
            f.write("-" * 50 + "\n")
    
    return f"批量处理完成！共处理 {len(audio_files)} 个文件。结果已保存到 {output_file}"

5.3 调整识别参数

SenseVoice-Small模型支持一些参数调整，可以根据需要修改：

# 高级识别配置
def transcribe_with_params(audio_file, language=None, emotion_detection=True):
    """
    带参数的语音识别
    """
    # 读取音频
    audio_data, sample_rate = sf.read(audio_file)
    
    # 构建识别参数
    inference_args = {}
    
    if language:
        inference_args['language'] = language
    
    if not emotion_detection:
        inference_args['disable_emotion'] = True
    
    # 调用模型
    result = asr_pipeline(
        audio_data, 
        audio_fs=sample_rate,
        inference_args=inference_args
    )
    
    return result

5.4 添加实时录音功能

Gradio支持实时音频流，我们可以添加实时录音和识别：

# 实时音频处理
def process_realtime_audio(audio_data, sample_rate):
    """
    处理实时音频流
    """
    if audio_data is None:
        return "等待音频输入..."
    
    try:
        # 实时音频通常是numpy数组格式
        result = asr_pipeline(audio_data, audio_fs=sample_rate)
        
        if result and 'text' in result:
            return result['text'][:100] + "..."  # 只显示前100字符
        return "识别中..."
        
    except Exception as e:
        return f"识别错误: {str(e)}"

然后在界面中添加实时录音组件：

# 在Gradio界面中添加
realtime_audio = gr.Audio(
    label="实时录音",
    type="numpy",
    streaming=True,
    sources=["microphone"]
)

realtime_output = gr.Textbox(label="实时识别结果")

realtime_audio.change(
    fn=process_realtime_audio,
    inputs=[realtime_audio],
    outputs=realtime_output
)

6. 部署到生产环境

如果你想让别人也能访问你的语音识别系统，需要把它部署到服务器上。

6.1 使用Docker容器化

创建Dockerfile来打包应用：

# Dockerfile
FROM python:3.9-slim

WORKDIR /app

# 安装系统依赖
RUN apt-get update && apt-get install -y \
    ffmpeg \
    libsndfile1 \
    && rm -rf /var/lib/apt/lists/*

# 复制代码文件
COPY requirements.txt .
COPY webui.py .

# 安装Python依赖
RUN pip install --no-cache-dir -r requirements.txt

# 暴露端口
EXPOSE 7860

# 启动应用
CMD ["python", "webui.py"]

创建requirements.txt文件：

modelscope>=1.10.0
gradio>=4.0.0
torch>=2.0.0
onnxruntime>=1.15.0
soundfile>=0.12.0
librosa>=0.10.0
pydub>=0.25.1

构建和运行Docker容器：

# 构建镜像
docker build -t sensevoice-asr .

# 运行容器
docker run -d -p 7860:7860 --name sensevoice-app sensevoice-asr

6.2 配置反向代理（可选）

如果你有域名，可以用Nginx做反向代理：

# nginx配置
server {
    listen 80;
    server_name your-domain.com;
    
    location / {
        proxy_pass http://localhost:7860;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
    }
}

6.3 性能优化建议

启用GPU加速（如果有NVIDIA GPU）：

# 修改模型加载代码
asr_pipeline = pipeline(
    task=Tasks.auto_speech_recognition,
    model='iic/SenseVoiceSmall',
    model_revision='v1.0.0',
    device='cuda:0'  # 使用GPU
)

调整并发设置：

demo.launch(
    server_name="0.0.0.0",
    server_port=7860,
    max_threads=4,  # 增加线程数
    share=False
)

添加缓存机制：

from functools import lru_cache

@lru_cache(maxsize=100)
def cached_transcribe(audio_file_hash):
    # 缓存识别结果
    pass

7. 常见问题与解决方案

在实际使用中，你可能会遇到一些问题。这里我整理了一些常见问题和解决方法。

7.1 模型加载失败

问题：第一次运行时模型下载很慢或失败。

解决：

检查网络连接

使用国内镜像源：

import os
os.environ['MODELSCOPE_CACHE'] = './model_cache'

手动下载模型文件（如果有的话）

7.2 音频格式不支持

问题：上传某些音频文件时识别失败。

解决：

确保音频格式是常见的wav、mp3、flac等
采样率最好在16kHz-48kHz之间
使用我们前面提到的格式转换函数

7.3 识别结果不准确

问题：转写的文字有错误。

解决：

确保音频质量较好，背景噪音小
对于专业术语较多的音频，可以尝试先进行语音增强
如果是特定领域的音频，可以考虑微调模型（SenseVoice支持微调）

7.4 内存不足

问题：处理长音频时内存占用高。

解决：

将长音频分割成短片段处理
增加系统内存
使用音频压缩

7.5 响应速度慢

问题：识别需要很长时间。

解决：

确保使用ONNX量化版本
如果有GPU，启用GPU加速
优化音频预处理步骤

8. 总结

通过这篇教程，我们完成了一个完整的SenseVoice-Small语音识别系统的部署。让我们回顾一下重点：

8.1 我们实现了什么

环境搭建：安装了所有必要的依赖包
模型加载：成功加载了ONNX量化版的SenseVoice-Small模型
界面开发：用Gradio创建了美观易用的Web界面
功能测试：验证了多语言识别、情感分析和声音事件检测
进阶功能：添加了批量处理、格式转换等实用功能
部署方案：提供了Docker容器化部署方案

8.2 SenseVoice-Small的核心优势

速度快：10秒音频仅需70ms，比Whisper快15倍
精度高：支持50多种语言，识别效果优秀
功能全：不仅转文字，还能分析情感和声音事件
易部署：ONNX量化版本，模型小，部署简单
可定制：支持微调，可以针对特定场景优化

8.3 实际应用场景

这个系统可以用于很多实际场景：

会议记录：自动生成会议纪要，标注重点和情绪变化
内容审核：识别音频中的敏感内容和异常声音
客服质检：分析客服通话中的服务质量和客户情绪
教育辅助：为教学视频自动生成字幕，分析课堂氛围
媒体制作：快速为视频添加字幕，检测背景音乐和音效

8.4 下一步学习建议

如果你对这个系统感兴趣，可以继续深入：

学习模型微调：用你自己的数据训练模型，提升在特定领域的识别准确率
探索API集成：把语音识别功能集成到你的其他应用中
研究多模态应用：结合图像识别、文本分析等其他AI能力
优化用户体验：添加更多前端功能，如实时翻译、语音合成等

最重要的是，现在你已经有了一个可以实际运行的语音识别系统。你可以基于这个基础，添加更多功能，或者把它集成到你的项目中。

语音识别技术正在快速发展，SenseVoice-Small代表了当前的一个优秀解决方案。它平衡了速度、精度和功能，而且开源免费，是学习和实践的好选择。

希望这篇教程对你有帮助。如果在使用过程中遇到问题，或者有新的想法，欢迎继续探索和实践。技术的乐趣就在于动手尝试，把想法变成现实。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

AI导出鸭惊了！DeepSeek代码手机导出保姆级实操，不看亏一套海景房

AI Agent技术社区

后端接入 AI Agent：Tool Calling 网关、幂等与审计日志实战

AI Agent技术社区

OpenClaw vs Hermes Agent：企业级执行 vs 自我进化，一文读懂怎么选！

AI Agent 开源双子星深度对比：OpenClaw（GitHub 26.4w⭐）主打工程化落地，四层记忆+20+渠道+13,700+技能，适合企业自动化；Hermes Agent（53天10w⭐）主打闭环学习，四级记忆+自动技能进化+3,200+社区技能，越用越聪明。两者可互补组合：OpenClaw 做稳定执行引擎，Hermes 做持续学习大脑。短期落地选 OpenClaw，长期陪伴选 Her

AI Agent技术社区

所有评论(0)

查看更多评论

疑样

@weixin_29069575

已为社区贡献8条内容

从零部署SenseVoice-Small：ONNX量化语音识别模型Gradio前端完整教程

疑样

从零部署SenseVoice-Small：ONNX量化语音识别模型Gradio前端完整教程

1. 环境准备与快速部署

1.1 系统要求与准备工作

1.2 一键安装依赖

1.3 下载SenseVoice-Small模型

2. 理解SenseVoice-Small的核心能力

2.1 多语言识别：能听懂50多种语言

2.2 富文本识别：不只是转文字

2.3 极速推理：快到不可思议

2.4 模型结构简单理解

3. 编写Gradio前端界面代码

3.1 创建主程序文件

3.2 初始化语音识别模型

3.3 创建音频处理函数

3.4 创建Gradio界面

4. 运行与测试你的语音识别系统

4.1 启动应用

4.2 访问Web界面

4.3 测试识别功能

4.4 理解识别结果

5. 进阶使用与实用技巧

5.1 处理常见音频格式

5.2 批量处理音频文件

5.3 调整识别参数

5.4 添加实时录音功能

6. 部署到生产环境

6.1 使用Docker容器化

6.2 配置反向代理（可选）

6.3 性能优化建议

7. 常见问题与解决方案

7.1 模型加载失败

7.2 音频格式不支持

7.3 识别结果不准确

7.4 内存不足

7.5 响应速度慢

8. 总结

8.1 我们实现了什么

8.2 SenseVoice-Small的核心优势

8.3 实际应用场景

8.4 下一步学习建议

所有评论(0)

温馨提示：您尚未绑定手机号

疑样