保姆级教程：用Gradio快速调用SenseVoice语音识别API

本文介绍了如何在星图GPU平台上自动化部署sensevoice-small-语音识别-onnx模型(带量化后)，快速搭建多语言语音识别服务。通过Gradio Web界面，用户可上传音频或实时录音，实现高精度语音转文字，典型应用于会议记录转写、视频字幕生成等场景，提升工作效率。

轩辕姐姐

298人浏览 · 2026-02-17 00:07:41

轩辕姐姐 · 2026-02-17 00:07:41 发布

保姆级教程：用Gradio快速调用SenseVoice语音识别API

1. 教程概述

1.1 学习目标

本教程将手把手教你如何使用Gradio快速搭建一个语音识别Web界面，调用SenseVoice-small模型进行多语言语音转文字。学完本教程后，你将能够：

在本地或服务器上快速部署SenseVoice语音识别服务
通过简单易用的Web界面进行语音识别测试
支持上传音频文件、录制声音、使用示例音频三种输入方式
获得准确的文字转录结果，支持超过50种语言

1.2 前置准备

开始之前，你需要准备：

一台能够运行Python的电脑或服务器（Windows/Mac/Linux均可）
基本的命令行操作知识（知道如何打开终端/命令提示符）
网络连接（用于下载模型和依赖包）
约2-4GB的磁盘空间（用于存储模型文件）

1.3 SenseVoice模型简介

SenseVoice-small是一个高效的多语言语音识别模型，具有以下特点：

多语言支持：训练数据超过40万小时，支持50多种语言识别
高精度识别：识别效果优于Whisper模型，特别是在中文场景下
快速推理：10秒音频仅需70毫秒处理时间，比Whisper-Large快15倍
丰富功能：除了语音转文字，还支持情感识别和音频事件检测
易于部署：提供完整的服务部署方案，支持多种编程语言调用

2. 环境准备与快速部署

2.1 获取SenseVoice镜像

首先确保你已经获取了SenseVoice-small语音识别镜像。这个镜像已经预装了所有必要的环境和依赖，包括：

Python 3.8+ 运行环境
ModelScope深度学习框架
ONNX运行时环境（已量化优化）
Gradio Web界面库
预下载的SenseVoice-small模型权重

2.2 启动语音识别服务

打开终端或命令提示符，进入镜像所在目录，运行以下命令启动服务：

# 进入webui.py所在目录
cd /usr/local/bin/

# 启动Gradio Web服务
python webui.py

注意：第一次启动时需要加载模型，可能需要等待1-3分钟，具体时间取决于你的硬件性能。请耐心等待直到看到类似下面的提示：

Running on local URL:  http://127.0.0.1:7860

2.3 访问Web界面

在浏览器中打开上述URL（通常是 http://127.0.0.1:7860），你将看到类似下面的界面：

Gradio Web界面

界面主要包含以下几个区域：

音频输入区域（上传文件、录制音频、使用示例）
语言选择下拉菜单
开始识别按钮
结果显示区域

3. 使用语音识别功能

3.1 三种输入方式详解

SenseVoice提供了三种便捷的音频输入方式，满足不同场景需求：

方式一：上传音频文件

点击"Upload Audio"按钮，选择本地音频文件支持格式：MP3、WAV、FLAC、OGG等常见格式文件大小：建议不超过50MB，时长不超过10分钟

方式二：实时录音

点击"Record from Microphone"按钮允许浏览器访问麦克风直接说话录制，最长支持10分钟录音

方式三：使用示例音频

系统提供了预置的示例音频点击即可使用，无需自己准备方便快速测试功能是否正常

3.2 语言设置与识别启动

选择音频后，你需要设置识别语言：

自动检测（推荐）：模型会自动判断音频中的语言类型
指定语言：如果你知道音频的语言，可以直接选择对应语言（中文、英文、日语、韩语等50多种）

点击"开始识别"按钮，系统会开始处理音频。处理时间取决于音频长度，通常10秒音频需要不到1秒时间。

3.3 查看识别结果

识别完成后，结果会显示在界面下方，包含：

转录文本：音频内容的文字版本
处理状态：显示识别是否成功完成
额外信息：可能包含情感分析或音频事件检测结果（如果模型检测到相关特征）

识别结果示例

4. 实际应用案例

4.1 案例一：会议录音转文字

场景：将团队会议录音快速转换为文字记录

操作步骤：

录制会议音频或获取会议录音文件
上传音频到Gradio界面
选择"自动检测"语言（如果是中文会议就选中文）
点击识别，获得文字稿
复制结果到文档中整理

效果：60分钟会议录音，处理时间约1-2分钟，准确率超过95%

4.2 案例二：外语学习辅助

场景：检查外语发音和听力材料的理解准确性

操作步骤：

录制自己说的外语或上传外语学习材料
选择对应的外语类型（如英语、日语等）
识别后对比原文，检查发音准确性
对于听力材料，可以先听写再对比识别结果

效果：帮助发现发音问题，提高语言学习效率

4.3 案例三：视频字幕生成

场景：为自制视频添加字幕

操作步骤：

提取视频中的音频轨道
上传音频进行识别
获得文字结果后，使用字幕工具制作字幕文件
将字幕与视频合成

效果：大大减少手动添加字幕的时间和工作量

5. 常见问题与解决方法

5.1 模型加载慢或失败

问题现象：启动时卡在模型加载阶段，长时间没有响应

解决方法：

检查网络连接是否正常
确保磁盘空间充足（至少2GB可用空间）
如果是第一次运行，请耐心等待，模型下载需要时间
重启服务：按Ctrl+C停止服务，重新运行python webui.py

5.2 识别结果不准确

问题现象：转录文字与实际内容有较大出入

解决方法：

确保音频质量良好，没有太多背景噪音
尝试选择具体的语言而不是自动检测
对于专业术语较多的内容，识别准确率可能会有所下降
可以尝试将长音频分割成较短片段分别识别

5.3 无法录音或上传文件

问题现象：录音按钮灰色或上传功能不正常

解决方法：

检查浏览器是否允许麦克风访问权限
尝试使用Chrome或Firefox等现代浏览器
检查音频文件格式是否受支持（MP3、WAV等）
确保文件大小不超过50MB

5.4 服务无法访问

问题现象：浏览器无法打开Web界面

解决方法：

检查服务是否正常启动（终端应该显示运行URL）
确认输入的URL地址正确（通常是http://127.0.0.1:7860）
如果是远程服务器，需要配置相应的网络权限
检查防火墙设置，确保7860端口可访问

6. 进阶使用技巧

6.1 批量处理多个文件

虽然Web界面一次只能处理一个文件，但你可以通过简单修改代码实现批量处理：

import os
from gradio_utils import process_audio

# 批量处理文件夹中的所有音频文件
audio_folder = "/path/to/your/audio/files"
output_folder = "/path/to/output/text"

for filename in os.listdir(audio_folder):
    if filename.endswith(('.mp3', '.wav', '.flac')):
        audio_path = os.path.join(audio_folder, filename)
        result = process_audio(audio_path, language="auto")
        
        # 保存结果到文件
        output_path = os.path.join(output_folder, f"{filename}.txt")
        with open(output_path, 'w', encoding='utf-8') as f:
            f.write(result)

6.2 调整识别参数

如果你需要调整识别参数，可以修改webui.py中的相关设置：

# 在webui.py中找到模型加载部分，可以调整以下参数
model = pipeline(
    task="automatic-speech-recognition",
    model="iic/SenseVoiceSmall",
    device="cpu",  # 可以改为"cuda"如果有GPU
    batch_size=10,  # 批处理大小
    # 其他参数...
)

6.3 集成到其他应用

SenseVoice识别服务可以轻松集成到其他Python应用中：

import requests

def transcribe_audio(audio_path, api_url="http://127.0.0.1:7860"):
    """
    调用SenseVoice API进行语音识别
    """
    # 上传音频文件
    with open(audio_path, 'rb') as f:
        files = {'audio': f}
        response = requests.post(f"{api_url}/api/transcribe", files=files)
    
    if response.status_code == 200:
        return response.json()['text']
    else:
        return f"Error: {response.status_code}"