语音识别模型服务化：SenseVoice-Small ONNX版本多并发HTTP API部署指南

本文介绍了如何在星图GPU平台上自动化部署sensevoice-small-语音识别-onnx模型(带量化后)镜像，以构建支持多并发的语音识别HTTP API服务。该服务可高效应用于在线会议实时转录、客服录音分析等场景，实现音频到文字的快速、准确转换。

seiji morisako

702人浏览 · 2026-03-03 05:12:36

seiji morisako · 2026-03-03 05:12:36 发布

语音识别模型服务化：SenseVoice-Small ONNX版本多并发HTTP API部署指南

1. 引言：从本地工具到在线服务

如果你用过一些语音识别的工具，可能会发现一个问题：它们通常只能在你的电脑上运行，一次只能处理一个任务。想象一下，你的应用需要同时为成百上千的用户提供语音转文字服务，比如在线会议转录、客服录音分析，或者短视频字幕生成，这时候单机版的工具就完全不够用了。

这就是我们今天要解决的问题：如何把一个强大的语音识别模型——SenseVoice-Small ONNX版本——从一个“单机工具”变成一个“在线服务”。这个服务要能同时处理多个用户的请求，要稳定可靠，还要容易调用。

SenseVoice-Small 本身就很厉害。它支持超过50种语言，识别效果比大家熟知的Whisper模型还要好。更特别的是，它不仅能识别文字，还能识别说话人的情感（比如高兴、生气），检测音频中的事件（比如掌声、笑声）。最吸引人的是它的速度——处理10秒的音频只需要70毫秒，比Whisper-Large快15倍。

但光有好的模型还不够，我们需要把它“服务化”。这篇文章就是一份详细的指南，我会带你一步步搭建一个支持多并发请求的HTTP API服务。无论你是想为自己的产品增加语音识别功能，还是想学习如何部署AI模型服务，这篇文章都能帮到你。

2. 准备工作：理解我们的工具箱

在开始动手之前，我们先简单了解一下要用到的几个关键工具。别担心，我会用最直白的方式解释。

SenseVoice-Small ONNX模型 这是我们的核心“大脑”。ONNX是一种模型格式，它的好处是可以在不同的硬件和框架上运行，兼容性很好。这个版本还经过了“量化”处理，简单说就是让模型变得更小、运行更快，但精度损失很小。模型文件通常包括识别文字的主模型，可能还有负责情感识别、事件检测的辅助模型。

ModelScope 你可以把它想象成一个“模型应用商店”。我们不是直接从零开始写代码加载模型，而是通过ModelScope提供的标准方法来加载，这样更简单、更不容易出错。它帮我们处理了模型下载、环境配置这些繁琐的事情。

Gradio 这是一个快速构建Web界面的工具。我们之前看到的那个能上传音频、点击按钮识别的网页，就是用Gradio做的。它特别适合AI模型的演示和测试。

FastAPI 这是我们今天要重点使用的工具，它是一个现代的Python Web框架，专门用来构建API服务。相比传统的Flask，FastAPI性能更好，自动生成API文档，而且写起来更简单。我们的多并发HTTP API就要用它来搭建。

Uvicorn 这是一个ASGI服务器，你可以把它理解为FastAPI的“发动机”。它负责接收网络请求，然后把请求交给FastAPI处理，最后把结果返回给用户。它支持多并发，性能很好。

现在你知道了我们要用哪些工具，接下来就进入正题。

3. 环境搭建与模型准备

3.1 创建并激活Python环境

首先，我们需要一个干净的Python环境。打开你的终端（Linux/Mac）或命令提示符/PowerShell（Windows），执行以下命令：

# 创建新的虚拟环境，命名为 sensevoice_api
python -m venv sensevoice_api_env

# 激活虚拟环境
# 在 Linux/Mac 上：
source sensevoice_api_env/bin/activate
# 在 Windows 上：
sensevoice_api_env\Scripts\activate

激活后，你的命令行前面应该会出现环境名称，比如 (sensevoice_api_env)。

3.2 安装必要的依赖包

接下来，安装我们需要的所有Python包。创建一个 requirements.txt 文件，或者直接一行行安装：

pip install fastapi uvicorn modelscope funasr python-multipart

fastapi 和 uvicorn 是我们的Web框架和服务器。
modelscope 用来加载SenseVoice模型。
funasr 是ModelScope中语音识别相关的核心库，SenseVoice基于它。
python-multipart 用于处理文件上传。

3.3 下载并验证SenseVoice-Small ONNX模型

模型加载的代码其实很简单。ModelScope会帮我们自动下载模型。我们先写一个简单的脚本来测试模型是否能正常加载和运行：

# test_model_load.py
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

print("正在加载SenseVoice-Small模型，首次运行会自动下载，请耐心等待...")
# 创建语音识别管道
inference_pipeline = pipeline(
    task=Tasks.auto_speech_recognition,
    model='iic/SenseVoiceSmall',
    model_revision='v1.0.0'
)

# 准备一个测试音频路径（这里需要你准备一个短的wav文件）
test_audio_path = "test.wav"  # 请确保这个文件存在

try:
    # 执行识别
    result = inference_pipeline(audio_in=test_audio_path)
    print("模型加载与测试成功！")
    print(f"识别结果: {result.get('text', 'No text found')}")
    # 如果模型支持，还会输出情感和事件信息
    if 'emotion' in result:
        print(f"情感识别: {result['emotion']}")
except Exception as e:
    print(f"测试过程中出现错误: {e}")
    print("请检查：1. 音频文件路径 2. 网络连接 3. 依赖包是否安装完整")

运行这个脚本 python test_model_load.py。如果看到成功的识别结果，恭喜你，模型准备就绪。如果遇到网络问题下载失败，你可能需要配置一下ModelScope的镜像源。

4. 构建基础FastAPI服务

现在模型准备好了，我们来搭建一个最基础的API服务。这个服务只有一个功能：接收一个音频文件，返回识别文字。

4.1 创建主应用文件

创建一个名为 main.py 的文件，这是我们的服务入口。

# main.py
import os
import time
from typing import Optional
from fastapi import FastAPI, File, UploadFile, HTTPException
from fastapi.responses import JSONResponse
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
import tempfile

# 初始化FastAPI应用
app = FastAPI(
    title="SenseVoice-Small ASR API Service",
    description="基于SenseVoice-Small ONNX模型的多语言语音识别HTTP API，支持情感与事件检测。",
    version="1.0.0"
)

# 全局变量，用于缓存加载的模型管道
_model_pipeline = None

def get_model_pipeline():
    """获取模型管道，使用单例模式避免重复加载"""
    global _model_pipeline
    if _model_pipeline is None:
        print("正在初始化SenseVoice-Small模型管道...")
        # 这里可以添加更多模型配置参数，例如 device='cuda:0' 来使用GPU
        _model_pipeline = pipeline(
            task=Tasks.auto_speech_recognition,
            model='iic/SenseVoiceSmall',
            model_revision='v1.0.0'
        )
        print("模型管道初始化完成。")
    return _model_pipeline

@app.on_event("startup")
async def startup_event():
    """服务启动时预加载模型"""
    # 这会在服务启动时调用get_model_pipeline，完成模型的加载
    # 这样第一个API请求就不会有模型加载的延迟了
    get_model_pipeline()
    print("ASR API 服务启动完成，模型已就绪。")

@app.get("/")
async def root():
    """根路径，返回服务基本信息"""
    return {
        "service": "SenseVoice-Small ASR API",
        "status": "running",
        "endpoints": {
            "健康检查": "/health",
            "语音识别": "/api/v1/recognize (POST)",
            "API文档": "/docs"
        }
    }

@app.get("/health")
async def health_check():
    """健康检查端点"""
    try:
        # 简单检查模型是否已加载
        pipeline = get_model_pipeline()
        return {"status": "healthy", "model_loaded": pipeline is not None}
    except Exception as e:
        raise HTTPException(status_code=503, detail=f"服务异常: {str(e)}")

@app.post("/api/v1/recognize")
async def recognize_speech(
    audio_file: UploadFile = File(..., description="上传的音频文件 (支持 wav, mp3, aac 等常见格式)"),
    language: Optional[str] = None,
    enable_emotion: bool = True,
    enable_event: bool = True
):
    """
    语音识别主接口。
    
    - **audio_file**: 必须上传的音频文件
    - **language**: 可选，指定语言（如 'zh', 'en', 'ja'）。为None时模型自动检测。
    - **enable_emotion**: 是否启用情感识别
    - **enable_event**: 是否启用声音事件检测
    """
    start_time = time.time()
    
    # 1. 验证文件类型
    allowed_content_types = ['audio/wav', 'audio/mpeg', 'audio/mp3', 'audio/aac', 'audio/x-wav']
    if audio_file.content_type not in allowed_content_types:
        raise HTTPException(
            status_code=400,
            detail=f"不支持的文件类型: {audio_file.content_type}。请上传音频文件。"
        )
    
    # 2. 保存上传的临时文件
    suffix = os.path.splitext(audio_file.filename)[1] if audio_file.filename else '.wav'
    with tempfile.NamedTemporaryFile(delete=False, suffix=suffix) as tmp_file:
        content = await audio_file.read()
        tmp_file.write(content)
        tmp_file_path = tmp_file.name
    
    try:
        # 3. 准备推理参数
        inference_kwargs = {}
        if language:
            inference_kwargs['language'] = language
        # 注意：SenseVoice模型的情感/事件控制参数可能需要根据具体模型版本调整
        # 此处仅为示例，实际参数名请查阅官方文档
        # inference_kwargs['emotion'] = enable_emotion
        # inference_kwargs['event'] = enable_event
        
        # 4. 调用模型进行识别
        pipeline = get_model_pipeline()
        result = pipeline(audio_in=tmp_file_path, **inference_kwargs)
        
        # 5. 处理并返回结果
        processing_time = time.time() - start_time
        
        response_data = {
            "text": result.get("text", ""),
            "language": result.get("language", "unknown"),
            "processing_time_seconds": round(processing_time, 3)
        }
        
        # 添加情感和事件信息（如果模型返回且用户启用）
        if enable_emotion and 'emotion' in result:
            response_data['emotion'] = result['emotion']
        if enable_event and 'event' in result:
            response_data['events'] = result['event']
        
        return JSONResponse(content=response_data)
        
    except Exception as e:
        raise HTTPException(status_code=500, detail=f"识别过程中出错: {str(e)}")
    finally:
        # 6. 清理临时文件
        try:
            os.unlink(tmp_file_path)
        except:
            pass

if __name__ == "__main__":
    import uvicorn
    # 启动服务器，监听所有网络接口的8000端口
    uvicorn.run(app, host="0.0.0.0", port=8000)

4.2 运行并测试基础服务

保存好 main.py 后，在终端运行：

python main.py

你会看到类似这样的输出：

正在初始化SenseVoice-Small模型管道...
模型管道初始化完成。
ASR API 服务启动完成，模型已就绪。
INFO:     Started server process [12345]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)

现在打开你的浏览器，访问 http://localhost:8000/docs。你会看到一个自动生成的API文档页面（Swagger UI）。你可以在这里：

看到我们定义的两个接口 /health 和 /api/v1/recognize。
点击 /api/v1/recognize 的 "Try it out" 按钮。
选择一个音频文件上传，然后点击 "Execute"。

如果一切正常，你会收到一个JSON响应，里面包含识别出的文字、处理时间等信息。

5. 实现多并发与性能优化

基础服务有了，但它还比较“脆弱”。如果很多人同时来访问，它可能会变慢甚至崩溃。我们需要让它变得更强壮，能同时服务多个用户。

5.1 理解并发问题

当多个用户同时发送请求时，我们的服务会遇到几个挑战：

模型推理是计算密集型操作，会占用CPU/GPU资源。
Python的全局解释器锁（GIL） 限制了多线程并行执行CPU密集型任务。
多个请求可能同时修改全局变量，导致错误。

5.2 使用背景任务与线程池

FastAPI 本身支持异步处理，但模型推理通常是同步的CPU密集型任务。我们可以用线程池来避免阻塞主事件循环。

修改 main.py，增加并发处理能力：

# 在文件顶部新增导入
import concurrent.futures
from concurrent.futures import ThreadPoolExecutor

# 在全局变量部分添加线程池
_model_pipeline = None
# 创建一个线程池，max_workers控制最大并发数，根据你的CPU核心数调整
_thread_pool = ThreadPoolExecutor(max_workers=4)

# 修改 recognize_speech 函数中调用模型的部分：
@app.post("/api/v1/recognize")
async def recognize_speech(...):  # 参数部分不变
    # ... 前面的文件验证和保存代码不变 ...
    
    try:
        # 将模型推理任务提交到线程池中执行，避免阻塞异步事件循环
        inference_kwargs = {'audio_in': tmp_file_path}
        if language:
            inference_kwargs['language'] = language
        
        # 使用线程池执行推理任务
        loop = asyncio.get_event_loop()
        pipeline = get_model_pipeline()
        
        # 注意：这里将同步函数包装为异步执行
        result = await loop.run_in_executor(
            _thread_pool,
            lambda: pipeline(**inference_kwargs)
        )
        
        # ... 后面的结果处理代码不变 ...

5.3 添加请求队列与限流

为了防止服务被过多请求压垮，我们还需要添加限流机制。安装额外的包：

pip install slowapi

然后在 main.py 中添加限流：

# 新增导入
from slowapi import Limiter, _rate_limit_exceeded_handler
from slowapi.util import get_remote_address
from slowapi.errors import RateLimitExceeded
from fastapi import Request

# 初始化限流器
limiter = Limiter(key_func=get_remote_address)
app.state.limiter = limiter
app.add_exception_handler(RateLimitExceeded, _rate_limit_exceeded_handler)

# 修改 recognize_speech 函数，添加限流装饰器
@app.post("/api/v1/recognize")
@limiter.limit("10/minute")  # 每个IP每分钟最多10次请求
async def recognize_speech(
    request: Request,  # 新增request参数，用于限流
    audio_file: UploadFile = File(...),
    # ... 其他参数不变 ...
):
    # ... 函数体不变 ...

5.4 性能优化建议

批处理支持：如果经常需要同时处理多个音频文件，可以添加批处理接口，一次请求上传多个文件，减少网络开销。
结果缓存：对于相同的音频文件，可以缓存识别结果。安装 redis 并添加缓存层。

GPU加速：如果你有NVIDIA GPU，可以修改模型加载代码，指定使用GPU：

_model_pipeline = pipeline(
    task=Tasks.auto_speech_recognition,
    model='iic/SenseVoiceSmall',
    model_revision='v1.0.0',
    device='cuda:0'  # 使用第一个GPU
)

监控与日志：添加详细的日志记录，监控每个请求的处理时间、成功率等。

6. 生产环境部署

在你自己电脑上测试没问题后，我们需要把它部署到服务器上，让所有人都能访问。

6.1 使用Gunicorn管理Uvicorn进程

对于生产环境，我们通常用Gunicorn作为进程管理器，配合Uvicorn工作进程。首先安装Gunicorn：

pip install gunicorn

创建一个 gunicorn_config.py 配置文件：

# gunicorn_config.py
import multiprocessing

# 服务器绑定的IP和端口
bind = "0.0.0.0:8000"

# 工作进程数，通常设置为 CPU核心数 * 2 + 1
workers = multiprocessing.cpu_count() * 2 + 1

# 使用uvicorn的工作进程类
worker_class = "uvicorn.workers.UvicornWorker"

# 每个工作进程处理的请求数后重启，防止内存泄漏
max_requests = 1000
max_requests_jitter = 50

# 超时设置
timeout = 120
keepalive = 5

# 日志配置
accesslog = "-"  # 输出到标准输出
errorlog = "-"   # 输出到标准错误
loglevel = "info"

# 进程名
proc_name = "sensevoice_asr_api"

6.2 使用Docker容器化部署

Docker能确保应用在任何环境下的运行一致性。创建一个 Dockerfile：

# Dockerfile
FROM python:3.9-slim

# 设置工作目录
WORKDIR /app

# 安装系统依赖（如果需要音频处理库）
RUN apt-get update && apt-get install -y \
    ffmpeg \
    libsndfile1 \
    && rm -rf /var/lib/apt/lists/*

# 复制依赖文件并安装
COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt

# 复制应用代码
COPY . .

# 暴露端口
EXPOSE 8000

# 启动命令
CMD ["gunicorn", "-c", "gunicorn_config.py", "main:app"]

再创建一个 docker-compose.yml 方便管理：

# docker-compose.yml
version: '3.8'

services:
  sensevoice-api:
    build: .
    container_name: sensevoice-asr-api
    ports:
      - "8000:8000"
    environment:
      - PYTHONUNBUFFERED=1
      # 可以在这里添加其他环境变量，比如模型缓存路径
    volumes:
      # 如果需要持久化模型缓存，可以挂载卷
      - model-cache:/root/.cache/modelscope
    restart: unless-stopped
    # 资源限制
    deploy:
      resources:
        limits:
          cpus: '4'
          memory: 8G

volumes:
  model-cache:

6.3 部署到云服务器

假设你有一台云服务器（比如阿里云、腾讯云的ECS），部署步骤很简单：

将代码上传到服务器：

scp -r your-local-folder user@your-server-ip:/opt/sensevoice-api

在服务器上启动服务：

cd /opt/sensevoice-api
docker-compose up -d

配置域名和SSL（可选但推荐）：使用Nginx作为反向代理，配置SSL证书：

# nginx配置示例
server {
    listen 80;
    server_name your-domain.com;
    return 301 https://$server_name$request_uri;
}

server {
    listen 443 ssl http2;
    server_name your-domain.com;
    
    ssl_certificate /path/to/cert.pem;
    ssl_certificate_key /path/to/key.pem;
    
    location / {
        proxy_pass http://localhost:8000;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
    }
}

7. 客户端调用示例

服务部署好了，怎么调用呢？这里给出几个常见语言的调用示例。

7.1 Python客户端

# python_client.py
import requests

api_url = "http://your-server-ip:8000/api/v1/recognize"
audio_file_path = "test_audio.wav"

with open(audio_file_path, 'rb') as f:
    files = {'audio_file': (audio_file_path, f, 'audio/wav')}
    data = {
        'language': 'zh',  # 可选，指定中文
        'enable_emotion': True,
        'enable_event': True
    }
    
    response = requests.post(api_url, files=files, data=data)
    
    if response.status_code == 200:
        result = response.json()
        print(f"识别文本: {result['text']}")
        print(f"处理时间: {result['processing_time_seconds']}秒")
        if 'emotion' in result:
            print(f"情感识别: {result['emotion']}")
    else:
        print(f"请求失败: {response.status_code}")
        print(response.text)

7.2 JavaScript/Node.js客户端

// node_client.js
const axios = require('axios');
const FormData = require('form-data');
const fs = require('fs');

async function recognizeAudio() {
    const apiUrl = 'http://your-server-ip:8000/api/v1/recognize';
    const audioPath = 'test_audio.wav';
    
    const formData = new FormData();
    formData.append('audio_file', fs.createReadStream(audioPath));
    formData.append('language', 'zh');
    formData.append('enable_emotion', 'true');
    
    try {
        const response = await axios.post(apiUrl, formData, {
            headers: formData.getHeaders(),
        });
        
        console.log('识别结果:', response.data.text);
        console.log('处理时间:', response.data.processing_time_seconds, '秒');
        if (response.data.emotion) {
            console.log('情感识别:', response.data.emotion);
        }
    } catch (error) {
        console.error('请求失败:', error.response?.data || error.message);
    }
}

recognizeAudio();

7.3 简单的前端调用示例

<!-- simple_frontend.html -->
<!DOCTYPE html>
<html>
<head>
    <title>SenseVoice ASR 测试前端</title>
</head>
<body>
    <h2>语音识别测试</h2>
    <input type="file" id="audioFile" accept="audio/*">
    <button onclick="uploadAudio()">上传并识别</button>
    <div id="result" style="margin-top: 20px; padding: 10px; border: 1px solid #ccc;"></div>
    
    <script>
    async function uploadAudio() {
        const fileInput = document.getElementById('audioFile');
        const resultDiv = document.getElementById('result');
        
        if (!fileInput.files.length) {
            resultDiv.innerHTML = '<p style="color: red;">请先选择音频文件</p>';
            return;
        }
        
        const file = fileInput.files[0];
        const formData = new FormData();
        formData.append('audio_file', file);
        formData.append('language', 'zh');
        
        resultDiv.innerHTML = '<p>识别中，请稍候...</p>';
        
        try {
            const response = await fetch('http://your-server-ip:8000/api/v1/recognize', {
                method: 'POST',
                body: formData
            });
            
            const data = await response.json();
            
            if (response.ok) {
                let html = `<p><strong>识别文本:</strong> ${data.text}</p>`;
                html += `<p><strong>处理时间:</strong> ${data.processing_time_seconds}秒</p>`;
                if (data.emotion) {
                    html += `<p><strong>情感识别:</strong> ${JSON.stringify(data.emotion)}</p>`;
                }
                resultDiv.innerHTML = html;
            } else {
                resultDiv.innerHTML = `<p style="color: red;">识别失败: ${data.detail || '未知错误'}</p>`;
            }
        } catch (error) {
            resultDiv.innerHTML = `<p style="color: red;">请求失败: ${error.message}</p>`;
        }
    }
    </script>
</body>
</html>

8. 总结

走到这里，我们已经完成了一个完整的语音识别模型服务化项目。让我们回顾一下关键步骤：

第一步，我们理解了需求：把单机版的SenseVoice-Small模型变成能同时服务多个用户的在线API。

第二步，我们搭建了基础服务：用FastAPI创建了一个简单的HTTP接口，能够接收音频文件并返回识别结果。

第三步，我们增强了服务的健壮性：通过线程池处理并发请求，添加限流保护，让服务能够稳定处理多个用户的请求。

第四步，我们准备了生产环境部署方案：使用Docker容器化，用Gunicorn管理进程，让服务可以轻松地在任何服务器上运行。

最后，我们提供了多种调用示例：无论你用Python、JavaScript还是直接写前端页面，都能方便地调用这个服务。

这个服务现在可以用于很多实际场景：为你的应用添加语音输入功能、批量处理会议录音、分析客服电话中的客户情绪等等。SenseVoice-Small模型的多语言支持和情感识别能力，让它的应用场景更加广泛。

部署这样的服务，最需要注意的就是并发处理和资源管理。根据你的实际使用量，适当调整线程池大小、限流策略和服务器配置。如果用户量很大，你可能还需要考虑使用负载均衡、多个服务实例等技术。

希望这份指南能帮你快速搭建起自己的语音识别服务。在实际使用中，你可能会遇到各种具体问题，比如音频格式转换、识别精度优化、服务监控等，这些都可以在现有基础上继续完善。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

CC-Switch不只是切换API：从GitHub更新日志看懂它的功能和底层原理

CC Switch：从配置切换器到AI编程统一管理平台摘要： CC Switch已从最初的Claude Code/Codex供应商切换工具，发展为功能全面的AI编程管理平台。它通过统一界面管理多个AI编程工具（Claude Code、Codex、Gemini CLI等）的配置，支持供应商切换、本地代理路由、跨工具能力同步等功能。核心演进包括：采用SSOT架构集中管理供应商数据、扩展支持6+工具、

AI Agent技术社区

转载--Hermes Agent 05 | 记忆系统（上）：内置记忆的冻结快照模式与 agent-curated 策展

找到匹配的会话后，不是直接把原始对话扔回给主模型——那太长了。它用一个辅助模型（Gemini Flash）对每个匹配的会话做摘要（）：加载匹配会话的完整对话记录以匹配位置为中心，截断到 ~100,000 字符（发给 Gemini Flash，用一个聚焦的 summarization prompt 生成摘要返回带元数据的摘要结果用便宜的辅助模型（Gemini Flash）来压缩长对话，再把短摘要喂给