使用Docker部署SenseVoice-Small语音识别服务

本文介绍了如何在星图GPU平台上自动化部署sensevoice-small-语音识别-onnx模型(带量化后)镜像，快速搭建语音识别服务。该服务可应用于会议实时转录、语音助手等场景，通过简单的API调用即可将音频转换为文本，提升语音处理效率。

序雨

314人浏览 · 2026-03-03 00:57:17

序雨 · 2026-03-03 00:57:17 发布

使用Docker部署SenseVoice-Small语音识别服务

1. 开篇：为什么选择Docker部署语音识别服务

语音识别技术现在已经渗透到我们生活的方方面面，从手机语音助手到智能家居控制，再到会议实时转录，都离不开这项技术。SenseVoice-Small作为一个轻量级的语音识别模型，在很多场景下都能提供不错的识别效果。

但是，在实际部署过程中，很多人会遇到环境配置复杂、依赖冲突、版本兼容等问题。这时候Docker就派上用场了——它能把整个应用和它的运行环境打包在一起，让你在任何地方都能快速部署和运行。

今天我就来手把手教你如何用Docker部署SenseVoice-Small语音识别服务。无论你是刚接触Docker的新手，还是有一定经验的开发者，都能跟着这篇文章顺利完成部署。

2. 准备工作：部署前的环境检查

在开始之前，我们需要确保本地环境已经准备就绪。这里不需要什么特殊的硬件要求，普通的开发机或者服务器都能运行。

首先检查一下你的系统是否已经安装了Docker。打开终端，输入：

docker --version

如果显示了Docker版本信息，说明已经安装好了。如果还没安装，可以去Docker官网下载对应版本的Docker Desktop（Windows/Mac）或者Docker Engine（Linux）。

接下来检查Docker服务是否正常运行：

docker info

这个命令会显示Docker的详细配置信息，如果正常显示，说明Docker服务已经在运行了。

最后，我们需要准备一些磁盘空间。SenseVoice-Small模型文件大约需要500MB左右的空间，加上系统依赖和Docker本身，建议预留至少2GB的可用空间。

3. 获取SenseVoice-Small模型文件

SenseVoice-Small是一个开源的语音识别模型，我们可以从官方的代码仓库或者模型仓库获取所需的文件。

最简单的方式是使用git克隆项目仓库：

git clone https://github.com/sensevoice/sensevoice-small.git
cd sensevoice-small

如果你只需要模型权重文件，也可以直接从模型仓库下载：

wget https://huggingface.co/sensevoice/sensevoice-small/resolve/main/model_weights.pth

下载完成后，建议创建一个专门的目录来存放模型文件和相关资源：

mkdir -p models/sensevoice-small
mv model_weights.pth models/sensevoice-small/

这样我们就有了模型权重文件，接下来需要准备推理代码和相关的依赖配置。

4. 编写Dockerfile：构建自定义镜像

Dockerfile是构建Docker镜像的蓝图，它定义了镜像的组成内容和运行方式。下面是一个针对SenseVoice-Small的Dockerfile示例：

# 使用官方Python镜像作为基础
FROM python:3.9-slim

# 设置工作目录
WORKDIR /app

# 安装系统依赖
RUN apt-get update && apt-get install -y \
    ffmpeg \
    libsndfile1 \
    && rm -rf /var/lib/apt/lists/*

# 复制项目文件
COPY requirements.txt .
COPY app.py .
COPY models/ ./models/

# 安装Python依赖
RUN pip install --no-cache-dir -r requirements.txt

# 暴露服务端口
EXPOSE 8000

# 设置启动命令
CMD ["python", "app.py", "--host", "0.0.0.0", "--port", "8000"]

这个Dockerfile做了以下几件事情：

基于官方的Python 3.9精简镜像开始构建
安装了FFmpeg和libsndfile这两个音频处理必需的库
复制项目文件到容器内
安装Python依赖包
设置服务监听的端口和启动命令

需要注意的是，我们使用了python:3.9-slim这个镜像，它比完整版的Python镜像要小很多，能节省不少磁盘空间和下载时间。

5. 准备应用代码和依赖配置

现在我们需要创建两个关键文件：requirements.txt和app.py。requirements.txt定义了Python依赖包，app.py是我们的语音识别服务主程序。

先创建requirements.txt：

torch>=2.0.0
torchaudio>=2.0.0
fastapi>=0.100.0
uvicorn>=0.23.0
librosa>=0.10.0
pydantic>=2.0.0

这些依赖包分别提供了深度学习推理、Web服务框架、音频处理等功能。

接下来创建app.py，这是一个基于FastAPI的简单语音识别服务：

from fastapi import FastAPI, File, UploadFile
from fastapi.responses import JSONResponse
import torch
import torchaudio
from librosa import resample
import numpy as np
import io

app = FastAPI(title="SenseVoice-Small语音识别服务")

# 加载模型（这里需要根据实际模型结构实现）
def load_model(model_path):
    # 实际项目中这里需要实现具体的模型加载逻辑
    # 使用torch.load加载模型权重
    # 设置模型为评估模式
    model = None  # 这里应该是实际的模型实例
    if model_path:
        try:
            state_dict = torch.load(model_path, map_location='cpu')
            model.load_state_dict(state_dict)
            model.eval()
        except Exception as e:
            print(f"加载模型失败: {e}")
    return model

# 初始化模型
model = load_model("models/sensevoice-small/model_weights.pth")

@app.post("/recognize")
async def recognize_speech(audio: UploadFile = File(...)):
    try:
        # 读取音频文件
        audio_data = await audio.read()
        audio_buffer = io.BytesIO(audio_data)
        
        # 使用torchaudio加载音频
        waveform, sample_rate = torchaudio.load(audio_buffer)
        
        # 音频预处理（重采样到模型需要的采样率）
        target_sample_rate = 16000
        if sample_rate != target_sample_rate:
            waveform = torchaudio.transforms.Resample(
                sample_rate, target_sample_rate
            )(waveform)
        
        # 调用模型进行推理
        with torch.no_grad():
            # 这里应该是实际的模型推理代码
            result = "这是识别结果示例"  # 替换为实际推理结果
        
        return JSONResponse({
            "status": "success",
            "text": result,
            "sample_rate": sample_rate
        })
    
    except Exception as e:
        return JSONResponse({
            "status": "error",
            "message": str(e)
        }, status_code=500)

@app.get("/health")
async def health_check():
    return {"status": "healthy", "model_loaded": model is not None}

if __name__ == "__main__":
    import uvicorn
    uvicorn.run(app, host="0.0.0.0", port=8000)

这个简单的Web服务提供了两个接口：/recognize用于语音识别，/health用于健康检查。

6. 构建和运行Docker容器

现在我们已经准备好了所有文件，可以开始构建Docker镜像了。在项目根目录下运行：

docker build -t sensevoice-small-service .

这个命令会根据Dockerfile构建一个名为sensevoice-small-service的镜像。构建过程可能需要几分钟时间，具体取决于网络速度和系统性能。

构建完成后，我们可以用以下命令查看镜像列表：

docker images

应该能看到新构建的sensevoice-small-service镜像。

现在来运行这个镜像：

docker run -d -p 8000:8000 --name sensevoice-service sensevoice-small-service

这个命令会在后台启动一个容器，将容器的8000端口映射到主机的8000端口。

检查容器是否正常运行：

docker ps

如果看到sensevoice-service容器处于运行状态，说明部署成功了。

7. 测试语音识别服务

服务启动后，我们需要测试一下是否正常工作。首先进行健康检查：

curl http://localhost:8000/health

应该会返回类似这样的响应：

{"status":"healthy","model_loaded":true}

现在测试语音识别功能。我们需要准备一个音频文件（WAV格式），然后使用curl发送请求：

curl -X POST -F "audio=@test.wav" http://localhost:8000/recognize

如果一切正常，你会收到一个JSON响应，包含识别出的文字内容。

对于更详细的测试，你可以使用Python脚本来发送请求：

import requests

url = "http://localhost:8000/recognize"
with open("test.wav", "rb") as f:
    files = {"audio": f}
    response = requests.post(url, files=files)

print(response.json())

8. 使用Docker Compose编排服务

在实际生产环境中，我们通常使用Docker Compose来管理多容器应用。即使只有一个服务，使用Docker Compose也能让管理变得更加方便。

创建一个docker-compose.yml文件：

version: '3.8'

services:
  sensevoice-service:
    build: .
    ports:
      - "8000:8000"
    volumes:
      - ./models:/app/models
      - ./logs:/app/logs
    environment:
      - MODEL_PATH=models/sensevoice-small/model_weights.pth
      - LOG_LEVEL=INFO
    restart: unless-stopped
    healthcheck:
      test: ["CMD", "curl", "-f", "http://localhost:8000/health"]
      interval: 30s
      timeout: 10s
      retries: 3

这个配置文件定义了服务的基本参数，包括端口映射、数据卷、环境变量和健康检查。

现在可以使用以下命令启动服务：

docker-compose up -d

查看服务状态：

docker-compose ps

停止服务：

docker-compose down

使用Docker Compose的好处是配置集中管理，一键启停，非常适合开发和测试环境。

9. 性能优化和资源限制

在生产环境中，我们需要对容器资源使用进行限制，避免单个服务占用过多资源影响其他服务。

在docker-compose.yml中添加资源限制：

services:
  sensevoice-service:
    # ...其他配置...
    deploy:
      resources:
        limits:
          memory: 2G
          cpus: '2'
        reservations:
          memory: 1G
          cpus: '1'

对于直接使用docker run的情况，可以添加资源限制参数：

docker run -d \
  --name sensevoice-service \
  -p 8000:8000 \
  --memory=2g \
  --cpus=2 \
  sensevoice-small-service

另外，我们还可以调整模型的推理参数来优化性能。在app.py中，可以添加一些配置选项：

# 模型推理配置
inference_config = {
    "batch_size": 1,
    "max_audio_length": 30,  # 最大音频长度（秒）
    "device": "cpu",         # 使用CPU还是GPU
}

如果你的服务器有GPU，可以修改配置使用GPU加速：

inference_config["device"] = "cuda" if torch.cuda.is_available() else "cpu"

记得在Docker运行时添加GPU支持：

docker run -d \
  --name sensevoice-service \
  --gpus all \
  -p 8000:8000 \
  sensevoice-small-service

10. 实际使用中的技巧和建议

在实际使用过程中，这里有一些实用技巧可以帮助你更好地运行和管理语音识别服务。

日志管理：建议将容器日志输出到外部文件，方便排查问题。可以在docker-compose.yml中配置：

services:
  sensevoice-service:
    # ...其他配置...
    logging:
      driver: "json-file"
      options:
        max-size: "10m"
        max-file: "3"

数据持久化：模型文件和日志文件应该保存在容器外部，避免数据丢失：

docker run -d \
  -v $(pwd)/models:/app/models \
  -v $(pwd)/logs:/app/logs \
  -p 8000:8000 \
  sensevoice-small-service

环境配置：使用环境变量来配置服务参数，避免硬编码：

import os

model_path = os.getenv("MODEL_PATH", "models/sensevoice-small/model_weights.pth")
log_level = os.getenv("LOG_LEVEL", "INFO")

监控和告警：可以配置健康检查自动重启失败的服务：

healthcheck:
  test: ["CMD", "curl", "-f", "http://localhost:8000/health"]
  interval: 30s
  timeout: 10s
  retries: 3
  start_period: 40s

11. 总结

通过这篇文章，我们完整地走了一遍使用Docker部署SenseVoice-Small语音识别服务的流程。从环境准备、模型获取，到Docker镜像构建、服务部署，再到性能优化和实际使用技巧，每个步骤都提供了详细的说明和代码示例。

Docker化的部署方式确实带来了很多便利——环境隔离、依赖管理、快速部署、易于扩展。特别是对于AI模型这类依赖复杂的环境，用Docker打包可以避免很多兼容性问题。

在实际使用中，你可能还需要根据具体需求调整一些配置，比如模型参数、推理逻辑、服务接口等。但基本的部署框架已经搭好了，剩下的就是在这个基础上不断完善和优化了。

如果你在部署过程中遇到问题，建议先检查日志输出，大部分问题都能从日志中找到线索。也可以调整日志级别为DEBUG来获取更详细的信息。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

接手项目后，我对 Claude Code 说的第一句话（附 Prompt 模板）

AI Agent技术社区

深度拆解 Headroom：AI Agent 的「上下文压缩层」，Token 暴降 60-95% 的背后原理

AI Agent技术社区

《从0到1带你Obsidian接入DeepSeek》

AI Agent技术社区

所有评论(0)

查看更多评论

序雨

@weixin_29443363

已为社区贡献7条内容

使用Docker部署SenseVoice-Small语音识别服务

序雨

使用Docker部署SenseVoice-Small语音识别服务

1. 开篇：为什么选择Docker部署语音识别服务

2. 准备工作：部署前的环境检查

3. 获取SenseVoice-Small模型文件

4. 编写Dockerfile：构建自定义镜像

5. 准备应用代码和依赖配置

6. 构建和运行Docker容器

7. 测试语音识别服务

8. 使用Docker Compose编排服务

9. 性能优化和资源限制

10. 实际使用中的技巧和建议

11. 总结

所有评论(0)

温馨提示：您尚未绑定手机号

序雨