DeepSeek-R1-Distill-Qwen-1.5B与Docker容器化部署实践

丶本心灬

346人浏览 · 2026-02-13 00:18:11

丶本心灬 · 2026-02-13 00:18:11 发布

DeepSeek-R1-Distill-Qwen-1.5B与Docker容器化部署实践

1. 为什么选择这个模型做容器化部署

最近在给几个内部项目做AI能力接入时，发现一个很实际的问题：大模型虽然能力强，但动辄几十GB的体积和上百GB的显存需求，让很多团队的GPU服务器根本跑不起来。DeepSeek-R1系列确实惊艳，但V3版本参数量超过600B，对硬件要求实在太高了。

这时候我注意到了DeepSeek-R1-Distill-Qwen-1.5B这个模型。它只有15亿参数，模型文件大小约6.7GB，对硬件的要求明显友好得多。在一台配备24GB显存的A10 GPU服务器上，它能稳定运行，推理速度也足够应付日常业务需求。

更重要的是，这个蒸馏模型保留了原版R1的核心能力——数学推理、代码生成、多轮对话这些关键特性都还在。我们做过简单测试，在MATH-500基准测试上，它的得分是81.6，虽然比原版的83.9略低一点，但考虑到资源消耗大幅降低，这个性价比非常值得。

用Docker来部署它，不是为了赶时髦，而是解决实际问题。我们的运维团队需要统一管理几十个AI服务，每个服务都有不同的依赖、配置和启动方式。如果每个模型都用脚本手动部署，光是环境一致性就让人头疼。Docker给了我们一个标准化的解决方案：把模型、运行时、依赖包全部打包成镜像，哪里需要就推送到哪里，启动命令都一样。

2. 环境准备与基础镜像构建

2.1 硬件与系统要求

在开始之前，先确认你的服务器是否满足基本要求。我们测试过几种配置，效果都不错：

最低配置：4核CPU、30GB内存、24GB显存（如NVIDIA A10）、50GB空闲磁盘空间
推荐配置：6核CPU、32GB内存、24GB显存（如NVIDIA A10或V100）、100GB空闲磁盘空间

操作系统方面，我们主要用Alibaba Cloud Linux 3.2104 LTS，这是阿里云官方推荐的系统，对GPU驱动支持很好。如果你用Ubuntu 22.04，步骤也差不多，只是包管理命令略有不同。

2.2 安装Docker与NVIDIA容器工具包

首先安装Docker。在Alibaba Cloud Linux上，执行以下命令：

# 安装Docker
sudo yum install -y yum-utils
sudo yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo
sudo yum install -y docker-ce docker-ce-cli containerd.io

# 启动Docker服务
sudo systemctl start docker
sudo systemctl enable docker

接下来安装NVIDIA容器工具包，这是让Docker容器能访问GPU的关键：

# 配置生产存储库
curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo | \
  sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo

# 安装NVIDIA Container Toolkit
sudo yum install -y nvidia-container-toolkit

# 重启Docker使配置生效
sudo systemctl restart docker

安装完成后，验证一下是否正常工作：

# 运行一个简单的GPU测试容器
sudo docker run --rm --gpus all nvidia/cuda:11.6.2-base-ubuntu20.04 nvidia-smi

如果能看到nvidia-smi的输出，说明GPU驱动和容器工具包都配置成功了。

2.3 构建基础推理镜像

我们不直接使用现成的vLLM镜像，而是自己构建一个更轻量、更可控的基础镜像。创建一个Dockerfile：

# 使用官方CUDA基础镜像
FROM nvidia/cuda:12.4.0-base-ubuntu22.04

# 设置环境变量
ENV DEBIAN_FRONTEND=noninteractive
ENV TZ=Asia/Shanghai

# 安装必要的系统依赖
RUN apt-get update && apt-get install -y \
    python3 \
    python3-pip \
    python3-venv \
    git \
    curl \
    wget \
    && rm -rf /var/lib/apt/lists/*

# 升级pip并安装vLLM核心依赖
RUN pip3 install --upgrade pip
RUN pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
RUN pip3 install vllm==0.6.4.post1

# 创建工作目录
WORKDIR /app

# 复制启动脚本
COPY entrypoint.sh /app/entrypoint.sh
RUN chmod +x /app/entrypoint.sh

# 暴露端口
EXPOSE 8000

# 启动入口
ENTRYPOINT ["/app/entrypoint.sh"]

再创建一个entrypoint.sh启动脚本：

#!/bin/bash
set -e

# 默认参数
MODEL_PATH="/data"
PORT=${PORT:-8000}
TENSOR_PARALLEL_SIZE=${TENSOR_PARALLEL_SIZE:-1}
MAX_MODEL_LEN=${MAX_MODEL_LEN:-16384}

echo "Starting vLLM server..."
echo "Model path: $MODEL_PATH"
echo "Port: $PORT"
echo "Tensor parallel size: $TENSOR_PARALLEL_SIZE"

# 启动vLLM服务
python3 -m vllm.entrypoints.api_server \
    --model "$MODEL_PATH" \
    --port "$PORT" \
    --tensor-parallel-size "$TENSOR_PARALLEL_SIZE" \
    --max-model-len "$MAX_MODEL_LEN" \
    --enforce-eager \
    --dtype half \
    --host 0.0.0.0

构建镜像的命令很简单：

sudo docker build -t deepseek-r1-distill-qwen-1.5b:v0.1 .

这个镜像大约1.2GB，比直接拉取的完整镜像小很多，而且我们完全控制了所有依赖版本，避免了未来升级时的兼容性问题。

3. 模型下载与容器编排

3.1 下载模型文件

DeepSeek-R1-Distill-Qwen-1.5B模型在Hugging Face上可以免费获取。我们不建议直接在容器内下载，因为网络不稳定可能导致失败，而且会增加镜像体积。更好的做法是先在宿主机上下载好，然后挂载到容器中。

创建一个下载脚本download_model.sh：

#!/bin/bash
# 下载DeepSeek-R1-Distill-Qwen-1.5B模型

MODEL_NAME="deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B"
LOCAL_SAVE_PATH="/mnt/deepseek-1.5b"

# 创建目录
sudo mkdir -p "$LOCAL_SAVE_PATH"

# 安装git-lfs（如果还没安装）
if ! command -v git-lfs &> /dev/null; then
    curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
    sudo apt-get install -y git-lfs
    git lfs install
fi

# 下载模型
echo "正在下载模型：$MODEL_NAME"
git lfs clone "https://huggingface.co/$MODEL_NAME" "$LOCAL_SAVE_PATH"

echo "模型下载完成，保存在：$LOCAL_SAVE_PATH"

运行这个脚本后，模型文件会下载到/mnt/deepseek-1.5b目录下。注意确保这个目录有足够的空间，建议预留至少10GB，因为下载过程中会产生临时文件。

3.2 Docker Compose编排

对于生产环境，我们推荐使用Docker Compose来管理服务。创建一个docker-compose.yml文件：

version: '3.8'

services:
  deepseek-api:
    image: deepseek-r1-distill-qwen-1.5b:v0.1
    container_name: deepseek-api-1.5b
    restart: unless-stopped
    ports:
      - "8000:8000"
    volumes:
      - /mnt/deepseek-1.5b:/data:ro
    environment:
      - PORT=8000
      - TENSOR_PARALLEL_SIZE=1
      - MAX_MODEL_LEN=16384
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
    # 健康检查
    healthcheck:
      test: ["CMD", "curl", "-f", "http://localhost:8000/health"]
      interval: 30s
      timeout: 10s
      retries: 3
      start_period: 40s

  # 可选：添加一个简单的Web UI
  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    restart: unless-stopped
    ports:
      - "3000:8080"
    volumes:
      - /mnt/open-webui-data:/app/backend/data
    environment:
      - OPENAI_API_BASE_URL=http://deepseek-api:8000/v1
      - WEBUI_SECRET_KEY=your-secret-key-here
      - WEBUI_AUTH=false
    depends_on:
      deepseek-api:
        condition: service_healthy

这个编排文件定义了两个服务：一个是DeepSeek API服务，另一个是Open WebUI界面。它们通过Docker网络自动连接，不需要配置IP地址。

启动服务的命令：

sudo docker-compose up -d

查看服务状态：

sudo docker-compose ps
sudo docker-compose logs -f deepseek-api

你会看到类似这样的日志输出：

INFO:     Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)
INFO:     Application startup complete.

这表示API服务已经成功启动。

3.3 模型服务验证

服务启动后，可以用curl简单测试一下：

# 测试健康检查
curl http://localhost:8000/health

# 发送一个简单的推理请求
curl -X POST "http://localhost:8000/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B",
    "messages": [
      {"role": "user", "content": "你好，介绍一下你自己"}
    ],
    "temperature": 0.7
  }'

如果返回了JSON格式的响应，说明服务正常工作。响应中应该包含生成的文本内容。

4. 性能优化与实用技巧

4.1 显存与推理速度优化

15亿参数的模型在单卡上运行时，显存占用大约在12-14GB左右。我们发现几个有效的优化点：

量化设置：在启动参数中添加--dtype half，使用半精度浮点数，能减少约30%的显存占用，同时对生成质量影响很小
上下文长度控制：默认--max-model-len 16384对大多数场景来说太长了，如果业务只需要处理短文本，可以降到8192甚至4096，显存占用会进一步降低
批处理大小：vLLM默认的--max-num-seqs是256，如果并发请求不多，可以调低到64，减少内存碎片

修改后的启动命令示例：

python3 -m vllm.entrypoints.api_server \
    --model "/data" \
    --port 8000 \
    --tensor-parallel-size 1 \
    --max-model-len 8192 \
    --enforce-eager \
    --dtype half \
    --max-num-seqs 64 \
    --host 0.0.0.0

4.2 容器资源限制与监控

在生产环境中，一定要为容器设置资源限制，避免一个服务占用过多资源影响其他服务。在docker-compose.yml中添加：

deploy:
  resources:
    limits:
      memory: 24G
      cpus: '4.0'
    reservations:
      memory: 16G
      cpus: '2.0'
      devices:
        - driver: nvidia
          count: 1
          capabilities: [gpu]

监控方面，我们用一个简单的脚本定期检查容器状态：

#!/bin/bash
# monitor_deepseek.sh

echo "=== DeepSeek服务状态 ==="
sudo docker ps | grep deepseek

echo -e "\n=== GPU使用情况 ==="
sudo nvidia-smi --query-gpu=utilization.gpu,memory.used --format=csv

echo -e "\n=== 容器日志摘要 ==="
sudo docker logs deepseek-api-1.5b 2>&1 | tail -n 10

4.3 实用的小技巧

模型热更新：如果需要更换模型，不用重启整个服务。先把新模型下载到另一个目录，然后修改容器的volume挂载，最后重启容器。这样停机时间很短
日志管理：在docker-compose.yml中添加日志配置，避免日志文件无限增长：

logging:
  driver: "json-file"
  options:
    max-size: "10m"
    max-file: "3"

备份策略：模型文件很大，建议定期备份。我们用rsync同步到NAS：

rsync -avz --delete /mnt/deepseek-1.5b/ user@nas:/backup/deepseek-1.5b/

快速测试脚本：创建一个test_api.py脚本，方便开发时快速验证：

import requests
import json

def test_deepseek():
    url = "http://localhost:8000/v1/chat/completions"
    
    payload = {
        "model": "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B",
        "messages": [
            {"role": "user", "content": "用Python写一个计算斐波那契数列的函数"}
        ],
        "temperature": 0.5
    }
    
    response = requests.post(url, json=payload)
    if response.status_code == 200:
        result = response.json()
        print("生成结果：", result["choices"][0]["message"]["content"])
    else:
        print("请求失败：", response.status_code, response.text)

if __name__ == "__main__":
    test_deepseek()

5. 常见问题与解决方案

5.1 模型加载失败

最常见的错误是模型路径不对或者权限问题。如果看到类似OSError: Can't load tokenizer的错误，先检查：

确认模型文件确实下载完整，检查/mnt/deepseek-1.5b目录下是否有config.json、pytorch_model.bin等文件
确认Docker容器有读取权限：sudo chmod -R 755 /mnt/deepseek-1.5b
检查模型格式是否正确，DeepSeek-R1-Distill-Qwen-1.5B应该是Hugging Face格式，不是GGUF或其他格式

5.2 推理响应慢

如果发现响应时间很长（超过10秒），可能的原因有：

GPU未启用：检查docker-compose.yml中的devices配置是否正确，运行sudo docker exec -it deepseek-api-1.5b nvidia-smi确认容器内能看到GPU
显存不足：用nvidia-smi查看显存使用情况，如果接近100%，需要调整--max-model-len参数或增加GPU
网络延迟：如果是远程调用，检查网络状况；本地调用则检查Docker网络配置

5.3 API调用返回空内容

有时API返回了200状态码，但choices[0].message.content为空。这通常是因为提示词（prompt）格式问题。DeepSeek-R1系列模型对对话格式有特定要求，建议使用标准的chat template：

{
  "model": "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B",
  "messages": [
    {"role": "system", "content": "你是一个有用的AI助手"},
    {"role": "user", "content": "你好"}
  ]
}

5.4 容器启动失败

如果容器反复重启，查看详细日志：

sudo docker logs --tail 100 deepseek-api-1.5b

常见原因：

nvidia-container-toolkit未正确安装，导致GPU不可用
模型路径在容器内不存在，检查volume挂载路径是否正确
端口被占用，修改docker-compose.yml中的端口映射

6. 实际应用中的经验分享

在我们团队的实际使用中，这个1.5B模型主要用在三个场景：内部知识库问答、代码辅助生成、以及客服话术优化。每个场景都有不同的优化重点。

对于知识库问答，我们发现模型对长上下文的理解能力很强，但需要在提示词中明确指定"请根据提供的文档回答，不要编造信息"。我们还加了一个简单的RAG层，先用向量检索找到相关文档片段，再把片段和问题一起传给模型。

代码辅助生成方面，1.5B模型的表现超出预期。它能理解Python、JavaScript、SQL等多种语言，生成的代码质量不错。我们把它集成到VS Code插件中，开发人员写注释就能自动生成代码，效率提升很明显。

最有趣的是客服话术优化。我们把历史客服对话数据喂给模型，让它学习公司的话术风格，然后用它来优化新的客服脚本。模型不仅能保持专业度，还能加入适当的亲和力表达，效果比人工优化快得多。

不过也要坦诚地说，这个模型不是万能的。在需要极高准确性的数学计算或复杂逻辑推理时，它偶尔会出错。我们的做法是设置一个置信度阈值，当模型对自己的回答不太确定时，就转给人工处理。

整体用下来，这套Docker容器化部署方案让我们团队的AI服务能力上线时间从原来的几天缩短到几小时，而且后续维护成本很低。每次有新模型需要部署，基本上就是改改配置文件，重新构建镜像，整个过程非常顺畅。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

【花雕动手做】行空板 K10 系列实验之人工智能调用语音合成（TTS）模块

AI Agent技术社区

苏州企业AI Agent智能体从概念到落地：2026年开发者必须关注的技术范式与工程实践

AI Agent技术社区

GitHub 狂揽 4万+ Star！这个项目直接让你省下 60–95% 的 Token

AI Agent技术社区

所有评论(0)

查看更多评论

丶本心灬

@weixin_42599908

已为社区贡献24条内容

DeepSeek-R1-Distill-Qwen-1.5B与Docker容器化部署实践

丶本心灬

DeepSeek-R1-Distill-Qwen-1.5B与Docker容器化部署实践

1. 为什么选择这个模型做容器化部署

2. 环境准备与基础镜像构建

2.1 硬件与系统要求

2.2 安装Docker与NVIDIA容器工具包

2.3 构建基础推理镜像

3. 模型下载与容器编排

3.1 下载模型文件

3.2 Docker Compose编排

3.3 模型服务验证

4. 性能优化与实用技巧

4.1 显存与推理速度优化

4.2 容器资源限制与监控

4.3 实用的小技巧

5. 常见问题与解决方案

5.1 模型加载失败

5.2 推理响应慢

5.3 API调用返回空内容

5.4 容器启动失败

6. 实际应用中的经验分享

所有评论(0)

温馨提示：您尚未绑定手机号

丶本心灬