DeepSeek-R1-Distill-Qwen-1.5B部署教程：3步实现vLLM+Open-WebUI对话应用

嗹国学长

166人浏览 · 2026-02-14 00:27:11

嗹国学长 · 2026-02-14 00:27:11 发布

DeepSeek-R1-Distill-Qwen-1.5B部署教程：3步实现vLLM+Open-WebUI对话应用

1. 开篇：认识这个"小钢炮"模型

你是不是遇到过这样的困扰：想要在本地运行一个智能对话模型，但显存不够用，或者模型太大跑起来太慢？今天我要介绍的DeepSeek-R1-Distill-Qwen-1.5B可能就是你要找的解决方案。

这个模型有个很形象的绰号叫"小钢炮"——虽然只有1.5B的参数规模，但推理能力却能媲美7B级别的大模型。最让人惊喜的是，它只需要3GB显存就能运行，量化后甚至只需要0.8GB，连手机和树莓派都能轻松驾驭。

我第一次测试这个模型时，就被它的效率震惊了。在RTX 3060上，它能达到每秒200个token的生成速度，而且数学推理能力超过80分，代码生成也很不错。关键是Apache 2.0协议，商用完全免费。

2. 准备工作：环境要求与资源确认

2.1 硬件要求

这个模型对硬件的要求相当友好：

最低配置：4GB显存（运行量化版本）
推荐配置：6GB显存（运行FP16完整版本）
内存要求：8GB系统内存以上
存储空间：需要3GB空间存放模型文件

2.2 软件环境

确保你的系统已经安装：

Docker和Docker Compose
基本的命令行操作环境
现代浏览器（Chrome、Firefox等）

2.3 模型特点了解

在开始部署前，简单了解下这个模型的优势：

高效推理：1.5B参数实现7B级别的性能
多场景支持：支持代码生成、数学推理、问答对话
长上下文：4K token上下文长度
格式兼容：支持JSON、函数调用、Agent插件

3. 三步部署实战

3.1 第一步：获取部署资源

首先需要获取模型的部署镜像和配置文件。这里提供了完整的Docker Compose方案，你只需要一条命令就能启动所有服务。

# 创建项目目录
mkdir deepseek-r1-deploy
cd deepseek-r1-deploy

# 下载docker-compose配置文件
curl -O https://example.com/docker-compose.yaml

3.2 第二步：启动服务

使用Docker Compose一键启动所有服务：

# 启动服务
docker-compose up -d

# 查看服务状态
docker-compose logs -f

这个命令会同时启动两个核心服务：

vLLM推理引擎：负责模型加载和推理
Open-WebUI界面：提供友好的聊天界面

3.3 第三步：访问和使用

服务启动后，可以通过两种方式访问：

方式一：直接访问Web界面

打开浏览器访问：http://localhost:7860
使用演示账号登录：
- 账号：kakajiang@kakajiang.com
- 密码：kakajiang

方式二：通过Jupyter转换访问 如果已经安装了Jupyter服务，可以将URL中的8888端口改为7860直接访问。

4. 使用技巧与最佳实践

4.1 对话优化技巧

基于我的使用经验，这里有一些提升对话效果的建议：

# 更好的提问方式示例
prompt = """
请用清晰的步骤解答以下数学问题：
问题：如果一个圆的半径是5cm，求它的面积是多少？

请按照以下格式回答：
1. 首先，回忆圆的面积公式
2. 然后，代入数值计算
3. 最后，给出最终答案
"""

4.2 性能调优建议

根据你的硬件配置，可以调整这些参数获得更好性能：

# 在docker-compose中调整这些参数
environment:
  - MAX_MODEL_LEN=4096
  - GPU_MEMORY_UTILIZATION=0.9
  - MAX_NUM_SEQS=256

4.3 常见使用场景

这个模型特别适合这些场景：

代码助手：帮助编写和调试代码片段
数学解题：解答数学问题和展示解题步骤
知识问答：回答常识性和技术性问题
内容生成：生成简单的文本内容

5. 故障排除与常见问题

5.1 部署常见问题

问题1：服务启动失败

# 检查服务状态
docker-compose ps
# 查看详细日志
docker-compose logs vllm

问题2：显存不足

解决方案：使用量化版本的模型
调整batch size减少显存占用

问题3：访问端口被占用

解决方案：修改docker-compose中的端口映射

5.2 使用中的问题

生成速度慢：检查GPU是否正常工作，调整并发数 回答质量不高：尝试更详细的提示词和更明确的指令

6. 进阶应用探索

6.1 API接口调用

除了Web界面，还可以通过API方式调用：

import requests

def chat_with_model(prompt):
    url = "http://localhost:8000/v1/chat/completions"
    payload = {
        "model": "deepseek-r1-distill-qwen-1.5b",
        "messages": [{"role": "user", "content": prompt}]
    }
    
    response = requests.post(url, json=payload)
    return response.json()

# 使用示例
result = chat_with_model("你好，请介绍一下你自己")
print(result['choices'][0]['message']['content'])