DeepSeek-R1-Distill-Qwen-1.5B本地部署：零基础从下载到测试完整指南

瞬泉

353人浏览 · 2026-02-14 00:25:36

瞬泉 · 2026-02-14 00:25:36 发布

DeepSeek-R1-Distill-Qwen-1.5B本地部署：零基础从下载到测试完整指南

想在自己电脑上跑一个AI模型，但又担心配置复杂、步骤繁琐？今天我就带你从零开始，手把手部署DeepSeek-R1-Distill-Qwen-1.5B这个轻量级AI模型。不需要你懂太多技术细节，跟着步骤走就行。

这个模型特别适合想体验AI能力但又不想折腾复杂环境的同学。它只有15亿参数，对硬件要求不高，普通显卡就能跑起来。更重要的是，它继承了DeepSeek-R1系列的推理能力，在数学、逻辑问题上表现不错。

我会用最直白的方式讲解每个步骤，确保你一次就能部署成功。准备好了吗？咱们开始吧。

1. 先了解下这个模型是什么

在开始动手之前，咱们先简单了解一下要部署的这个模型。知道它是什么、能做什么，后面用起来心里更有底。

1.1 模型的基本情况

DeepSeek-R1-Distill-Qwen-1.5B是DeepSeek团队做的一个轻量级AI模型。名字听起来有点长，咱们拆开来看：

DeepSeek-R1：这是模型系列名，代表它有很强的推理能力
Distill：意思是“蒸馏”，这是一种技术，能把大模型的能力“压缩”到小模型里
Qwen-1.5B：基于通义千问的15亿参数版本

简单说，就是团队用了一种叫“知识蒸馏”的技术，把大模型的能力“教”给了这个小模型。这样小模型也能有不错的性能，但需要的计算资源少了很多。

1.2 这个模型有什么特点

这个模型有几个很实用的特点：

第一，对硬件要求不高 它支持INT8量化，这是什么意思呢？就是模型运行时占用的内存比普通模式少了75%。如果你用的是NVIDIA T4这种入门级显卡，或者甚至是用CPU来跑，它都能比较流畅地运行。

第二，在某些领域表现不错 在训练过程中，模型接触了很多特定领域的数据，比如法律文书、医疗问答这些。所以在处理这些专业问题时，它的准确率比普通小模型要高12-15个百分点。

第三，推理能力比较强 继承了DeepSeek-R1系列的优点，这个模型在需要逻辑推理、数学计算的问题上表现比同尺寸的其他模型要好。

1.3 使用这个模型要注意什么

根据官方建议，用这个模型时有几个小技巧：

温度设置要合适 温度参数控制着模型输出的随机性。建议设置在0.5-0.7之间，我一般用0.6。如果设得太高，模型可能会说一些奇怪的话或者重复说同一件事。

提示词要怎么写 所有指令都放在用户消息里就行，不需要单独设置系统提示。比如你想让模型帮你写诗，就直接说“请写一首关于春天的诗”，不用在前面加“你是一个诗人”这样的系统指令。

数学问题要特别处理 如果你问数学题，最好在问题后面加上：“请逐步推理，并将最终答案放在\boxed{}内。”这样模型会一步一步推导，最后把答案放在框里，看起来更清晰。

模型有个小习惯要注意 有时候模型回答问题时，可能会直接跳过思考过程。为了让它好好思考，你可以在提示词开头加个“\n”（换行符），这样能“提醒”它先想清楚再回答。

2. 环境准备和快速部署

现在咱们进入实战环节。我会假设你从零开始，一步步带你完成所有准备工作。

2.1 检查你的电脑环境

在开始之前，先确认一下你的电脑是否符合基本要求：

操作系统

Linux（Ubuntu 18.04或更高版本推荐）
或者有WSL2的Windows系统
macOS也可以，但可能需要额外配置

硬件要求

内存：至少8GB，推荐16GB
存储空间：至少10GB可用空间
显卡：有NVIDIA显卡最好（显存4GB以上），没有的话用CPU也能跑，只是速度慢一些

软件依赖

Python 3.8或更高版本
pip包管理工具
如果有NVIDIA显卡，需要安装CUDA 11.8或更高版本

怎么检查这些呢？打开你的终端（Linux/macOS）或命令提示符（Windows），输入：

# 检查Python版本
python3 --version

# 检查pip是否安装
pip3 --version

# 如果有显卡，检查CUDA版本
nvidia-smi

如果看到Python版本是3.8以上，pip也能正常使用，那基础环境就没问题了。

2.2 安装必要的软件包

咱们需要用vLLM来启动模型服务。vLLM是一个专门为大型语言模型设计的高效推理框架，用起来很简单。

首先创建一个专门的工作目录：

# 创建并进入工作目录
mkdir -p ~/deepseek_deployment
cd ~/deepseek_deployment

然后安装vLLM和其他必要的Python包：

# 安装vLLM，这是启动模型服务的核心框架
pip install vllm

# 安装OpenAI客户端，方便我们调用模型
pip install openai

# 如果需要用Jupyter测试，也安装一下
pip install jupyterlab

安装过程可能需要几分钟，取决于你的网络速度。如果遇到权限问题，可以在命令前加上sudo（Linux/macOS），或者用管理员模式打开命令提示符（Windows）。

2.3 下载模型文件

模型文件比较大，大概3-4GB。你可以从Hugging Face下载，这是最常用的模型分享平台。

# 安装huggingface-hub工具
pip install huggingface-hub

# 下载模型到当前目录
python -c "from huggingface_hub import snapshot_download; snapshot_download(repo_id='deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B', local_dir='./model')"

下载过程可能需要一些时间，具体取决于你的网速。如果下载中断了，可以重新运行这个命令，它会接着上次的进度继续下载。

如果觉得从Hugging Face下载太慢，也可以找国内的镜像源，或者如果已经有朋友下载好了，直接拷贝过来也行。模型下载后应该放在./model目录下。

3. 启动模型服务

模型下载好了，现在咱们来启动服务。这是最关键的一步，但跟着做其实很简单。

3.1 编写启动脚本

在刚才的工作目录里，创建一个启动脚本文件：

# 创建启动脚本
cat > start_model.sh << 'EOF'
#!/bin/bash

# 进入模型所在目录
cd ~/deepseek_deployment

# 使用vLLM启动模型服务
python -m vllm.entrypoints.openai.api_server \
    --model ./model \
    --served-model-name DeepSeek-R1-Distill-Qwen-1.5B \
    --host 0.0.0.0 \
    --port 8000 \
    --max-model-len 2048 \
    --gpu-memory-utilization 0.8 \
    --tensor-parallel-size 1
EOF

# 给脚本添加执行权限
chmod +x start_model.sh

我来解释一下这个脚本里的几个重要参数：

--model ./model：告诉vLLM模型文件在哪里
--port 8000：服务会在8000端口启动
--max-model-len 2048：模型一次最多处理2048个token（大概1500个汉字）
--gpu-memory-utilization 0.8：如果用了显卡，会占用80%的显存
--tensor-parallel-size 1：只用1个GPU，如果你有多张显卡可以调大这个数

3.2 启动服务并查看日志

现在运行启动脚本：

# 启动模型服务，把日志输出到文件
./start_model.sh > deepseek_qwen.log 2>&1 &

这个命令做了两件事：

启动模型服务
把所有的输出信息（包括正常信息和错误信息）都保存到deepseek_qwen.log文件里
最后的&表示在后台运行，这样你还能继续用这个终端

怎么知道启动成功了呢？等个30秒到1分钟，然后查看日志：

# 查看启动日志
tail -f deepseek_qwen.log

你会看到类似这样的输出：

INFO 07-15 14:30:12 llm_engine.py:197] Initializing an LLM engine with config: ...
INFO 07-15 14:30:15 model_runner.py:111] Loading model weights...
INFO 07-15 14:30:45 model_runner.py:145] Model loaded successfully.
INFO 07-15 14:30:46 llm_engine.py:347] LLM engine is ready.
INFO 07-15 14:30:47 api_server.py:167] Started server process [12345]
INFO 07-15 14:30:47 api_server.py:178] Waiting for application startup.
INFO 07-15 14:30:47 api_server.py:183] Application startup complete.
INFO 07-15 14:30:47 api_server.py:188] Uvicorn running on http://0.0.0.0:8000

看到最后一行Uvicorn running on http://0.0.0.0:8000，就说明服务启动成功了！模型现在在8000端口等着你的请求。

如果启动失败，常见的问题和解决方法：

问题1：内存不足

Out of memory error

解决方法：尝试减小--gpu-memory-utilization的值，比如改成0.6或0.5。如果还是不行，可以尝试用CPU模式，加上参数--device cpu。

问题2：端口被占用

Address already in use

解决方法：换一个端口，比如把--port 8000改成--port 8001。

问题3：模型路径错误

Model not found at ./model

解决方法：确认模型文件确实下载到了./model目录，并且目录结构正确。

4. 测试模型服务

服务启动成功了，现在咱们来测试一下它能不能正常工作。我会给你几种测试方法，从简单到复杂。

4.1 最简单的测试方法

打开浏览器，访问这个地址：

http://localhost:8000/docs

你会看到一个类似API文档的页面。这说明服务确实在运行，而且提供了标准的OpenAI兼容接口。

4.2 用Python代码测试

创建一个测试脚本，这是最实用的测试方法：

# test_model.py
from openai import OpenAI
import time

class SimpleTester:
    def __init__(self):
        # 初始化客户端，连接到本地服务
        self.client = OpenAI(
            base_url="http://localhost:8000/v1",
            api_key="none"  # 本地服务不需要API密钥
        )
        self.model_name = "DeepSeek-R1-Distill-Qwen-1.5B"
    
    def test_connection(self):
        """测试连接是否正常"""
        print("正在测试模型服务连接...")
        try:
            # 发送一个简单的请求
            response = self.client.chat.completions.create(
                model=self.model_name,
                messages=[
                    {"role": "user", "content": "你好，请回复'服务正常'"}
                ],
                max_tokens=10,
                temperature=0.1  # 温度设低一点，让输出更确定
            )
            
            if response.choices:
                reply = response.choices[0].message.content
                print(f"✓ 连接测试成功！模型回复: {reply}")
                return True
            else:
                print("✗ 连接测试失败：没有收到回复")
                return False
                
        except Exception as e:
            print(f"✗ 连接测试失败：{e}")
            return False
    
    def test_chinese_qa(self):
        """测试中文问答能力"""
        print("\n正在测试中文问答...")
        
        question = "请用简单的话解释什么是人工智能"
        print(f"问题: {question}")
        
        try:
            response = self.client.chat.completions.create(
                model=self.model_name,
                messages=[
                    {"role": "user", "content": question}
                ],
                max_tokens=200,
                temperature=0.6  # 用推荐的温度
            )
            
            if response.choices:
                answer = response.choices[0].message.content
                print(f"模型回答:\n{answer}")
                return True
            else:
                print("没有收到回答")
                return False
                
        except Exception as e:
            print(f"问答测试失败：{e}")
            return False
    
    def test_math_problem(self):
        """测试数学问题解决能力"""
        print("\n正在测试数学问题...")
        
        # 按照官方建议，数学问题要特别提示
        math_question = """请计算：如果一个长方形的长是8厘米，宽是5厘米，它的面积是多少？
请逐步推理，并将最终答案放在\\boxed{}内。"""
        
        print(f"数学问题: {math_question}")
        
        try:
            response = self.client.chat.completions.create(
                model=self.model_name,
                messages=[
                    {"role": "user", "content": math_question}
                ],
                max_tokens=150,
                temperature=0.6
            )
            
            if response.choices:
                answer = response.choices[0].message.content
                print(f"模型解答:\n{answer}")
                
                # 检查是否按照要求把答案放在框里
                if "\\boxed" in answer or "boxed" in answer:
                    print("✓ 模型正确使用了答案框格式")
                else:
                    print("注意：模型没有使用答案框格式")
                    
                return True
            else:
                print("没有收到解答")
                return False
                
        except Exception as e:
            print(f"数学测试失败：{e}")
            return False
    
    def run_all_tests(self):
        """运行所有测试"""
        print("=" * 50)
        print("DeepSeek-R1-Distill-Qwen-1.5B 模型测试")
        print("=" * 50)
        
        tests_passed = 0
        total_tests = 3
        
        # 测试1：连接测试
        if self.test_connection():
            tests_passed += 1
        
        # 测试2：中文问答测试
        if self.test_chinese_qa():
            tests_passed += 1
        
        # 测试3：数学问题测试
        if self.test_math_problem():
            tests_passed += 1
        
        # 输出测试结果
        print("\n" + "=" * 50)
        print(f"测试完成：{tests_passed}/{total_tests} 项测试通过")
        
        if tests_passed == total_tests:
            print(" 所有测试通过！模型服务运行正常。")
        else:
            print("  部分测试未通过，请检查模型服务状态。")
        
        return tests_passed == total_tests

# 运行测试
if __name__ == "__main__":
    tester = SimpleTester()
    
    # 先等一会儿，确保服务完全启动
    print("等待服务准备就绪...")
    time.sleep(5)
    
    success = tester.run_all_tests()
    
    if success:
        print("\n你可以开始使用模型了！")
        print("尝试修改测试代码，问模型一些你自己的问题吧。")
    else:
        print("\n测试失败，请检查：")
        print("1. 模型服务是否启动成功")
        print("2. 端口8000是否被占用")
        print("3. 模型文件是否完整")

保存这个文件为test_model.py，然后运行：

python test_model.py

你会看到类似这样的输出：

==================================================
DeepSeek-R1-Distill-Qwen-1.5B 模型测试
==================================================
正在测试模型服务连接...
✓ 连接测试成功！模型回复: 服务正常

正在测试中文问答...
问题: 请用简单的话解释什么是人工智能
模型回答:
人工智能是让机器模仿人类智能的技术，像学习、推理、解决问题这些能力...

正在测试数学问题...
数学问题: 请计算：如果一个长方形的长是8厘米，宽是5厘米，它的面积是多少？
请逐步推理，并将最终答案放在\boxed{}内。
模型解答:
长方形的面积计算公式是：面积 = 长 × 宽
已知长 = 8厘米，宽 = 5厘米
所以面积 = 8 × 5 = 40平方厘米
\boxed{40}
✓ 模型正确使用了答案框格式

==================================================
测试完成：3/3 项测试通过
 所有测试通过！模型服务运行正常。

你可以开始使用模型了！
尝试修改测试代码，问模型一些你自己的问题吧。

4.3 流式对话测试

如果你想让模型像ChatGPT那样一个字一个字地输出，可以试试流式对话：

# stream_test.py
from openai import OpenAI

def stream_chat_example():
    """流式对话示例"""
    client = OpenAI(
        base_url="http://localhost:8000/v1",
        api_key="none"
    )
    
    print("流式对话测试开始（输入'退出'结束）")
    print("-" * 40)
    
    # 设置对话上下文
    messages = [
        {"role": "user", "content": "请用流式方式介绍你自己"}
    ]
    
    print("AI: ", end="", flush=True)
    
    try:
        # 创建流式响应
        stream = client.chat.completions.create(
            model="DeepSeek-R1-Distill-Qwen-1.5B",
            messages=messages,
            stream=True,
            temperature=0.6,
            max_tokens=300
        )
        
        full_response = ""
        for chunk in stream:
            if chunk.choices[0].delta.content is not None:
                content = chunk.choices[0].delta.content
                print(content, end="", flush=True)
                full_response += content
        
        print("\n" + "-" * 40)
        print("流式对话完成！")
        
    except Exception as e:
        print(f"\n错误: {e}")

if __name__ == "__main__":
    stream_chat_example()

运行这个脚本，你会看到模型一个字一个字地输出回答，就像在打字一样。

5. 实际使用技巧和常见问题

模型跑起来了，现在咱们聊聊怎么用好它，以及遇到问题怎么办。

5.1 怎么写出好的提示词

这个模型对提示词比较敏感，好的提示词能让它发挥得更好。记住这几个原则：

1. 明确具体 不要说“写点关于科技的东西”，而要说“写一篇300字关于人工智能在医疗领域应用的短文”。

2. 分步骤要求 复杂任务可以拆解。比如：“第一步，分析这个数学问题；第二步，列出已知条件；第三步，给出解答步骤；第四步，把最终答案放在\boxed{}里。”

3. 给例子 如果你想要特定格式的回答，可以先给个例子。比如：“请用以下格式回答：问题：[重复问题] 答案：[你的答案] 解释：[详细解释]”

4. 控制长度 用max_tokens参数控制回答长度。一般来说：

简短回答：50-100 tokens
中等长度：200-300 tokens
详细回答：500-800 tokens

5.2 调整参数获得更好效果

除了提示词，这些参数也会影响模型表现：

温度（temperature）

0.1-0.3：非常确定，适合事实性问题
0.5-0.7：平衡，适合大多数场景（推荐0.6）
0.8-1.0：更有创意，适合写作、 brainstorming

最大生成长度（max_tokens） 根据你的需要设置，但不要超过2048（模型的最大限制）。

重复惩罚（presence_penalty和frequency_penalty） 如果发现模型老重复说同样的话，可以稍微调高这些值（比如设到0.1-0.2）。

5.3 常见问题解决方法

问题：模型回答很短或者不完整 解决：增加max_tokens值，或者在提示词里明确要求“请给出详细回答”。

问题：模型胡说八道或者重复 解决：降低temperature值，或者增加重复惩罚参数。

问题：响应速度慢 解决：

检查是不是CPU模式，如果是且你有显卡，确保CUDA安装正确
减少max_tokens值
如果内存不足，尝试重启服务并降低--gpu-memory-utilization

问题：服务突然停止 解决：

查看日志文件：tail -100 deepseek_qwen.log
常见原因是内存不足，尝试用更小的批次大小：启动时加上--max-num-batched-tokens 512
如果是OOM（内存溢出）错误，尝试纯CPU模式：--device cpu

5.4 性能优化建议

如果你想让模型跑得更快、更稳定：

使用GPU加速 如果你有NVIDIA显卡，确保CUDA正确安装，并且vLLM能检测到GPU。启动时可以加上--gpu-memory-utilization 0.8来充分利用显存。

批量处理请求 如果你需要处理很多问题，可以一次性发送多个问题，而不是一个一个问。vLLM支持批量处理，能显著提高吞吐量。

调整模型长度 如果你大部分问题都不长，可以减小--max-model-len，比如从2048降到1024，这样能节省内存。

定期重启服务 如果长时间运行后速度变慢，可以定期重启服务。写个简单的脚本定时重启：

# restart_model.sh
#!/bin/bash
pkill -f "vllm.entrypoints.openai.api_server"
sleep 5
cd ~/deepseek_deployment
./start_model.sh > deepseek_qwen.log 2>&1 &
echo "模型服务已重启"