DeepSeek-R1-Distill-Llama-8B部署实践：Ollama + FastAPI 构建标准化API服务

Jacob Piao

291人浏览 · 2026-02-19 00:16:28

Jacob Piao · 2026-02-19 00:16:28 发布

DeepSeek-R1-Distill-Llama-8B部署实践：Ollama + FastAPI 构建标准化API服务

想快速体验DeepSeek-R1-Distill-Llama-8B的强大推理能力，但觉得网页界面不够灵活？今天我来分享一个实用的部署方案：用Ollama本地部署模型，再用FastAPI包装成标准化的API服务。这样你就能在自己的应用里直接调用这个推理模型了。

DeepSeek-R1-Distill-Llama-8B是DeepSeek团队推出的推理模型，它在数学、代码和逻辑推理任务上表现相当不错。通过Ollama部署，你可以轻松在本地运行这个8B参数的模型，而FastAPI则能帮你把它变成标准的HTTP接口，方便集成到各种系统中。

1. 环境准备与快速部署

1.1 系统要求与安装

首先确保你的系统满足以下基本要求：

操作系统：Linux（Ubuntu 20.04+）、macOS 10.15+ 或 Windows 10+
内存：至少16GB RAM（模型本身约8GB，还需要运行内存）
存储空间：20GB可用空间
Python版本：3.8或更高版本

安装必要的工具：

# 安装Ollama（Linux/macOS）
curl -fsSL https://ollama.com/install.sh | sh

# Windows用户可以从官网下载安装包
# https://ollama.com/download/windows

# 安装Python依赖
pip install fastapi uvicorn requests pydantic

1.2 拉取并运行模型

Ollama安装完成后，拉取DeepSeek-R1-Distill-Llama-8B模型：

# 拉取模型（第一次运行会自动下载）
ollama pull deepseek-r1:8b

# 运行模型服务
ollama run deepseek-r1:8b

运行成功后，你会看到类似这样的提示：

>>> Send a message (/? for help)

现在模型已经在本地运行了，你可以直接在命令行里测试：

# 测试模型推理能力
>>> 如果我有3个苹果，吃了1个，又买了5个，现在有多少个？

模型会开始思考并给出答案。不过命令行交互不够方便，接下来我们把它包装成API服务。

2. 构建FastAPI标准化服务

2.1 创建API服务文件

创建一个新的Python文件 api_service.py：

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
import requests
import json
from typing import Optional, List
import uvicorn

# 初始化FastAPI应用
app = FastAPI(
    title="DeepSeek-R1 API服务",
    description="基于Ollama部署的DeepSeek-R1-Distill-Llama-8B推理模型API",
    version="1.0.0"
)

# 定义请求数据模型
class ChatRequest(BaseModel):
    """聊天请求模型"""
    messages: List[dict]
    stream: bool = False
    temperature: float = 0.7
    max_tokens: Optional[int] = None
    
class CompletionRequest(BaseModel):
    """补全请求模型"""
    prompt: str
    stream: bool = False
    temperature: float = 0.7
    max_tokens: Optional[int] = None

# Ollama API配置
OLLAMA_URL = "http://localhost:11434"
MODEL_NAME = "deepseek-r1:8b"

@app.get("/")
async def root():
    """健康检查端点"""
    return {
        "status": "running",
        "model": MODEL_NAME,
        "service": "DeepSeek-R1 API"
    }

@app.post("/v1/chat/completions")
async def chat_completions(request: ChatRequest):
    """
    聊天补全接口
    兼容OpenAI API格式
    """
    try:
        # 构建Ollama请求
        ollama_request = {
            "model": MODEL_NAME,
            "messages": request.messages,
            "stream": request.stream,
            "options": {
                "temperature": request.temperature
            }
        }
        
        if request.max_tokens:
            ollama_request["options"]["num_predict"] = request.max_tokens
        
        # 调用Ollama API
        response = requests.post(
            f"{OLLAMA_URL}/api/chat",
            json=ollama_request,
            stream=request.stream
        )
        
        if response.status_code != 200:
            raise HTTPException(
                status_code=response.status_code,
                detail=f"Ollama API错误: {response.text}"
            )
        
        if request.stream:
            # 流式响应
            async def generate():
                for line in response.iter_lines():
                    if line:
                        yield f"data: {line.decode('utf-8')}\n\n"
                yield "data: [DONE]\n\n"
            
            return generate()
        else:
            # 非流式响应
            result = response.json()
            
            # 转换为OpenAI兼容格式
            return {
                "id": f"chatcmpl-{result.get('created_at', '')}",
                "object": "chat.completion",
                "created": result.get("created_at", 0),
                "model": MODEL_NAME,
                "choices": [{
                    "index": 0,
                    "message": {
                        "role": "assistant",
                        "content": result["message"]["content"]
                    },
                    "finish_reason": result.get("done_reason", "stop")
                }],
                "usage": {
                    "prompt_tokens": 0,  # Ollama不返回token计数
                    "completion_tokens": 0,
                    "total_tokens": 0
                }
            }
            
    except Exception as e:
        raise HTTPException(status_code=500, detail=str(e))

@app.post("/v1/completions")
async def completions(request: CompletionRequest):
    """
    文本补全接口
    """
    try:
        ollama_request = {
            "model": MODEL_NAME,
            "prompt": request.prompt,
            "stream": request.stream,
            "options": {
                "temperature": request.temperature
            }
        }
        
        if request.max_tokens:
            ollama_request["options"]["num_predict"] = request.max_tokens
        
        response = requests.post(
            f"{OLLAMA_URL}/api/generate",
            json=ollama_request,
            stream=request.stream
        )
        
        if response.status_code != 200:
            raise HTTPException(
                status_code=response.status_code,
                detail=f"Ollama API错误: {response.text}"
            )
        
        if request.stream:
            async def generate():
                for line in response.iter_lines():
                    if line:
                        yield f"data: {line.decode('utf-8')}\n\n"
                yield "data: [DONE]\n\n"
            
            return generate()
        else:
            result = response.json()
            
            return {
                "id": f"cmpl-{result.get('created_at', '')}",
                "object": "text_completion",
                "created": result.get("created_at", 0),
                "model": MODEL_NAME,
                "choices": [{
                    "text": result["response"],
                    "index": 0,
                    "finish_reason": result.get("done_reason", "stop")
                }]
            }
            
    except Exception as e:
        raise HTTPException(status_code=500, detail=str(e))

@app.get("/models")
async def list_models():
    """列出可用模型"""
    try:
        response = requests.get(f"{OLLAMA_URL}/api/tags")
        if response.status_code == 200:
            models = response.json().get("models", [])
            return {
                "object": "list",
                "data": [
                    {
                        "id": model["name"],
                        "object": "model",
                        "created": 0,
                        "owned_by": "ollama"
                    }
                    for model in models
                ]
            }
        return {"object": "list", "data": []}
    except:
        return {"object": "list", "data": []}

if __name__ == "__main__":
    uvicorn.run(
        app,
        host="0.0.0.0",
        port=8000,
        log_level="info"
    )

2.2 启动API服务

保存文件后，启动API服务：

# 启动服务（默认端口8000）
python api_service.py

# 或者指定端口
python api_service.py --port 8080

服务启动后，你会看到类似这样的输出：

INFO:     Started server process [12345]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)

3. 使用API服务

3.1 测试API接口

服务启动后，打开浏览器访问 http://localhost:8000/docs，你会看到自动生成的API文档页面。这里可以测试所有接口。

或者用curl命令测试：

# 测试健康检查
curl http://localhost:8000/

# 测试聊天接口
curl -X POST http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "messages": [
      {"role": "user", "content": "解释一下什么是机器学习"}
    ],
    "temperature": 0.7
  }'

# 测试补全接口
curl -X POST http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "Python中快速排序的实现：",
    "max_tokens": 200
  }'

3.2 Python客户端示例

创建一个客户端测试脚本 test_client.py：

import requests
import json

class DeepSeekClient:
    def __init__(self, base_url="http://localhost:8000"):
        self.base_url = base_url
    
    def chat(self, messages, temperature=0.7, stream=False):
        """发送聊天请求"""
        response = requests.post(
            f"{self.base_url}/v1/chat/completions",
            json={
                "messages": messages,
                "temperature": temperature,
                "stream": stream
            }
        )
        return response.json()
    
    def complete(self, prompt, temperature=0.7, max_tokens=None):
        """发送补全请求"""
        data = {
            "prompt": prompt,
            "temperature": temperature
        }
        if max_tokens:
            data["max_tokens"] = max_tokens
        
        response = requests.post(
            f"{self.base_url}/v1/completions",
            json=data
        )
        return response.json()

# 使用示例
if __name__ == "__main__":
    client = DeepSeekClient()
    
    # 测试聊天功能
    print("=== 测试聊天功能 ===")
    result = client.chat([
        {"role": "system", "content": "你是一个有帮助的AI助手"},
        {"role": "user", "content": "用Python写一个计算斐波那契数列的函数"}
    ])
    
    print("AI回复：")
    print(result["choices"][0]["message"]["content"])
    print()
    
    # 测试数学推理
    print("=== 测试数学推理 ===")
    result = client.chat([
        {"role": "user", "content": "一个水池有进水管和出水管。进水管单独注满水池需要6小时，出水管单独排空水池需要8小时。如果同时打开进水管和出水管，需要多少小时才能注满水池？"}
    ])
    
    print("问题：同时打开进水管和出水管，需要多少小时注满水池？")
    print("AI解答：")
    print(result["choices"][0]["message"]["content"])
    print()
    
    # 测试代码补全
    print("=== 测试代码补全 ===")
    result = client.complete(
        prompt="def binary_search(arr, target):\n    \"\"\"二分查找实现\"\"\"\n    ",
        max_tokens=100
    )
    
    print("补全的代码：")
    print(result["choices"][0]["text"])

运行测试脚本：

python test_client.py

你会看到模型对各种问题的回答，包括代码生成、数学推理等。

4. 高级配置与优化

4.1 性能优化配置

为了获得更好的性能，可以调整Ollama的运行参数。创建或编辑 ~/.ollama/config.json：

{
  "models": {
    "deepseek-r1:8b": {
      "num_ctx": 4096,
      "num_gpu": 1,
      "num_thread": 4,
      "main_gpu": 0,
      "num_batch": 512,
      "num_keep": 5
    }
  }
}

各参数说明：

num_ctx：上下文长度，最大4096
num_gpu：使用的GPU数量
num_thread：CPU线程数
main_gpu：主GPU索引
num_batch：批处理大小
num_keep：在内存中保留的对话轮数

4.2 API服务增强

为了让API服务更健壮，可以添加一些增强功能。创建 enhanced_api.py：

from fastapi import FastAPI, HTTPException, Request
from fastapi.middleware.cors import CORSMiddleware
from fastapi.responses import JSONResponse
import time
from datetime import datetime
import logging

# 配置日志
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

app = FastAPI(
    title="增强版DeepSeek-R1 API",
    version="1.1.0",
    docs_url="/api/docs",
    redoc_url="/api/redoc"
)

# 添加CORS中间件
app.add_middleware(
    CORSMiddleware,
    allow_origins=["*"],  # 生产环境应限制来源
    allow_credentials=True,
    allow_methods=["*"],
    allow_headers=["*"],
)

# 请求统计
request_stats = {
    "total_requests": 0,
    "successful_requests": 0,
    "failed_requests": 0,
    "avg_response_time": 0
}

@app.middleware("http")
async def add_process_time_header(request: Request, call_next):
    """计算请求处理时间"""
    start_time = time.time()
    response = await call_next(request)
    process_time = time.time() - start_time
    
    # 更新统计
    request_stats["total_requests"] += 1
    request_stats["avg_response_time"] = (
        request_stats["avg_response_time"] * (request_stats["total_requests"] - 1) + process_time
    ) / request_stats["total_requests"]
    
    response.headers["X-Process-Time"] = str(process_time)
    return response

@app.exception_handler(Exception)
async def global_exception_handler(request: Request, exc: Exception):
    """全局异常处理"""
    logger.error(f"未处理异常: {exc}", exc_info=True)
    request_stats["failed_requests"] += 1
    return JSONResponse(
        status_code=500,
        content={
            "error": "内部服务器错误",
            "message": str(exc),
            "timestamp": datetime.now().isoformat()
        }
    )

@app.get("/api/health")
async def health_check():
    """健康检查端点"""
    return {
        "status": "healthy",
        "timestamp": datetime.now().isoformat(),
        "service": "DeepSeek-R1 API",
        "version": "1.1.0"
    }

@app.get("/api/stats")
async def get_stats():
    """获取服务统计信息"""
    return {
        **request_stats,
        "timestamp": datetime.now().isoformat(),
        "uptime": "运行中"
    }

# 这里可以集成之前的主要API逻辑
# ...

if __name__ == "__main__":
    import uvicorn
    uvicorn.run(
        app,
        host="0.0.0.0",
        port=8000,
        access_log=True,
        log_level="info"
    )

4.3 部署到生产环境

对于生产环境部署，建议使用以下配置：

使用Gunicorn（Linux/macOS）：

pip install gunicorn

# 启动服务
gunicorn -w 4 -k uvicorn.workers.UvicornWorker api_service:app \
  --bind 0.0.0.0:8000 \
  --timeout 120 \
  --access-logfile -

使用Docker容器化：

创建 Dockerfile：

FROM python:3.9-slim

WORKDIR /app

# 安装系统依赖
RUN apt-get update && apt-get install -y \
    curl \
    && rm -rf /var/lib/apt/lists/*

# 安装Ollama
RUN curl -fsSL https://ollama.com/install.sh | sh

# 复制应用文件
COPY requirements.txt .
COPY api_service.py .

# 安装Python依赖
RUN pip install --no-cache-dir -r requirements.txt

# 拉取模型（构建时下载，减少启动时间）
RUN ollama pull deepseek-r1:8b

# 暴露端口
EXPOSE 8000

# 启动脚本
COPY start.sh .
RUN chmod +x start.sh

CMD ["./start.sh"]

创建 start.sh：

#!/bin/bash

# 启动Ollama服务
ollama serve &
OLLAMA_PID=$!

# 等待Ollama启动
sleep 10

# 启动FastAPI服务
uvicorn api_service:app --host 0.0.0.0 --port 8000

# 清理
kill $OLLAMA_PID

创建 requirements.txt：

fastapi==0.104.1
uvicorn[standard]==0.24.0
requests==2.31.0
pydantic==2.5.0

构建并运行Docker容器：

# 构建镜像
docker build -t deepseek-r1-api .

# 运行容器
docker run -p 8000:8000 --gpus all deepseek-r1-api

5. 常见问题与解决方案

5.1 模型加载失败

问题：Ollama无法加载模型，提示"model not found"

解决方案：

# 1. 检查模型是否已下载
ollama list

# 2. 如果未找到，重新拉取
ollama pull deepseek-r1:8b

# 3. 检查磁盘空间
df -h

# 4. 清理缓存
ollama rm deepseek-r1:8b
ollama pull deepseek-r1:8b

5.2 API响应慢

问题：API响应时间过长

优化建议：

调整Ollama参数：

# 增加GPU内存分配
export OLLAMA_GPU_MEMORY=8192

# 增加批处理大小
export OLLAMA_NUM_BATCH=1024

优化FastAPI配置：

# 在启动时增加工作进程数
uvicorn.run(app, host="0.0.0.0", port=8000, workers=4)

使用缓存：

from functools import lru_cache
import hashlib

@lru_cache(maxsize=100)
def get_cached_response(prompt_hash):
    """缓存常见问题的回答"""
    pass

5.3 内存不足

问题：运行过程中内存不足

解决方案：

限制上下文长度：

# 在API请求中限制max_tokens
@app.post("/v1/chat/completions")
async def chat_completions(request: ChatRequest):
    if request.max_tokens and request.max_tokens > 2048:
        request.max_tokens = 2048  # 限制最大token数

分批处理：

def process_large_text(text, chunk_size=1000):
    """将大文本分块处理"""
    chunks = [text[i:i+chunk_size] for i in range(0, len(text), chunk_size)]
    results = []
    for chunk in chunks:
        result = client.complete(chunk)
        results.append(result)
    return " ".join(results)

5.4 网络连接问题

问题：外部服务无法访问API

检查步骤：

检查防火墙：

# Linux检查防火墙
sudo ufw status
sudo ufw allow 8000/tcp

# Windows检查防火墙
netsh advfirewall firewall add rule name="DeepSeek API" dir=in action=allow protocol=TCP localport=8000

检查服务绑定：

# 确保绑定到0.0.0.0而不是127.0.0.1
uvicorn.run(app, host="0.0.0.0", port=8000)

使用反向代理（如Nginx）：

server {
    listen 80;
    server_name api.yourdomain.com;
    
    location / {
        proxy_pass http://localhost:8000;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
    }
}

6. 总结

通过Ollama + FastAPI的组合，我们成功将DeepSeek-R1-Distill-Llama-8B模型部署成了标准化的API服务。这个方案有几个明显优势：

部署简单：Ollama让模型部署变得极其简单，一条命令就能搞定。FastAPI则提供了现代化、高性能的API框架，自动生成文档，开发体验很好。

灵活性强：标准化API意味着你可以轻松集成到各种应用中，无论是Web应用、移动应用还是其他服务，都能通过HTTP调用。

性能可控：本地部署保证了数据隐私，也能根据硬件条件调整性能参数。8B参数的模型在消费级GPU上就能流畅运行。

成本效益：相比调用云端API，本地部署长期来看成本更低，特别是对于高频使用的场景。

实际使用中，DeepSeek-R1-Distill-Llama-8B在推理任务上表现确实不错。它在数学问题求解、代码生成、逻辑推理等方面都有良好表现。虽然8B参数不算大，但通过蒸馏技术，它继承了原版模型的很多推理能力。

如果你需要更强大的性能，可以考虑使用32B或70B的版本，当然这对硬件要求也更高。对于大多数应用场景，8B版本在性能和资源消耗之间取得了不错的平衡。

最后提醒一点：虽然本地部署给了你很大控制权，但也需要自己负责维护和优化。定期更新模型版本、监控服务状态、优化性能参数，这些都能让你的API服务更加稳定可靠。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

一文讲透 AI Agent：为什么它比 ChatGPT 更像真正的“智能助手”？

AI智能体（AIAgent）是一种能够自主决策和执行任务的AI系统，与ChatGPT等对话式AI不同，它不仅能回答问题，还能理解目标、拆解任务、调用工具并完成复杂流程。AIAgent由大脑（大模型）、记忆（上下文保存）、工具（外部功能调用）和行动（反馈调整）四个核心模块组成，能够主动规划步骤并持续执行任务。其应用场景广泛，包括学习助手、编程辅助、内容创作、办公自动化和机器人控制等。AIAgent的

AI Agent技术社区

DeepSeek总结的pg_ducklake v1.0发版说明

pg_ducklake v1.0正式发布，这是一个生产就绪的DuckLake实现，将完整的数据湖仓功能集成到PostgreSQL中。该版本提供完整的DuckLake工作流，包括DML操作、模式演化、时间旅行、ACID事务等特性，同时保持与DuckDB的兼容性。专为OLTP环境优化，通过数据内联和直接插入等技术实现高效数据摄取，比标准DuckDB+DuckLake组合快5.8倍。作为独立扩展构建在l