Ollama部署本地大模型企业合规实践：DeepSeek-R1-Distill-Qwen-7B数据不出域方案

powerelectricdog

166人浏览 · 2026-02-13 00:32:07

powerelectricdog · 2026-02-13 00:32:07 发布

Ollama部署本地大模型企业合规实践：DeepSeek-R1-Distill-Qwen-7B数据不出域方案

1. 引言：为什么企业需要本地化部署大模型？

最近和几个做企业服务的同行聊天，大家不约而同地提到了同一个痛点：公司想用大模型提升效率，但一涉及到客户数据、内部文档这些敏感信息，就卡壳了。用公有云服务吧，数据要上传到第三方，合规风险太大；自己从头训练模型吧，成本高、周期长，中小公司根本玩不起。

这让我想起了去年帮一家金融科技公司做的项目。他们想用AI分析客户的投资偏好，生成个性化的理财建议。需求很明确，效果也不错，但就在准备上线时，法务部门一纸通知下来：所有涉及客户隐私的数据，绝对不能离开公司内网。

怎么办？难道要放弃AI这个利器吗？

当然不是。今天我要分享的，就是通过Ollama在本地部署DeepSeek-R1-Distill-Qwen-7B模型的完整方案。这个方案最大的特点就是数据完全不出域——所有计算都在你的服务器上完成，敏感信息不会上传到任何外部服务。

更重要的是，DeepSeek-R1-Distill-Qwen-7B这个模型本身就很适合企业场景。它是从DeepSeek-R1蒸馏出来的7B版本，在推理能力上表现不错，而且模型大小适中，一般的服务器都能跑起来。

接下来，我会手把手带你完成整个部署过程，从环境准备到实际使用，再到企业场景的适配建议。无论你是技术负责人还是开发者，都能跟着做下来。

2. DeepSeek-R1-Distill-Qwen-7B模型深度解析

2.1 模型家族的演进之路

要理解DeepSeek-R1-Distill-Qwen-7B的价值，得先看看它背后的技术路线。

DeepSeek团队走了一条很有意思的路子。他们先搞了个DeepSeek-R1-Zero，这个模型完全靠强化学习训练出来，连传统的监督微调都没用。结果呢？推理能力确实强，但问题也不少——有时候会没完没了地重复同一段话，输出的文字可读性差，甚至中英文混着来。

发现问题就得解决。于是他们推出了DeepSeek-R1，这次在强化学习之前加了“冷启动数据”。你可以理解为，先给模型一些基础训练，让它知道怎么好好说话，然后再用强化学习提升推理能力。

效果怎么样？在数学、代码和推理任务上，DeepSeek-R1的表现已经能和OpenAI的o1模型掰手腕了。这对开源社区来说是个好消息，毕竟o1可是闭源的。

但问题又来了：R1模型太大，普通企业用不起。这时候，“蒸馏”技术就派上用场了。

2.2 蒸馏技术的精妙之处

蒸馏这个词听起来挺技术，其实原理很简单。就像老厨师带徒弟——老师傅（大模型）知道怎么做菜，但动作慢、成本高；小徒弟（小模型）跟着学，虽然经验少，但动作快、成本低。

DeepSeek团队从R1模型蒸馏出了六个不同大小的版本，我们今天用的DeepSeek-R1-Distill-Qwen-7B就是其中之一。别看它只有7B参数，在各种基准测试里，它的表现甚至超过了OpenAI的o1-mini。

这对企业意味着什么？

成本可控：7B模型对硬件要求不高，普通服务器就能跑
效果够用：在大多数企业场景下，推理能力完全够用
完全自主：模型在本地，数据不出域，合规无忧

2.3 为什么选择这个模型？

你可能要问：市面上开源模型那么多，为什么偏偏选这个？

我对比过几个主流选择。Llama 3.1的8B版本也不错，但在中文理解和推理任务上，DeepSeek-R1-Distill-Qwen-7B更有优势。Qwen2.5的7B版本也很强，但推理能力稍逊一筹。

更重要的是，这个模型是专门为推理任务优化的。在企业场景里，我们经常需要模型做逻辑分析、问题拆解、方案推导，这些正是它的强项。

举个例子，如果你让模型分析“为什么这个季度的销售额下降了”，它不会简单地罗列数据，而是会尝试找出因果关系，给出有逻辑的解释。

3. Ollama部署实战：从零到一的完整过程

3.1 环境准备与Ollama安装

部署之前，先看看你的服务器够不够格。DeepSeek-R1-Distill-Qwen-7B对硬件的要求比较友好：

CPU：建议8核以上，支持AVX2指令集
内存：至少16GB，推荐32GB
硬盘：50GB可用空间（模型文件大概14GB）
操作系统：Linux（Ubuntu 20.04+）、macOS、Windows WSL2都可以

如果你的服务器在内网，记得提前配置好代理或者准备好离线安装包。很多企业的生产环境是不通外网的。

安装Ollama很简单，一条命令搞定：

# Linux/macOS
curl -fsSL https://ollama.ai/install.sh | sh

# Windows（需要先安装WSL2）
winget install Ollama.Ollama

安装完成后，验证一下：

ollama --version

如果能看到版本号，说明安装成功了。

3.2 模型下载与本地部署

接下来下载模型。这里有个小技巧：如果网络环境不好，可以先用其他机器下载好，再传到内网服务器。

# 拉取DeepSeek-R1-Distill-Qwen-7B模型
ollama pull deepseek-r1-distill-qwen:7b

这个过程可能会有点慢，模型大概14GB。下载完成后，Ollama会自动把它放到本地模型库。

现在启动服务：

# 启动Ollama服务
ollama serve

服务默认运行在11434端口。你可以用curl测试一下：

curl http://localhost:11434/api/tags

如果返回模型列表，说明服务正常启动了。

3.3 基础使用与接口测试

模型跑起来了，怎么用呢？最简单的方式是用Ollama自带的命令行工具：

# 交互式对话
ollama run deepseek-r1-distill-qwen:7b

输入这个命令后，会进入对话模式。你可以试试问它一些问题：

用户：用简单的语言解释一下什么是强化学习

模型：强化学习就像训练小狗。当小狗做了正确的事情（比如坐下），你就给它零食奖励；做了错误的事情，就不给奖励或者给个小小的惩罚。经过多次这样的“尝试-奖励”循环，小狗就学会了什么该做、什么不该做。

在AI里，模型就是那只“小狗”，它会尝试不同的行动，然后根据结果获得奖励或惩罚。通过不断调整自己的策略，模型最终学会如何最大化累计奖励，这就是强化学习的核心思想。

看到没？这就是推理模型的优势——它不只是复述定义，而是用类比的方式让你真正理解概念。

不过命令行用起来不太方便，特别是对企业应用来说。所以我们需要更友好的接口。

4. 企业级集成方案：让模型真正用起来

4.1 Web界面部署与管理

大多数企业用户不习惯用命令行，他们需要的是直观的Web界面。好在Ollama生态里有不少开源的前端项目。

我推荐用Open WebUI（原名Ollama WebUI），它功能完整、界面友好，而且部署简单。

# 使用Docker部署Open WebUI
docker run -d -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

部署完成后，访问 http://你的服务器IP:3000 就能看到登录界面。第一次使用需要注册账号。

进入后，界面大概长这样：

左侧是模型列表：显示所有已安装的模型
中间是对话区域：像聊天软件一样和模型对话
右侧是参数设置：可以调整温度、最大生成长度等

这个界面已经能满足大部分日常使用了。但对企业来说，还不够。

4.2 API接口封装与标准化

要让模型集成到企业系统里，需要提供标准的API接口。Ollama本身有API，但我们可以封装一层，增加企业需要的功能。

下面是一个简单的FastAPI封装示例：

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
import requests
import logging

app = FastAPI(title="企业大模型服务API")

# 配置日志
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

class ChatRequest(BaseModel):
    prompt: str
    temperature: float = 0.7
    max_tokens: int = 1024
    user_id: str = None  # 用于审计日志

class ChatResponse(BaseModel):
    response: str
    usage: dict
    request_id: str

@app.post("/v1/chat/completions")
async def chat_completion(request: ChatRequest):
    """
    企业级聊天接口
    增加请求审计、限流、错误处理等企业级功能
    """
    try:
        # 记录审计日志
        logger.info(f"用户 {request.user_id} 请求模型服务，prompt长度: {len(request.prompt)}")
        
        # 调用Ollama原生API
        ollama_request = {
            "model": "deepseek-r1-distill-qwen:7b",
            "prompt": request.prompt,
            "options": {
                "temperature": request.temperature,
                "num_predict": request.max_tokens
            }
        }
        
        response = requests.post(
            "http://localhost:11434/api/generate",
            json=ollama_request,
            timeout=60
        )
        
        if response.status_code != 200:
            raise HTTPException(status_code=500, detail="模型服务异常")
        
        result = response.json()
        
        return ChatResponse(
            response=result["response"],
            usage={
                "prompt_tokens": len(request.prompt) // 4,  # 粗略估算
                "completion_tokens": len(result["response"]) // 4,
                "total_tokens": (len(request.prompt) + len(result["response"])) // 4
            },
            request_id="req_" + str(hash(request.prompt))
        )
        
    except Exception as e:
        logger.error(f"模型服务异常: {str(e)}")
        raise HTTPException(status_code=500, detail="服务内部错误")

# 健康检查接口
@app.get("/health")
async def health_check():
    return {"status": "healthy", "model": "deepseek-r1-distill-qwen:7b"}

这个封装做了几件事：

标准化接口：模仿OpenAI的API格式，降低集成成本
审计日志：记录谁在什么时候用了模型
错误处理：友好的错误提示和日志记录
健康检查：方便运维监控

4.3 权限控制与访问管理

数据不出域只是第一步，还要控制谁能在域内访问模型。这里给出一个简单的RBAC（基于角色的访问控制）方案：

from functools import wraps
from fastapi import Request, HTTPException

# 模拟用户数据库
USER_DB = {
    "user1": {"roles": ["employee"], "department": "sales"},
    "user2": {"roles": ["manager"], "department": "sales"},
    "admin": {"roles": ["admin"], "department": "it"}
}

# 权限配置
PERMISSIONS = {
    "employee": ["chat:basic"],
    "manager": ["chat:basic", "chat:advanced", "logs:view"],
    "admin": ["chat:basic", "chat:advanced", "logs:view", "system:manage"]
}

def require_permission(permission: str):
    """权限检查装饰器"""
    def decorator(func):
        @wraps(func)
        async def wrapper(request: Request, *args, **kwargs):
            # 从请求头获取用户信息（实际中应该用JWT等认证方式）
            user_id = request.headers.get("X-User-ID")
            
            if not user_id or user_id not in USER_DB:
                raise HTTPException(status_code=403, detail="用户未认证")
            
            user_roles = USER_DB[user_id]["roles"]
            user_permissions = []
            
            for role in user_roles:
                user_permissions.extend(PERMISSIONS.get(role, []))
            
            if permission not in user_permissions:
                raise HTTPException(status_code=403, detail="权限不足")
            
            # 将用户信息注入到请求中
            request.state.user_id = user_id
            request.state.department = USER_DB[user_id]["department"]
            
            return await func(request, *args, **kwargs)
        return wrapper
    return decorator

# 在聊天接口上使用权限控制
@app.post("/v1/chat/completions")
@require_permission("chat:basic")
async def chat_completion(request: Request, chat_request: ChatRequest):
    # 现在可以安全地处理请求了
    # request.state.user_id 包含了认证过的用户ID
    chat_request.user_id = request.state.user_id
    # ... 原有的处理逻辑

这个权限系统虽然简单，但包含了企业需要的基本要素：

角色划分：员工、经理、管理员不同权限
部门隔离：销售部看不到技术部的数据
操作审计：谁在什么时候做了什么操作

5. 企业场景实战：数据不出域的具体应用

5.1 场景一：内部知识库问答

很多公司都有内部Wiki、技术文档、产品手册，但员工找起来很麻烦。用大模型做个智能问答系统，问题就解决了。

关键是要确保文档数据不离开公司网络。我们的方案完美符合要求。

实现思路：

文档预处理：把PDF、Word、Markdown文档转换成纯文本
向量化存储：用本地部署的embedding模型生成向量
检索增强：用户提问时，先检索相关文档片段
模型回答：把检索结果和问题一起给模型，让它生成答案

import chromadb
from sentence_transformers import SentenceTransformer

class LocalKnowledgeBase:
    def __init__(self, docs_path):
        # 使用本地embedding模型
        self.embedder = SentenceTransformer('BAAI/bge-small-zh-v1.5')
        
        # 本地向量数据库
        self.client = chromadb.PersistentClient(path="./chroma_db")
        self.collection = self.client.get_or_create_collection("company_docs")
        
    def add_document(self, doc_id: str, content: str, metadata: dict = None):
        """添加文档到知识库"""
        # 分块处理（每500字一块）
        chunks = self._split_text(content, chunk_size=500)
        
        for i, chunk in enumerate(chunks):
            chunk_id = f"{doc_id}_chunk_{i}"
            # 本地生成向量
            embedding = self.embedder.encode(chunk).tolist()
            
            self.collection.add(
                ids=[chunk_id],
                embeddings=[embedding],
                documents=[chunk],
                metadatas=[{**metadata, "chunk_index": i}]
            )
    
    def query(self, question: str, top_k: int = 3):
        """查询相关知识片段"""
        # 本地生成问题向量
        question_embedding = self.embedder.encode(question).tolist()
        
        results = self.collection.query(
            query_embeddings=[question_embedding],
            n_results=top_k
        )
        
        # 构建上下文
        context = "\n\n".join(results['documents'][0])
        
        # 调用本地大模型
        prompt = f"""基于以下上下文信息，回答用户的问题。

上下文：
{context}

问题：{question}

要求：
1. 只基于上下文回答，不知道就说不知道
2. 回答要简洁明了
3. 如果上下文中有多个相关信息，要综合回答

回答："""
        
        return self._call_local_llm(prompt)
    
    def _call_local_llm(self, prompt: str):
        """调用本地部署的DeepSeek模型"""
        # 这里调用前面封装的API
        response = requests.post(
            "http://localhost:8000/v1/chat/completions",
            json={"prompt": prompt},
            headers={"X-User-ID": "knowledge_base_system"}
        )
        return response.json()["response"]

这个方案的好处很明显：

数据安全：文档从存储到查询，全流程都在内网
响应快速：本地网络延迟低
成本可控：一次部署，长期使用

5.2 场景二：敏感数据脱敏分析

金融、医疗、法律这些行业，数据敏感性极高。但业务又需要AI辅助分析，怎么办？

解决方案是：在数据进入模型之前，先做脱敏处理；模型分析完成后，再把敏感信息还原。

import re
from typing import Dict, List

class DataDesensitizer:
    def __init__(self):
        # 定义敏感模式
        self.patterns = {
            'id_card': r'\b\d{17}[\dXx]\b',
            'phone': r'\b1[3-9]\d{9}\b',
            'email': r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b',
            'bank_card': r'\b\d{16,19}\b'
        }
        
        # 存储映射关系
        self.mapping = {}
    
    def desensitize(self, text: str) -> (str, Dict):
        """脱敏处理，返回脱敏后的文本和映射表"""
        desensitized = text
        mapping = {}
        
        for key, pattern in self.patterns.items():
            matches = re.finditer(pattern, text)
            
            for i, match in enumerate(matches):
                original = match.group()
                # 生成替换标记
                replacement = f"[{key.upper()}_{i}]"
                
                desensitized = desensitized.replace(original, replacement)
                mapping[replacement] = original
        
        self.mapping.update(mapping)
        return desensitized, mapping
    
    def restore(self, text: str) -> str:
        """恢复原始数据"""
        restored = text
        
        for placeholder, original in self.mapping.items():
            restored = restored.replace(placeholder, original)
        
        return restored

# 使用示例
def analyze_sensitive_data(data_text: str, analysis_prompt: str):
    """分析敏感数据的完整流程"""
    desensitizer = DataDesensitizer()
    
    # 1. 脱敏处理
    safe_text, mapping = desensitizer.desensitize(data_text)
    
    # 2. 构建分析请求
    full_prompt = f"""请分析以下数据：
{safe_text}

分析要求：{analysis_prompt}

注意：文本中的[ID_CARD_0]、[PHONE_0]等是脱敏标记，代表敏感信息。分析时请直接引用这些标记。"""
    
    # 3. 调用本地模型
    response = call_local_llm(full_prompt)
    
    # 4. 恢复敏感信息
    final_response = desensitizer.restore(response)
    
    return final_response

# 实际使用
data = """
客户张三，身份证号310101199001011234，手机号13800138000，
邮箱zhangsan@company.com，申请贷款50万元。
"""

analysis = analyze_sensitive_data(
    data,
    "请评估该客户的贷款风险，并给出理由"
)

print(analysis)

输出结果会是这样的：

客户张三，身份证号310101199001011234，手机号13800138000，
邮箱zhangsan@company.com，申请贷款50万元。

风险评估：中等风险

理由：
1. 客户基本信息完整，身份证号310101199001011234显示为1990年出生，年龄34岁，处于职业稳定期
2. 手机号13800138000和邮箱zhangsan@company.com都是有效联系方式
3. 贷款金额50万元属于中等额度，需要进一步核实收入证明和信用记录
4. 建议要求提供近6个月银行流水和工作证明

你看，模型分析时看到的是脱敏标记，但最终给用户的回复里，敏感信息都正确还原了。整个过程，真实数据从未离开过你的控制。

5.3 场景三：代码安全审查

对科技公司来说，代码就是核心资产。用AI辅助代码审查，既能提升效率，又能确保代码不泄露。

import ast
import tempfile
import subprocess

class CodeSecurityReviewer:
    def __init__(self):
        self.rules = {
            "hardcoded_secrets": [
                r'password\s*=\s*["\'][^"\']+["\']',
                r'api_key\s*=\s*["\'][^"\']+["\']',
                r'token\s*=\s*["\'][^"\']+["\']'
            ],
            "sql_injection": [
                r'execute\(.*\+.*\)',
                r'executemany\(.*\+.*\)'
            ],
            "file_path_traversal": [
                r'open\(.*\.\./.*\)',
                r'open\(.*\.\.\\\.*\)'
            ]
        }
    
    def review_code(self, code_content: str, language: str = "python") -> dict:
        """代码安全审查"""
        issues = []
        
        # 1. 基础规则检查
        for rule_type, patterns in self.rules.items():
            for pattern in patterns:
                matches = re.finditer(pattern, code_content, re.IGNORECASE)
                for match in matches:
                    issues.append({
                        "type": rule_type,
                        "level": "high",
                        "line": self._get_line_number(code_content, match.start()),
                        "description": f"发现潜在安全问题：{rule_type}",
                        "code_snippet": match.group()
                    })
        
        # 2. 用大模型深度分析
        if issues:
            analysis_prompt = f"""发现以下代码安全问题，请提供修复建议：

代码语言：{language}
问题列表：
{self._format_issues(issues)}

代码片段：
```{language}
{code_content}

请针对每个问题：

解释为什么这是安全问题
提供具体的修复代码

说明修复后的安全性提升"""

     llm_advice = self._call_local_llm(analysis_prompt)
     
     # 把AI建议加到每个问题上
     for i, issue in enumerate(issues):
         issue["ai_advice"] = self._extract_advice_for_issue(llm_advice, i)
 
 return {
     "file_hash": self._hash_code(code_content),
     "issues_found": len(issues),
     "issues": issues,
     "overall_risk": "high" if len(issues) > 3 else "medium" if len(issues) > 0 else "low"
 }

def _call_local_llm(self, prompt: str): """调用本地模型分析代码""" # 这里可以添加代码特定的提示词 code_specific_prompt = """你是一个资深的安全工程师，擅长代码安全审查。请用专业但易懂的语言回答。"""

 full_prompt = code_specific_prompt + "\n\n" + prompt
 
 response = requests.post(
     "http://localhost:8000/v1/chat/completions",
     json={
         "prompt": full_prompt,
         "temperature": 0.3,  # 代码分析需要确定性
         "max_tokens": 2000
     }
 )
 
 return response.json()["response"]

使用示例

reviewer = CodeSecurityReviewer()

vulnerable_code = """ import mysql.connector

def get_user_data(username): # 硬编码数据库密码（安全问题！） db_password = "MySuperSecretPassword123"

conn = mysql.connector.connect(
    host="localhost",
    user="root",
    password=db_password,
    database="users"
)

# SQL注入风险（安全问题！）
query = f"SELECT * FROM users WHERE username = '{username}'"
cursor = conn.cursor()
cursor.execute(query)

return cursor.fetchall()

"""

result = reviewer.review_code(vulnerable_code) print(f"发现安全问题：{result['issues_found']}个") for issue in result['issues']: print(f"- {issue['type']}: {issue['description']}") print(f" AI建议：{issue.get('ai_advice', '暂无')[:100]}...")


这个方案让代码审查既安全又智能：

- **代码不出内网**：所有分析都在本地完成
- **双重检查**：规则引擎+AI分析，更全面
- **可追溯**：每次审查都有记录，符合审计要求

## 6. 性能优化与运维监控

### 6.1 模型推理优化技巧

DeepSeek-R1-Distill-Qwen-7B在7B模型里算表现不错的，但企业应用对响应时间有要求。这里分享几个优化技巧：

**技巧一：量化压缩**

模型默认是FP16精度，可以量化到INT8甚至INT4，速度能提升30-50%，精度损失很小。

```bash
# 使用Ollama的量化功能
ollama pull deepseek-r1-distill-qwen:7b-q4_0

技巧二：批处理请求

如果有多个相似请求，可以批量处理：

def batch_process_requests(requests: List[ChatRequest]):
    """批量处理相似请求"""
    # 合并相似prompt
    batched_prompt = self._merge_similar_prompts(requests)
    
    # 一次推理
    batch_response = self._call_local_llm(batched_prompt)
    
    # 拆分结果
    individual_responses = self._split_batch_response(batch_response, len(requests))
    
    return individual_responses

技巧三：缓存常用结果

有些问题会被频繁问到，比如产品介绍、公司政策等，可以缓存结果：

from functools import lru_cache
import hashlib

class CachedLLM:
    def __init__(self, cache_size=1000):
        self.cache = {}
        
    def get_response(self, prompt: str) -> str:
        # 生成缓存键
        cache_key = hashlib.md5(prompt.encode()).hexdigest()
        
        if cache_key in self.cache:
            print(f"缓存命中：{prompt[:50]}...")
            return self.cache[cache_key]
        
        # 调用模型
        response = self._call_local_llm(prompt)
        
        # 存入缓存
        self.cache[cache_key] = response
        
        # 控制缓存大小
        if len(self.cache) > 1000:
            # 移除最旧的条目
            oldest_key = next(iter(self.cache))
            del self.cache[oldest_key]
        
        return response

6.2 系统监控与告警

企业应用不能“黑盒”运行，需要有完善的监控。

基础监控指标：

import psutil
import time
from prometheus_client import start_http_server, Gauge, Counter

class ModelMonitor:
    def __init__(self):
        # 定义监控指标
        self.request_count = Counter('llm_requests_total', 'Total requests')
        self.request_duration = Gauge('llm_request_duration_seconds', 'Request duration')
        self.model_memory = Gauge('llm_model_memory_bytes', 'Model memory usage')
        self.gpu_utilization = Gauge('llm_gpu_utilization_percent', 'GPU utilization')
        
        # 启动监控服务器
        start_http_server(9090)
    
    def record_request(self, duration: float):
        """记录请求指标"""
        self.request_count.inc()
        self.request_duration.set(duration)
        
        # 记录资源使用
        self._record_system_metrics()
    
    def _record_system_metrics(self):
        """记录系统指标"""
        # 内存使用
        process = psutil.Process()
        memory_info = process.memory_info()
        self.model_memory.set(memory_info.rss)
        
        # 如果有GPU，记录GPU使用率
        try:
            import pynvml
            pynvml.nvmlInit()
            handle = pynvml.nvmlDeviceGetHandleByIndex(0)
            util = pynvml.nvmlDeviceGetUtilizationRates(handle)
            self.gpu_utilization.set(util.gpu)
        except:
            pass  # 没有GPU或pynvml未安装

# 使用监控
monitor = ModelMonitor()

@app.post("/v1/chat/completions")
async def chat_completion(request: ChatRequest):
    start_time = time.time()
    
    try:
        response = await process_request(request)
        
        duration = time.time() - start_time
        monitor.record_request(duration)
        
        return response
    except Exception as e:
        monitor.record_request(time.time() - start_time)
        raise e

告警规则示例（Prometheus格式）：

groups:
  - name: llm_alerts
    rules:
      - alert: HighResponseTime
        expr: llm_request_duration_seconds > 5
        for: 5m
        labels:
          severity: warning
        annotations:
          summary: "模型响应时间过高"
          description: "平均响应时间超过5秒，当前值 {{ $value }}s"
      
      - alert: HighMemoryUsage
        expr: llm_model_memory_bytes > 16 * 1024 * 1024 * 1024  # 16GB
        for: 2m
        labels:
          severity: critical
        annotations:
          summary: "模型内存使用过高"
          description: "内存使用超过16GB，当前值 {{ $value | humanize }}"
      
      - alert: ServiceDown
        expr: up{job="ollama"} == 0
        for: 1m
        labels:
          severity: critical
        annotations:
          summary: "Ollama服务下线"
          description: "Ollama服务已停止响应"

6.3 备份与灾难恢复

企业系统必须有备份方案。对于大模型部署，需要备份：

模型文件：虽然可以重新下载，但内网环境下载慢
配置信息：Ollama配置、权限配置、系统参数
微调数据：如果你做了模型微调，训练数据要备份
向量数据库：知识库的向量数据

#!/bin/bash
# 备份脚本 backup_llm.sh

BACKUP_DIR="/backup/llm_$(date +%Y%m%d_%H%M%S)"
mkdir -p $BACKUP_DIR

echo "开始备份大模型部署..."

# 1. 备份模型文件
echo "备份模型文件..."
cp -r ~/.ollama/models $BACKUP_DIR/

# 2. 备份配置
echo "备份配置文件..."
cp /etc/ollama/config.json $BACKUP_DIR/
cp /etc/nginx/sites-available/ollama $BACKUP_DIR/

# 3. 备份向量数据库
echo "备份向量数据库..."
cp -r /var/lib/chromadb $BACKUP_DIR/

# 4. 备份应用数据
echo "备份应用数据..."
docker exec postgres pg_dump -U ollama ollama_db > $BACKUP_DIR/db_backup.sql

# 5. 创建恢复脚本
cat > $BACKUP_DIR/restore.sh << 'EOF'
#!/bin/bash
echo "恢复大模型部署..."

# 恢复模型
cp -r models ~/.ollama/

# 恢复配置
cp config.json /etc/ollama/
cp ollama /etc/nginx/sites-available/

# 恢复向量数据库
cp -r chromadb /var/lib/

# 恢复数据库
docker exec -i postgres psql -U ollama ollama_db < db_backup.sql

echo "恢复完成！重启服务："
echo "systemctl restart ollama"
echo "systemctl restart nginx"
EOF

chmod +x $BACKUP_DIR/restore.sh

echo "备份完成！备份位置：$BACKUP_DIR"
echo "总大小：$(du -sh $BACKUP_DIR | cut -f1)"