GLM-4.7-Flash生产环境部署：Supervisor自动恢复+开机自启配置

月末刀戈

398人浏览 · 2026-02-12 10:44:16

月末刀戈 · 2026-02-12 10:44:16 发布

GLM-4.7-Flash生产环境部署：Supervisor自动恢复+开机自启配置

你是不是也遇到过这样的烦恼？好不容易把一个大模型部署到服务器上，结果半夜服务挂了没人知道，第二天上班才发现；或者服务器重启一次，就得手动去敲一堆命令重新启动服务，麻烦又容易出错。

今天，我就来分享一个GLM-4.7-Flash的“保姆级”生产环境部署方案。这个方案的核心，就是用Supervisor这个工具，实现两个关键功能：服务异常自动重启和系统开机自动启动。让你部署的模型服务像“打不死的小强”一样稳定运行。

1. 为什么需要生产级部署方案？

在开始动手之前，我们先搞清楚一个问题：为什么不能直接用简单的启动命令？

想象一下，你开了一家24小时营业的便利店。如果晚上店员突然睡着了，第二天早上才被发现，那这一晚上的生意就全丢了。我们的模型服务也是一样，如果半夜因为内存泄漏、网络波动或者其他原因崩溃了，而你又不知道，那所有依赖这个服务的应用都会中断。

传统部署方式的三大痛点：

稳定性差：服务崩溃后不会自动恢复，需要人工干预
管理麻烦：每次服务器重启都要手动启动服务
监控缺失：不知道服务什么时候挂的，挂了多久

而用Supervisor的方案，就相当于给你的便利店请了一个“永不疲倦的机器人店员”，它会在店员睡着时立刻叫醒他，确保店铺永远正常营业。

2. 环境准备与Supervisor安装

2.1 系统环境检查

首先，确保你的服务器环境符合要求。GLM-4.7-Flash对硬件要求比较高，建议配置：

操作系统：Ubuntu 20.04/22.04 LTS（其他Linux发行版也可，但配置可能略有不同）
GPU：至少4张RTX 4090 D（或同等算力的GPU卡）
内存：128GB以上
存储：至少200GB可用空间（模型文件约59GB）

检查你的GPU是否正常识别：

# 查看GPU信息
nvidia-smi

# 安装必要的驱动和工具
sudo apt update
sudo apt install -y python3-pip python3-venv git curl wget

2.2 安装Supervisor

Supervisor是Python写的一个进程管理工具，安装很简单：

# 使用pip安装
pip3 install supervisor

# 或者使用apt安装（推荐，更方便管理）
sudo apt install -y supervisor

# 检查是否安装成功
supervisord --version

安装完成后，Supervisor会自动创建一些关键目录和配置文件：

/etc/supervisor/ - 主配置目录
/etc/supervisor/supervisord.conf - 主配置文件
/etc/supervisor/conf.d/ - 服务配置文件目录
/var/log/supervisor/ - 日志目录

2.3 配置Supervisor基础服务

先启动Supervisor服务，并设置为开机自启：

# 启动Supervisor服务
sudo systemctl start supervisor

# 设置开机自启
sudo systemctl enable supervisor

# 检查服务状态
sudo systemctl status supervisor

如果看到"active (running)"的状态，说明Supervisor已经正常运行了。

3. GLM-4.7-Flash服务配置

3.1 创建服务配置文件

这是最关键的一步。我们需要为GLM-4.7-Flash创建两个Supervisor配置：一个用于vLLM推理引擎，一个用于Web界面。

创建配置文件：

sudo nano /etc/supervisor/conf.d/glm47flash.conf

把下面的配置内容复制进去：

; GLM-4.7-Flash vLLM推理引擎配置
[program:glm_vllm]
command=/usr/bin/python3 -m vllm.entrypoints.openai.api_server \
    --model /root/.cache/huggingface/ZhipuAI/GLM-4.7-Flash \
    --tensor-parallel-size 4 \
    --max-model-len 4096 \
    --port 8000 \
    --host 0.0.0.0
directory=/root/workspace
autostart=true
autorestart=true
startretries=5
startsecs=30
stopwaitsecs=30
user=root
stdout_logfile=/root/workspace/glm_vllm.log
stdout_logfile_maxbytes=50MB
stdout_logfile_backups=10
stderr_logfile=/root/workspace/glm_vllm_error.log
stderr_logfile_maxbytes=50MB
stderr_logfile_backups=10
environment=PYTHONUNBUFFERED="1"

; GLM-4.7-Flash Web界面配置
[program:glm_ui]
command=/usr/bin/python3 -m streamlit run web_ui.py \
    --server.port 7860 \
    --server.address 0.0.0.0 \
    --server.headless true
directory=/root/workspace
autostart=true
autorestart=true
startretries=3
startsecs=10
stopwaitsecs=10
user=root
stdout_logfile=/root/workspace/glm_ui.log
stdout_logfile_maxbytes=20MB
stdout_logfile_backups=5
stderr_logfile=/root/workspace/glm_ui_error.log
stderr_logfile_maxbytes=20MB
stderr_logfile_backups=5
environment=PYTHONUNBUFFERED="1"

配置参数详解：

autostart=true - 服务自动启动
autorestart=true - 服务崩溃后自动重启
startretries=5 - 启动失败重试5次
startsecs=30 - 等待30秒确认服务启动成功
stdout_logfile - 标准输出日志路径
stderr_logfile - 错误日志路径

3.2 加载并启动服务

配置文件写好后，需要让Supervisor重新读取配置：

# 重新读取配置文件
sudo supervisorctl reread

# 更新配置
sudo supervisorctl update

# 查看服务状态
sudo supervisorctl status

如果一切正常，你应该能看到类似这样的输出：

glm_vllm                       RUNNING   pid 12345, uptime 0:00:30
glm_ui                         RUNNING   pid 12346, uptime 0:00:25

3.3 验证服务运行

现在，让我们验证一下服务是否真的在运行：

# 检查vLLM推理引擎端口
curl http://127.0.0.1:8000/health

# 检查Web界面端口
curl http://127.0.0.1:7860 -I

如果返回HTTP 200状态码，说明服务已经正常启动了。

4. 生产环境优化配置

4.1 资源限制配置

在生产环境中，我们需要限制服务的资源使用，防止单个服务占用过多资源影响系统稳定性。

修改配置文件，添加资源限制：

; 在glm_vllm配置段中添加
[program:glm_vllm]
; ... 其他配置不变 ...
priority=100  ; 启动优先级
stopsignal=TERM  ; 停止信号
stopasgroup=true  ; 停止整个进程组
killasgroup=true  ; 杀死整个进程组
; 资源限制
; rlimit_core=0  ; 核心文件大小限制（0表示不生成核心文件）
; rlimit_nofile=65535  ; 文件描述符限制

4.2 日志轮转配置

生产环境的日志管理很重要。我们可以配置日志轮转，避免日志文件无限增长占满磁盘。

创建日志轮转配置：

sudo nano /etc/logrotate.d/glm47flash

添加以下内容：

/root/workspace/glm_*.log {
    daily
    rotate 30
    compress
    delaycompress
    missingok
    notifempty
    create 644 root root
    sharedscripts
    postrotate
        /usr/bin/supervisorctl signal HUP glm_vllm >/dev/null 2>&1 || true
        /usr/bin/supervisorctl signal HUP glm_ui >/dev/null 2>&1 || true
    endscript
}

这个配置会：

每天轮转一次日志
保留最近30天的日志
压缩旧的日志文件
轮转后通知Supervisor重新打开日志文件

4.3 监控告警配置

虽然Supervisor能自动重启服务，但我们还需要知道服务什么时候出过问题。可以配置简单的监控脚本：

sudo nano /root/workspace/monitor_glm.sh

#!/bin/bash

# 监控GLM服务状态
SERVICES=("glm_vllm" "glm_ui")
ALERT_EMAIL="your-email@example.com"

for service in "${SERVICES[@]}"; do
    status=$(supervisorctl status $service | awk '{print $2}')
    
    if [ "$status" != "RUNNING" ]; then
        echo "$(date): 服务 $service 状态异常: $status" >> /root/workspace/service_alert.log
        # 这里可以添加发送邮件或钉钉告警的逻辑
        # mail -s "GLM服务异常: $service" $ALERT_EMAIL < /tmp/alert_msg
    fi
done

# 检查端口是否可访问
if ! curl -s http://127.0.0.1:8000/health > /dev/null; then
    echo "$(date): vLLM API端口不可访问" >> /root/workspace/service_alert.log
fi

if ! curl -s http://127.0.0.1:7860 > /dev/null; then
    echo "$(date): Web界面端口不可访问" >> /root/workspace/service_alert.log
fi

给脚本执行权限，并添加到crontab中定时执行：

chmod +x /root/workspace/monitor_glm.sh

# 编辑crontab
crontab -e

# 添加一行，每5分钟检查一次
*/5 * * * * /root/workspace/monitor_glm.sh

5. 日常管理与故障排查

5.1 常用管理命令

掌握这些命令，你就能轻松管理GLM服务了：

# 查看所有服务状态
sudo supervisorctl status

# 查看详细状态
sudo supervisorctl status all

# 重启单个服务
sudo supervisorctl restart glm_vllm
sudo supervisorctl restart glm_ui

# 重启所有服务
sudo supervisorctl restart all

# 停止服务（维护时使用）
sudo supervisorctl stop all

# 启动服务
sudo supervisorctl start all

# 重新加载配置文件（修改配置后）
sudo supervisorctl reread && sudo supervisorctl update

# 查看服务日志
sudo tail -f /root/workspace/glm_vllm.log
sudo tail -f /root/workspace/glm_ui.log

5.2 常见问题排查

问题1：服务启动失败

如果服务状态显示"FATAL"或"BACKOFF"，可以按以下步骤排查：

# 1. 查看错误日志
sudo tail -n 50 /root/workspace/glm_vllm_error.log
sudo tail -n 50 /root/workspace/glm_ui_error.log

# 2. 检查端口占用
sudo netstat -tlnp | grep :8000
sudo netstat -tlnp | grep :7860

# 3. 检查GPU状态
nvidia-smi

# 4. 手动测试启动命令
cd /root/workspace
/usr/bin/python3 -m vllm.entrypoints.openai.api_server --help

问题2：服务频繁重启

如果服务不断重启，可能是配置问题或资源不足：

# 查看重启历史
sudo supervisorctl tail -f glm_vllm stderr

# 检查系统资源
free -h  # 内存
df -h    # 磁盘
top      # CPU

# 调整Supervisor重启策略
# 修改配置文件中的 startretries 和 startsecs 参数

问题3：Web界面无法访问

# 1. 检查服务是否运行
sudo supervisorctl status glm_ui

# 2. 检查端口监听
sudo lsof -i :7860

# 3. 检查防火墙
sudo ufw status
# 如果需要，开放端口
sudo ufw allow 7860

# 4. 检查Streamlit配置
cat /root/workspace/.streamlit/config.toml 2>/dev/null || echo "无配置文件"

5.3 性能监控

了解服务的运行状况很重要，这里有几个实用的监控命令：

# 实时查看服务资源占用
watch -n 1 'sudo supervisorctl status && echo "---" && nvidia-smi --query-gpu=utilization.gpu,memory.used --format=csv'

# 查看服务运行时间
sudo supervisorctl status | awk '{print $4}'

# 监控日志增长
watch -n 5 'ls -lh /root/workspace/glm_*.log'

# 检查API响应时间
time curl -s http://127.0.0.1:8000/health > /dev/null

6. 高级技巧与优化建议

6.1 多环境配置管理

如果你需要在开发、测试、生产不同环境部署，可以这样管理配置：

# 创建不同环境的配置模板
cp /etc/supervisor/conf.d/glm47flash.conf /etc/supervisor/conf.d/glm47flash-prod.conf
cp /etc/supervisor/conf.d/glm47flash.conf /etc/supervisor/conf.d/glm47flash-dev.conf

# 使用环境变量区分配置
# 在配置文件中使用环境变量
environment=PYTHONUNBUFFERED="1",DEPLOY_ENV="%(ENV_DEPLOY_ENV)s"

# 启动时指定环境
DEPLOY_ENV=production supervisorctl start glm_vllm

6.2 优雅停机与数据保护

在重启服务时，确保正在处理的请求不会丢失：

; 在配置中添加优雅停机配置
[program:glm_vllm]
; ... 其他配置 ...
stopsignal=INT  ; 使用INT信号，更优雅
stopwaitsecs=60  ; 等待60秒让服务处理完当前请求
stopasgroup=true
killasgroup=true

6.3 备份与恢复策略

定期备份你的配置和模型：

#!/bin/bash
# backup_glm.sh

BACKUP_DIR="/backup/glm47flash"
DATE=$(date +%Y%m%d_%H%M%S)

# 创建备份目录
mkdir -p $BACKUP_DIR/$DATE

# 备份配置文件
cp -r /etc/supervisor/conf.d/ $BACKUP_DIR/$DATE/
cp /root/workspace/web_ui.py $BACKUP_DIR/$DATE/

# 备份Supervisor状态
supervisorctl status > $BACKUP_DIR/$DATE/supervisor_status.txt

# 备份日志（最近7天）
find /root/workspace -name "glm_*.log" -mtime -7 -exec cp {} $BACKUP_DIR/$DATE/ \;

# 压缩备份
tar -czf $BACKUP_DIR/glm_backup_$DATE.tar.gz -C $BACKUP_DIR/$DATE .

echo "备份完成: $BACKUP_DIR/glm_backup_$DATE.tar.gz"

设置定时备份：

# 每天凌晨2点备份
0 2 * * * /root/workspace/backup_glm.sh

6.4 安全加固建议

生产环境的安全很重要：

# 1. 修改默认端口
# 在配置文件中修改port参数
--port 18000  # 改为非常用端口

# 2. 配置防火墙
sudo ufw allow from 192.168.1.0/24 to any port 18000  # 只允许内网访问
sudo ufw allow from 10.0.0.0/8 to any port 7860

# 3. 使用非root用户运行
# 创建专用用户
sudo useradd -r -s /bin/false glmuser
# 修改配置文件中的user参数
user=glmuser

# 4. 配置API密钥认证
# 在vLLM启动参数中添加
--api-key "your-secret-key-here"