GLM-4v-9b部署教程：7860端口Jupyter直连WebUI详细步骤

草履虫稽亚娜

323人浏览 · 2026-02-14 00:49:53

草履虫稽亚娜 · 2026-02-14 00:49:53 发布

GLM-4v-9b部署教程：7860端口Jupyter直连WebUI详细步骤

1. 开篇：认识GLM-4v-9b多模态模型

GLM-4v-9b是智谱AI在2024年开源的一款视觉-语言多模态模型，拥有90亿参数。这个模型最大的特点是能同时理解文字和图片，支持中英文多轮对话，而且在1120×1120高分辨率输入下表现特别出色。

在实际测试中，GLM-4v-9b在图像描述、视觉问答、图表理解等任务上的表现，甚至超过了GPT-4-turbo、Gemini 1.0 Pro、Qwen-VL-Max和Claude 3 Opus这些知名模型。简单来说，这是一个在单张RTX 4090显卡上就能运行的高性能多模态模型。

2. 部署前准备：环境与资源检查

2.1 硬件要求

要顺利运行GLM-4v-9b，你需要准备以下硬件环境：

显卡：至少RTX 4090（24GB显存）或同等级别的显卡
内存：建议32GB或以上
存储空间：需要约20GB的可用空间存放模型文件

2.2 软件环境

确保你的系统已经安装：

Python 3.8或更高版本
CUDA 11.7或更高版本（确保显卡驱动正常）
pip包管理工具

3. 一步步部署GLM-4v-9b

3.1 创建虚拟环境

首先我们创建一个独立的Python环境，避免与其他项目冲突：

# 创建名为glm4v的虚拟环境
python -m venv glm4v-env

# 激活虚拟环境
# Linux/Mac系统
source glm4v-env/bin/activate
# Windows系统
glm4v-env\Scripts\activate

3.2 安装依赖包

在激活的虚拟环境中安装必要的依赖：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers>=4.35.0
pip install vllm>=0.2.6
pip install jupyterlab
pip install open-webui

3.3 下载模型权重

GLM-4v-9b提供了多种精度版本，你可以根据显存大小选择：

# 自动下载模型权重的示例代码
from transformers import AutoModel, AutoTokenizer

model_name = "THUDM/glm-4v-9b"

# 自动下载并加载模型
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, trust_remote_code=True).cuda()

如果网络环境不稳定，也可以手动下载权重文件，然后指定本地路径。

4. 启动Jupyter和WebUI服务

4.1 启动Jupyter Notebook

在项目目录下启动Jupyter服务：

# 启动Jupyter Lab，指定端口为8888
jupyter lab --port=8888 --ip=0.0.0.0 --no-browser

启动成功后，你会看到类似这样的输出：

[I 2024-01-01 12:00:00.000 LabApp] JupyterLab extension loaded...
[I 2024-01-01 12:00:00.000 LabApp] JupyterLab application directory is...
[I 2024-01-01 12:00:00.000 LabApp] Serving notebooks from local directory:...
[I 2024-01-01 12:00:00.000 LabApp] JupyterLab is running at:
[I 2024-01-01 12:00:00.000 LabApp] http://localhost:8888/?token=...

4.2 连接7860端口WebUI

现在来到关键步骤：连接7860端口的Web界面。在浏览器中打开Jupyter提供的URL，通常是http://localhost:8888，然后将端口号从8888改为7860。

比如原来的URL是： http://localhost:8888/lab?token=abcdef123456

改为： http://localhost:7860

4.3 登录Web界面

在打开的Web界面中，使用以下账号登录：

账号：kakajiang@kakajiang.com
密码：kakajiang

登录成功后，你就能看到GLM-4v-9b的图形化操作界面了。

5. 第一次使用GLM-4v-9b

5.1 上传图片并提问

在Web界面中，你可以轻松地上传图片并向模型提问：

点击"上传图片"按钮选择本地图片
在文本输入框中输入你的问题
点击"发送"按钮获取模型的回答

试试这些示例问题：

"描述一下这张图片的内容"
"图片中的人物在做什么？"
"这张图表展示了什么数据趋势？"

5.2 多轮对话体验

GLM-4v-9b支持多轮对话，你可以基于同一张图片连续提问：

# 如果你通过API调用，可以这样实现多轮对话
conversation = [
    {"role": "user", "content": "描述这张图片"},
    {"role": "assistant", "content": "图片显示了一个现代办公室环境..."},
    {"role": "user", "content": "办公室里有几个人？"}
]

response = model.chat(tokenizer, conversation, image="office.jpg")
print(response)

6. 常见问题解决

6.1 端口连接问题

如果7860端口无法访问，检查服务是否正常启动：

# 检查7860端口是否监听
netstat -tuln | grep 7860

# 如果端口被占用，可以终止相关进程
lsof -ti:7860 | xargs kill -9

6.2 显存不足处理

如果遇到显存不足的错误，可以尝试量化模型：

# 使用4位量化减少显存占用
model = AutoModel.from_pretrained(
    model_name,
    trust_remote_code=True,
    load_in_4bit=True  # 启用4位量化
).cuda()

6.3 模型加载缓慢

首次加载模型可能需要较长时间，这是因为需要下载和初始化模型权重。后续启动会快很多。

7. 实用技巧与最佳实践

7.1 优化推理速度

为了获得更快的响应速度，可以调整这些参数：

# 优化推理配置
model.generate(
    input_ids,
    max_length=512,
    temperature=0.7,
    top_p=0.9,
    do_sample=True
)

7.2 处理高分辨率图片

GLM-4v-9b支持1120×1120的高分辨率输入，但处理大图片时需要注意：

确保图片格式为JPG或PNG
如果图片太大，可以先适当压缩
复杂的图片可能需要更长的处理时间

7.3 中文优化提示

由于模型对中文有专门优化，在使用中文提问时：

尽量使用清晰完整的中文句子
对于专业术语，可以中英文混合使用
多轮对话时保持语言一致性

8. 总结

通过本教程，你已经成功部署了GLM-4v-9b多模态模型，并通过7860端口的Web界面开始了你的多模态AI体验。这个模型在图像理解、视觉问答方面的表现相当出色，特别是在中文场景下的图表理解和文字识别能力。

记住关键步骤：创建环境→安装依赖→启动服务→修改端口→登录使用。如果在使用过程中遇到问题，可以参考常见问题解决部分，或者检查硬件是否满足要求。

现在你可以开始探索GLM-4v-9b的各种应用场景了，无论是分析图表、描述图片内容，还是进行复杂的视觉推理任务，这个模型都能给你带来惊喜的表现。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

2026 Claude多模态开发实战：用Claude 4的视觉+代码能力构建智能应用全流程

AI Agent技术社区

Headroom：AI Agent 的上下文压缩层

Headroom是一款针对AI Agent的本地化上下文压缩工具，能显著降低大模型交互的token消耗。它支持多种数据类型（JSON、代码、文本、图片等）的智能压缩，内置六种专用算法，包括JSON精简、代码AST分析和ML文本压缩等。通过四种接入方式（库模式、代理模式、Agent包装和MCP服务），Headroom可实现92%的压缩率（如65,694 token→5,118），同时保持任务准确性。