GLM-4v-9b图文对话实战：上传图片提问+多轮追问+中英文混合响应演示

二院大蛙

291人浏览 · 2026-02-15 00:45:51

二院大蛙 · 2026-02-15 00:45:51 发布

GLM-4v-9b图文对话实战：上传图片提问+多轮追问+中英文混合响应演示

1. 开篇：认识这个强大的图文对话助手

今天给大家介绍一个特别实用的AI工具——GLM-4v-9b，这是一个能同时看懂图片和文字的智能模型。想象一下，你上传一张照片，它不仅能告诉你图片里有什么，还能回答你的各种问题，甚至支持中英文混合交流。

这个模型最大的特点是单张显卡就能运行，支持1120×1120的高清图片，在识别小字、表格和复杂图表方面表现特别出色。无论是中文还是英文，它都能流畅对话，而且在很多测试中甚至超过了那些知名的商业模型。

2. 环境准备与快速部署

2.1 硬件要求

GLM-4v-9b对硬件要求相对友好：

显存需求：FP16精度需要约18GB显存，INT4量化后仅需9GB
显卡推荐：RTX 4090或同等级别显卡即可流畅运行
内存建议：建议32GB以上系统内存

2.2 一键部署方法

部署过程非常简单，这里提供两种常用方式：

# 方式一：使用 transformers 库
from transformers import AutoProcessor, AutoModel
model = AutoModel.from_pretrained("THUDM/glm-4v-9b")
processor = AutoProcessor.from_pretrained("THUDM/glm-4v-9b")

# 方式二：使用 vLLM 加速推理（推荐）
# 安装后一条命令即可启动服务

对于不想自己配置环境的用户，可以直接使用预置的镜像服务，几分钟内就能开始使用。

3. 基础功能实战演示

3.1 上传图片并提问

让我们从一个简单的例子开始。假设你有一张包含多道美食的图片，想要了解图片内容：

# 示例代码：上传图片并提问
from PIL import Image
import requests

# 加载图片
image_url = "https://example.com/food.jpg"
image = Image.open(requests.get(image_url, stream=True).raw)

# 准备问题
question = "请描述这张图片中的食物"

# 调用模型
inputs = processor(question, image, return_tensors="pt")
outputs = model.generate(**inputs)
response = processor.decode(outputs[0], skip_special_tokens=True)

模型可能会这样回答： "图片中有一碗热气腾腾的拉面，旁边放着煎饺和小菜。拉面汤色浓郁，上面有葱花和叉烧肉片，看起来非常美味。"

3.2 多轮追问深入交流

GLM-4v-9b支持多轮对话，你可以像和朋友聊天一样不断追问：

第一轮提问："这张图片里有哪些食物？" 模型回答："有拉面、煎饺、凉拌海带丝和腌萝卜"

第二轮追问："拉面里有哪些配料？" 模型回答："可以看到叉烧肉、葱花、玉米粒、海苔和半个溏心蛋"

第三轮追问："这些食物大概有多少卡路里？" 模型回答："根据分量估算，整餐大约600-800卡路里，其中拉面占主要部分"

3.3 中英文混合对话

这个模型最厉害的地方是支持中英文混合交流，非常适合国际化场景：

用户提问："Please describe the food in this image, 然后用中文告诉我哪些比较健康" 模型回答："The image shows a bowl of ramen with chashu pork, green onions, and a soft-boiled egg. 从健康角度，海带丝和腌萝卜是较低卡的选择，拉面建议适量食用。"