GLM-4v-9b图文理解实战：从截图上传到多轮追问的完整对话链演示

BIG-HO

104人浏览 · 2026-02-15 00:33:45

BIG-HO · 2026-02-15 00:33:45 发布

GLM-4v-9b图文理解实战：从截图上传到多轮追问的完整对话链演示

1. 引言：为什么需要多模态对话能力

在日常工作和学习中，我们经常遇到这样的情况：看到一张复杂的图表却不知道如何解读，收到一张截图需要提取关键信息，或者需要分析图片中的文字内容。传统的方式需要人工查看、手动输入、再进行分析，整个过程既耗时又容易出错。

GLM-4v-9b的出现改变了这一现状。这个拥有90亿参数的多模态模型不仅能看懂图片，还能用中文或英文与你进行多轮对话，帮你分析图像内容、解答疑问、甚至进行深度推理。最让人惊喜的是，它在1120×1120的高分辨率下依然能保持出色的表现，在处理图表、截图、文档等复杂图像时效果显著。

本文将带你完整体验GLM-4v-9b的图文对话能力，从如何上传图片开始，到如何进行多轮深入追问，让你真正掌握这个强大的视觉助手的使用方法。

2. 环境准备与快速体验

2.1 快速访问演示环境

如果你只是想快速体验GLM-4v-9b的能力，可以直接使用我们已经部署好的演示环境：

打开浏览器访问演示页面
使用以下账号登录：
- 账号：kakajiang@kakajiang.com
- 密码：kakajiang
等待页面加载完成后，你就可以开始体验图文对话功能了

2.2 本地部署指南（可选）

如果你想在自己的机器上部署GLM-4v-9b，这里有一个简单的方案：

# 使用vLLM进行部署
pip install vllm
python -m vllm.entrypoints.openai.api_server \
    --model THUDM/glm-4v-9b \
    --dtype auto \
    --gpu-memory-utilization 0.9

需要注意的是，全精度模型需要约18GB显存，INT4量化后需要9GB显存。对于大多数用户来说，一张RTX 4090就足够流畅运行了。

3. 第一步：上传图片并获取初步分析

3.1 选择合适的测试图片

为了充分展示GLM-4v-9b的能力，我们建议选择包含以下元素的图片：

复杂图表：折线图、柱状图、饼图等
文字密集的截图：软件界面、文档页面、聊天记录
多元素场景：包含文字、图形、颜色的综合图片

3.2 上传与初次对话

在演示界面中，你会看到明显的图片上传按钮。点击后选择你要分析的图片，然后在输入框中输入第一个问题：

请描述这张图片的主要内容

GLM-4v-9b会快速分析图片并给出详细的描述。比如如果你上传的是一张销售数据图表，它可能会回复：

"这是一张2024年季度销售数据柱状图，展示了Q1到Q4的产品A、B、C的销售额。横轴是时间季度，纵轴是销售额（单位：万元）。图例显示产品A用蓝色表示，产品B用橙色，产品C用灰色。此外图表顶部有标题'Sales Performance 2024'，右下角有数据来源标注。"

4. 第二步：多轮追问深入挖掘信息

4.1 基于图片内容的连续提问

真正的价值体现在多轮对话中。基于模型的首次回复，你可以继续追问：

第二轮提问：

哪个季度的总销售额最高？具体是多少？

第三轮提问：

产品B在Q2和Q3的销售额变化趋势如何？

第四轮提问：

根据这个趋势，预测一下产品C在下一季度的可能表现

4.2 实际对话示例

让我们看一个真实的多轮对话例子：

用户：[上传一张技术架构图] GLM-4v-9b：这是一张微服务架构示意图，展示了用户服务、订单服务、支付服务等组件，以及它们之间的调用关系。图中使用不同颜色区分不同层级的服务。

用户：请列出图中所有的数据库组件 GLM-4v-9b：图中显示了三个数据库：MySQL用户数据库、Redis缓存数据库、MongoDB日志数据库，分别位于用户服务、缓存层和日志服务下方。

用户：Redis数据库在这架构中起什么作用？ GLM-4v-9b：Redis作为缓存数据库，主要用于存储会话信息和频繁访问的数据，减少对主数据库的查询压力，提高系统响应速度。图中显示它位于应用服务和MySQL数据库之间。

5. 实战案例：完整对话链演示

5.1 案例一：技术文档截图分析

假设你收到同事发来的一张复杂的技术文档截图，需要快速理解内容：

你：请总结这张截图的主要技术要点 GLM-4v-9b：这是关于容器编排平台Kubernetes的架构文档，主要介绍了控制平面组件包括API Server、etcd、Scheduler、Controller Manager，以及工作节点组件包括kubelet、kube-proxy、容器运行时。

你：etcd在架构中负责什么？ GLM-4v-9b：etcd作为分布式键值存储，用于保存整个集群的状态和配置数据。图中显示它位于控制平面中心位置，为API Server提供数据存储服务。

你：文档中提到了哪些最佳实践？ GLM-4v-9b：图中列出了5个最佳实践：1) 使用命名空间隔离资源 2) 设置资源限制 3) 使用健康检查 4) 配置滚动更新策略 5) 使用ConfigMap管理配置