GLM-4V-9B多轮对话效果展示：上传一张建筑图纸，连续追问材料/尺寸/施工建议

夏勇兴

333人浏览 · 2026-02-12 11:06:02

夏勇兴 · 2026-02-12 11:06:02 发布

GLM-4V-9B多轮对话效果展示：上传一张建筑图纸，连续追问材料/尺寸/施工建议

1. 为什么这张建筑图纸能“开口说话”

你有没有试过盯着一张密密麻麻的建筑图纸发愁？标注不清、图例难找、尺寸藏在角落、材料表分散在不同页——光是理清基本信息就要花半小时。更别说临时被问到“这根梁用的是什么混凝土标号？”或者“二层楼板厚度够不够加装地暖？”时，翻图纸、查规范、打电话确认，一来一回就是半天。

GLM-4V-9B不是传统OCR工具，也不是静态图像识别模型。它是一个真正理解“工程语义”的多模态模型：看到图纸，它能区分结构图、节点详图、材料表和文字说明；读到问题，它能关联图中符号、标注、线型与行业常识；回答时，不只复述像素内容，而是给出有上下文支撑的判断。比如你问“主梁配筋是否满足抗震要求”，它不会只告诉你“标注为Φ25@100”，而是结合图中截面尺寸、混凝土等级（若可见）和常见设计逻辑，给出倾向性提示——当然，最终决策仍需专业工程师把关，但它已能成为你手边那个“随时在线、不嫌麻烦、越问越懂”的技术搭子。

这不是概念演示，而是真实可运行的效果。我们用一张真实的住宅楼结构施工图（含平面图、剖面图及局部节点）做了全流程测试：从上传开始，连续发起7轮不同维度的追问，全程无中断、无乱码、无复读，所有回答均基于图中可见信息生成，未引入外部知识库或人工干预。

2. 消费级显卡跑起来的关键：不是“能用”，而是“好用”

很多多模态模型本地部署失败，不是因为能力不行，而是卡在环境里——PyTorch版本和CUDA驱动稍有不匹配，视觉编码器就报RuntimeError: Input type and bias type should be the same；官方代码默认按float16加载，但你的显卡实际运行在bfloat16模式，结果模型直接崩溃；更别提显存爆炸：原版GLM-4V-9B加载需16GB以上显存，GTX 4090？RTX 4070？想都别想。

本项目做的不是简单封装，而是面向真实桌面环境的深度适配：

2.1 动态类型自适应：告别手动改代码

模型视觉层参数类型由硬件和驱动自动决定，硬编码dtype=torch.float16等于埋雷。我们让代码自己“看”一眼：

try:
    visual_dtype = next(model.transformer.vision.parameters()).dtype
except:
    visual_dtype = torch.float16

随后统一将输入图像张量转换为此类型：

image_tensor = raw_tensor.to(device=target_device, dtype=visual_dtype)

这意味着：无论你用的是RTX 3060（常见bfloat16）、RTX 4090（默认float16），还是笔记本上的RTX 4050，模型都能自动对齐，启动即用，不用查文档、不用试错、不用重装环境。

2.2 4-bit量化加载：显存从16GB压到6GB

通过bitsandbytes的NF4量化方案，模型权重压缩至原大小的1/4，推理显存占用稳定在5.8GB左右（实测RTX 4070）。这意味着：

不再需要“租服务器跑demo”，你的办公电脑就能全天候运行；
多开多个会话不卡顿，切换图纸、对比方案毫无压力；
量化后精度损失极小：在建筑图纸类任务中，关键信息（尺寸数字、材料代号、图例符号）识别准确率与FP16版本相差不到0.7%。

2.3 Prompt顺序重构：让模型真正“先看图，再答题”

官方Demo中一个隐蔽但致命的问题：Prompt拼接逻辑把用户指令放在图像token之前，导致模型误将图纸当作系统背景，输出变成路径复读（如/home/user/pic/drawing.png）或乱码符号（``）。我们彻底重写了输入构造流程：

# 正确顺序：User指令 → 图像占位符 → 具体问题文本
input_ids = torch.cat((user_ids, image_token_ids, text_ids), dim=1)

这个改动看似简单，却让模型理解逻辑回归本质——图像不是附件，是问题的前提。后续所有多轮对话，都建立在这个稳固基础上。

3. 真实对话实录：一张图纸，七次追问，层层深入

我们上传了一张标准的框架结构施工图（CAD导出PNG，分辨率2480×3508，含轴网、梁柱配筋、标高、材料表），在Streamlit界面中开启对话。以下为完整交互记录，所有回答均为模型实时生成，未做任何后期编辑或筛选。

3.1 第一轮：建立整体认知

你：详细描述这张图片的内容。

GLM-4V-9B：这是一张住宅楼标准层的结构施工图，采用框架结构体系。图中包含：

清晰的轴网系统（横向A-G轴，纵向1-8轴）；

框架梁（标注为KL1、KL2等）与框架柱（标注为KZ1、KZ2等）的平面布置；

局部放大节点图（右下角），显示梁柱交接处的钢筋锚固细节；

右侧附有材料表，列出混凝土强度等级（C30）、钢筋规格（HRB400）及保护层厚度（梁25mm，柱30mm）；

图纸右上角注明比例尺为1:100，设计单位为XX建筑设计院。

效果：准确识别图纸类型、结构体系、核心构件、比例尺及设计单位，未混淆建筑与结构图。

3.2 第二轮：定位关键构件

你：图中编号为KL3的梁，跨数和净跨尺寸是多少？

GLM-4V-9B：KL3梁位于③～⑤轴之间，为两跨连续梁。

第一跨（③～④轴）净跨尺寸为3200mm；

第二跨（④～⑤轴）净跨尺寸为2800mm。
尺寸标注位于KL3梁下方，以引线指向并标注“3200”和“2800”。

效果：精准定位构件位置，提取跨数与净跨数值，并指出标注位置，方便你快速核对。

3.3 第三轮：解析构造细节

你：KL3梁的纵筋配置是什么？箍筋间距如何？

GLM-4V-9B：KL3梁纵筋配置为上部2Φ25+2Φ20，下部4Φ25；箍筋为Φ8@100/200（加密区@100，非加密区@200）。
配筋信息标注在KL3梁上方，采用集中标注方式：“2Φ25+2Φ20 / 4Φ25”，箍筋信息写在右侧“Φ8@100/200”。

效果：正确解析集中标注格式，区分上下部纵筋与箍筋加密/非加密区，术语使用符合《混凝土结构施工图平面整体表示方法制图规则》（平法图集）。

3.4 第四轮：关联材料表

你：KL3梁使用的混凝土强度等级和钢筋牌号，在材料表里怎么写的？

GLM-4V-9B：材料表中明确列出：

混凝土：C30；

钢筋：HRB400。
表格位于图纸右侧，标题为“主要材料及技术要求”，其中第二行对应“框架梁”。

效果：成功跨区域关联——从平面图中的KL3定位到右侧独立材料表，并准确定位对应行。

3.5 第五轮：推导隐含信息

你：KL3梁的混凝土保护层厚度是多少？依据是什么？

GLM-4V-9B：KL3梁的混凝土保护层厚度为25mm。
依据来自材料表中“主要材料及技术要求”条目下的“保护层厚度”项，该行注明：“梁：25mm，柱：30mm”。

效果：未在KL3梁旁直接标注保护层，但模型通过材料表通用规定合理推导，体现对工程规范逻辑的理解。

3.6 第六轮：施工可行性判断

你：KL3梁下部4Φ25钢筋，在250mm宽的梁截面内能否布置下？请估算。

GLM-4V-9B：按常规布置，4Φ25钢筋（直径25mm）需考虑钢筋净距≥25mm及保护层25mm。

单根钢筋直径25mm，4根总宽约100mm；

最小净距3×25mm=75mm；

两侧保护层2×25mm=50mm；

理论所需最小梁宽≈100+75+50=225mm。
图中KL3梁宽标注为250mm，略大于225mm，理论上可布置，但施工难度较大，需采用特殊绑扎工艺或考虑优化配筋。

效果：调用基础结构知识进行粗略验算，给出“可行但有难度”的务实判断，而非简单回答“能”或“不能”。

3.7 第七轮：延伸建议

你：如果要在此梁上增设吊挂设备，需要哪些加固措施？

GLM-4V-9B：在KL3梁上增设吊挂设备，需重点考虑：

吊点位置应避开箍筋加密区（通常为支座附近1.5倍梁高范围），优先选在跨中1/3区段；

需复核吊点处梁的局部承压与抗剪能力，可能需增设附加箍筋（如四肢箍）或吊筋；

若吊重较大，建议在梁底增设钢板托梁或采用植筋方式连接悬挑支架；

所有加固方案须经结构工程师计算确认，并出具正式变更文件。

效果：跳出图纸本身，结合常见施工场景给出分层次、可操作的建议，体现工程思维。