GLM-4v-9b效果实测：Qwen-VL-Max未识别的复杂流程图，GLM-4v-9b精准解析

永不放弃yes

294人浏览 · 2026-02-12 11:00:18

永不放弃yes · 2026-02-12 11:00:18 发布

GLM-4v-9b效果实测：Qwen-VL-Max未识别的复杂流程图，GLM-4v-9b精准解析

最近在测试各种多模态大模型时，我遇到了一个挺有意思的挑战：一张结构复杂的流程图。这张图包含了多个决策节点、循环逻辑和详细的文字说明，对模型的视觉理解和逻辑推理能力是个不小的考验。

我先用了一些市面上主流的模型来识别，包括Qwen-VL-Max，但结果都不太理想。它们要么只能识别出图中的部分文字，要么对流程的逻辑关系描述得含糊不清。直到我试了GLM-4v-9b，结果让我眼前一亮——它不仅准确提取了所有文字信息，还把整个流程的逻辑关系梳理得清清楚楚。

这篇文章，我就带你一起看看GLM-4v-9b在这次实测中的具体表现，看看这个“小个子”模型是如何在复杂视觉理解任务上超越那些“大块头”的。

1. 实测背景：一张让多模型“犯难”的流程图

为了公平地测试模型的真实能力，我特意挑选了一张信息密度高、逻辑结构复杂的流程图作为测试素材。

这张图描绘的是一个软件系统的故障诊断与恢复流程。图中包含了：

多种图形元素：矩形（代表步骤）、菱形（代表判断）、箭头（代表流向）。
密集的中文文本：每个图形元素内部都有详细的描述，字体大小不一。
嵌套的逻辑结构：包含了“如果-那么-否则”的判断分支，以及一个明显的循环过程（“返回上一步”）。
跨页引用：图中有一个节点标注了“详见附录A”，暗示了图表之外还有关联信息。

我首先将这张图喂给了几个公认强大的多模态模型，包括GPT-4 Turbo、Claude 3 Opus和Qwen-VL-Max。我提出的问题是：“请详细描述这张流程图的内容和逻辑。”

结果有些令人失望。Qwen-VL-Max的表现最具代表性：它成功地识别出了图中大约70%的文字内容，并以列表形式罗列了出来。但是，对于这些文字项之间的逻辑关系——哪个是第一步？判断条件是什么？循环的出口在哪里？——它的描述非常模糊，只是说“这是一个包含多个步骤和判断的流程”，无法重构出可执行的逻辑链。其他模型也大同小异，都卡在了“识字”但“不懂图”的层面。

这让我把希望寄托在了GLM-4v-9b上。这个模型最近在多个视觉问答基准测试中成绩亮眼，特别是它在高分辨率输入和中文场景下的优化，让我觉得它或许能带来惊喜。

2. GLM-4v-9b的惊艳表现：从识别到理解

我将同一张流程图上传给GLM-4v-9b，并提出了完全相同的问题。它的回复不再是简单的文字罗列，而是一段结构清晰、逻辑严谨的描述。

为了让你更直观地感受区别，我把它的回答核心部分整理了出来：

GLM-4v-9b的解析摘要： “该流程图描述了一个‘系统故障诊断与恢复’的标准化流程。流程始于‘监控报警触发’。第一步是‘初步现象确认’，如果确认无误，则进入‘影响范围评估’；若为误报，则直接‘结束流程’。”

“评估后分为三种情况：局部影响、核心服务影响、全局影响。针对‘局部影响’，系统尝试‘自动隔离与重启’；若成功则‘记录日志并结束’，若失败则升级为‘核心服务影响’处理。”

“对于‘核心服务影响’，流程要求‘人工介入诊断’，并参考‘知识库预案’。如果预案有效，则执行‘预案恢复’并结束；若无效或超时，则进一步升级为‘全局影响’。”

“最高级别的‘全局影响’将触发‘紧急响应小组’，启动‘业务切换与数据恢复’程序，同时进行‘根本原因分析’。流程末尾存在一个循环：在‘修复验证’环节，如果验证不通过，则‘返回上一步’重新分析或恢复；验证通过后，流程进入‘复盘与知识库更新’阶段，最终结束。”

“此外，图中‘预案恢复’步骤有一个指向外部的注释‘详见附录A’，表明该步骤有更详细的子流程说明。”

可以看到，GLM-4v-9b不仅完整提取了所有节点的文本，更重要的是，它准确地理解并复现了节点之间的连接关系（箭头指向），厘清了判断分支的条件和结果，指出了循环结构的存在和退出条件，甚至注意到了图表之外的关联注释。

它把一个静态的二维图表，转化为了一个动态的、可执行的逻辑叙述。这已经超越了简单的“视觉问答”，进入了“视觉推理”的范畴。

3. 效果对比分析：GLM-4v-9b强在哪里？

为什么GLM-4v-9b能做得更好？结合官方资料和这次实测，我认为关键在以下几个地方。

3.1 原生高分辨率支持：细节决定成败

这张流程图里的文字，尤其是菱形判断框里的小字，在低分辨率下很容易糊成一团。GLM-4v-9b原生支持1120×1120的高分辨率输入，这意味着它接收到的图像信息更丰富，像素细节保留得更好。就像我们用高清显示器看图纸一样，每个字都清晰可辨，这是准确进行OCR（光学字符识别）的第一步基础。Qwen-VL-Max等模型在输入时可能对图像进行了压缩或降采样，导致部分细节丢失，自然就“读不全”了。

3.2 端到端的图文对齐训练：真正的“看懂”

很多多模态模型的工作方式是“两步走”：先用一个视觉模型把图片转换成一段文字描述，再把这段描述交给语言模型去回答问题。这种方式容易丢失信息，特别是空间和逻辑关系信息。

GLM-4v-9b采用了端到端的训练方式，视觉编码器和语言模型（GLM-4-9B）通过交叉注意力机制深度融合。在训练过程中，模型学习的是如何将图像中的视觉特征（如形状、位置、相对关系）与文本概念直接关联起来。因此，它不仅能读出“矩形框里写着‘A’”，还能理解“这个矩形框通过一个箭头指向了那个菱形框”，从而推理出“A步骤完成后，需要进行B判断”。这才是“理解”一张图的关键。

3.3 中文场景的深度优化：OCR优势明显

我的测试图是全中文的。GLM-4v-9b由智谱AI开发，在中文文本识别（OCR）和中文语境理解上做了大量针对性的优化。相比之下，一些国际主流模型虽然支持中文，但其训练数据中英文占主导，中文OCR能力可能不是最强项。在这张细节丰富的图中，GLM-4v-9b的中文识别准确率显然更高，为后续的逻辑理解打下了坚实的基础。