Relation-R1 简读：让多模态大模型真正理解“关系”

在 SWiG 数据集上，Relation-R1 面向 grounded situation recognition，也就是更复杂的 N 元关系理解任务，在 Verb、Value、Grounded Value 等指标上都取得了较好的表现，尤其在 Grnd-all 指标上相比之前方法提升明显。对于 N 元关系，则先判断主要动作，再识别参与实体及其语义角色，最后定位这些实体。它的启发在于，多模态大模型要

pottttt7

330人浏览 · 2026-05-26 21:26:46

pottttt7 · 2026-05-26 21:26:46 发布

Relation-R1 简读：让多模态大模型真正理解“关系”

在这里插入图片描述

最近，多模态大模型在图像描述、目标定位、区域理解等任务上已经取得了很大进展。很多模型已经能回答“图里有什么”“某个物体在哪里”。但这篇论文 Relation-R1: Progressively Cognitive Chain-of-Thought Guided Reinforcement Learning for Unified Relation Comprehension 关注的是一个更细的问题：模型是否真的理解了图像中物体之间的关系？

问题：模型会“看见物体”，但不一定懂“关系”

现有 MLLM 往往能识别图像中的人、杯子、牛奶等物体，但在判断它们之间的关系时容易出错。

例如，一张图里有小孩、杯子和牛奶。普通模型可能直接输出：

child — drinking — glass

但更精确的理解应该是：

child 是动作主体，glass 是容器，milk 是被喝的液体。

也就是说，关系理解不只是简单判断两个物体之间有没有关系，而是要进一步理解多个实体在一个事件中的不同语义角色。论文将这种任务分成两类：一类是二元关系理解，比如 “bed on rug”；另一类是 N 元关系理解，比如在 “drinking” 这个事件里，同时识别 agent、container、liquid 等角色。

方法：SFT 打基础，RL 做强化

Relation-R1 的核心是一个两阶段训练框架。

第一阶段是 CoT-guided SFT。作者不是直接让模型输出最终答案，而是要求模型先输出推理过程，再输出结果。这个推理过程被设计成类似人类视觉认知的步骤：先识别物体，再定位物体，最后判断关系。对于 N 元关系，则先判断主要动作，再识别参与实体及其语义角色，最后定位这些实体。

这样做的好处是，模型不是机械记忆答案格式，而是被引导去学习一种结构化的关系推理流程。

第二阶段是 GRPO 强化学习。SFT 虽然能让模型学会格式，但容易过拟合固定模板。因此作者进一步使用强化学习，通过规则奖励来优化模型输出。奖励主要包括三类：格式奖励、二元关系奖励、N 元关系奖励。二元关系奖励关注 subject-predicate-object 是否正确以及 bbox 是否定位准确；N 元关系奖励则关注动作、实体类别、语义角色和空间位置是否正确。

简单理解，SFT 负责教模型“怎么答”，RL 负责进一步强化“怎样答才更对”。

关键设计：Progressive CoT

论文中一个比较重要的设计是 progressive CoT，也就是渐进式思维链。

作者比较了三种 CoT 方案：

第一种是模板式 CoT，推理步骤固定，优点是稳定、容易学；
第二种是由更强 MLLM 生成的 CoT，表达更灵活，但可能不够稳定；
第三种是 progressive CoT，先用模板 CoT 教模型建立规范推理流程，再用少量 MLLM-generated CoT 提升泛化能力。

实验表明，第三种效果最好。这个设计的直觉也很清晰：先让模型学会标准化推理，再让它接触更丰富、更灵活的推理路径。这对复杂的 N 元关系尤其有帮助，因为同一个事件关系可能存在多种合理表达方式。

实验：小模型也能超过更大的关系理解模型

论文在两个常用数据集上进行了验证。

在 PSG 数据集上，Relation-R1 用 3B 参数模型，在开放式 scene graph caption 设置下取得了 Recall 22.33、mRecall 20.07、Mean 21.20 的结果，超过了一些 13B 规模的相关方法。

在 SWiG 数据集上，Relation-R1 面向 grounded situation recognition，也就是更复杂的 N 元关系理解任务，在 Verb、Value、Grounded Value 等指标上都取得了较好的表现，尤其在 Grnd-all 指标上相比之前方法提升明显。论文认为，这说明 Relation-R1 不仅能识别关系，还能更好地把关系中的实体角色和图像区域对应起来。

这篇论文的价值

这篇论文的重点不在于提出一个特别复杂的新模型结构，而在于提出了一套比较清晰的训练范式：

用 CoT-SFT 建立结构化推理能力，再用可验证奖励的 RL 提升关系理解和泛化能力。

它的启发在于，多模态大模型要想进一步提升，不只是要“看见更多物体”，还要能理解物体之间的空间关系、功能关系和事件角色。对于遥感、自动驾驶、机器人等复杂场景，这种关系理解能力尤其重要。

总结

Relation-R1 可以看作是一次从“目标级视觉理解”走向“关系级视觉理解”的尝试。它通过渐进式 CoT 和强化学习，让多模态大模型不仅能识别图像中的实体，还能更系统地理解实体之间的结构化关系。

一句话概括：Relation-R1 让 MLLM 不只是看见图像，而是开始学会理解图像中的关系。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

Agent 工程中的模型缓存优化经验分享

AI Agent技术社区

CC-Switch不只是切换API：从GitHub更新日志看懂它的功能和底层原理

CC Switch：从配置切换器到AI编程统一管理平台摘要： CC Switch已从最初的Claude Code/Codex供应商切换工具，发展为功能全面的AI编程管理平台。它通过统一界面管理多个AI编程工具（Claude Code、Codex、Gemini CLI等）的配置，支持供应商切换、本地代理路由、跨工具能力同步等功能。核心演进包括：采用SSOT架构集中管理供应商数据、扩展支持6+工具、

AI Agent技术社区

Harness Engineering在传统软件工程的应用

能力定义关键问题可读性 (Readability)AI Agent 能理解项目的规则、边界和约束Agent 在编码前是否知道"这里不能改"、“这个模块只能做什么”？防御性 (Defense)项目的规则可以被强制执行，违规会被阻断Agent 违反边界时，系统是否能自动阻止而非事后发现？反馈性 (Feedback)项目的健康状态可以被自动化度量Agent 完成任务后，系统能否自动判定"完成度"和"健康