Relation-R1 简读:让多模态大模型真正理解“关系”
在 SWiG 数据集上,Relation-R1 面向 grounded situation recognition,也就是更复杂的 N 元关系理解任务,在 Verb、Value、Grounded Value 等指标上都取得了较好的表现,尤其在 Grnd-all 指标上相比之前方法提升明显。对于 N 元关系,则先判断主要动作,再识别参与实体及其语义角色,最后定位这些实体。它的启发在于,多模态大模型要
Relation-R1 简读:让多模态大模型真正理解“关系”

最近,多模态大模型在图像描述、目标定位、区域理解等任务上已经取得了很大进展。很多模型已经能回答“图里有什么”“某个物体在哪里”。但这篇论文 Relation-R1: Progressively Cognitive Chain-of-Thought Guided Reinforcement Learning for Unified Relation Comprehension 关注的是一个更细的问题:模型是否真的理解了图像中物体之间的关系?
- 问题:模型会“看见物体”,但不一定懂“关系”
现有 MLLM 往往能识别图像中的人、杯子、牛奶等物体,但在判断它们之间的关系时容易出错。
例如,一张图里有小孩、杯子和牛奶。普通模型可能直接输出:
child — drinking — glass
但更精确的理解应该是:
child 是动作主体,glass 是容器,milk 是被喝的液体。
也就是说,关系理解不只是简单判断两个物体之间有没有关系,而是要进一步理解多个实体在一个事件中的不同语义角色。论文将这种任务分成两类:一类是 二元关系理解,比如 “bed on rug”;另一类是 N 元关系理解,比如在 “drinking” 这个事件里,同时识别 agent、container、liquid 等角色。
- 方法:SFT 打基础,RL 做强化
Relation-R1 的核心是一个两阶段训练框架。
第一阶段是 CoT-guided SFT。作者不是直接让模型输出最终答案,而是要求模型先输出 推理过程,再输出 结果。这个推理过程被设计成类似人类视觉认知的步骤:先识别物体,再定位物体,最后判断关系。对于 N 元关系,则先判断主要动作,再识别参与实体及其语义角色,最后定位这些实体。
这样做的好处是,模型不是机械记忆答案格式,而是被引导去学习一种结构化的关系推理流程。
第二阶段是 GRPO 强化学习。SFT 虽然能让模型学会格式,但容易过拟合固定模板。因此作者进一步使用强化学习,通过规则奖励来优化模型输出。奖励主要包括三类:格式奖励、二元关系奖励、N 元关系奖励。二元关系奖励关注 subject-predicate-object 是否正确以及 bbox 是否定位准确;N 元关系奖励则关注动作、实体类别、语义角色和空间位置是否正确。
简单理解,SFT 负责教模型“怎么答”,RL 负责进一步强化“怎样答才更对”。
- 关键设计:Progressive CoT
论文中一个比较重要的设计是 progressive CoT,也就是渐进式思维链。
作者比较了三种 CoT 方案:
第一种是模板式 CoT,推理步骤固定,优点是稳定、容易学;
第二种是由更强 MLLM 生成的 CoT,表达更灵活,但可能不够稳定;
第三种是 progressive CoT,先用模板 CoT 教模型建立规范推理流程,再用少量 MLLM-generated CoT 提升泛化能力。
实验表明,第三种效果最好。这个设计的直觉也很清晰:先让模型学会标准化推理,再让它接触更丰富、更灵活的推理路径。这对复杂的 N 元关系尤其有帮助,因为同一个事件关系可能存在多种合理表达方式。
- 实验:小模型也能超过更大的关系理解模型
论文在两个常用数据集上进行了验证。
在 PSG 数据集上,Relation-R1 用 3B 参数模型,在开放式 scene graph caption 设置下取得了 Recall 22.33、mRecall 20.07、Mean 21.20 的结果,超过了一些 13B 规模的相关方法。
在 SWiG 数据集上,Relation-R1 面向 grounded situation recognition,也就是更复杂的 N 元关系理解任务,在 Verb、Value、Grounded Value 等指标上都取得了较好的表现,尤其在 Grnd-all 指标上相比之前方法提升明显。论文认为,这说明 Relation-R1 不仅能识别关系,还能更好地把关系中的实体角色和图像区域对应起来。
- 这篇论文的价值
这篇论文的重点不在于提出一个特别复杂的新模型结构,而在于提出了一套比较清晰的训练范式:
用 CoT-SFT 建立结构化推理能力,再用可验证奖励的 RL 提升关系理解和泛化能力。
它的启发在于,多模态大模型要想进一步提升,不只是要“看见更多物体”,还要能理解物体之间的空间关系、功能关系和事件角色。对于遥感、自动驾驶、机器人等复杂场景,这种关系理解能力尤其重要。
总结
Relation-R1 可以看作是一次从“目标级视觉理解”走向“关系级视觉理解”的尝试。它通过渐进式 CoT 和强化学习,让多模态大模型不仅能识别图像中的实体,还能更系统地理解实体之间的结构化关系。
一句话概括:Relation-R1 让 MLLM 不只是看见图像,而是开始学会理解图像中的关系。
更多推荐

所有评论(0)