ICCV 2025 程明明团队提出DenseVLM：基于多模态大模型的开放词汇密集预测

通过利用 P-VLM 检索到的区域-类别关系 (k, c)，我们为 U-VLM 建立了一对一映射，以将区域特征与其对应的类别向量关联起来。为了区分前景和背景的语义区域，我们根据预定义的两个类别集，将这些区域-类别关系解耦为两个不同的组：前景对象 Thing (U) 和背景区域 Stuff (V)。相比之下，我们的方法 DenseVLM 明显优于这些模型，在 COCO 上 Top-1 Mask-T

Amusi（CVer）

313人浏览 · 2025-09-04 13:41:42

Amusi（CVer） · 2025-09-04 13:41:42 发布

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号：CVer2233，小助手拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用！发论文/搞科研/涨薪，强烈推荐！

来源：多模态论文每日速递

论文：https://arxiv.org/pdf/2412.06244

代码：github.com/HVisionNKU/DenseVLM

—

阅读笔记

本篇文章在基于多模态大模型的开放物体识别上又推进了一步，着重解决实际领域中存在的“前景偏差”问题。

—

Introduction

预训练的视觉语言模型 (VLM)，例如 CLIP，已经展现出令人印象深刻的零样本识别能力，但在密集预测任务中仍然表现不佳。自蒸馏 (Selfdistillation) 近年来逐渐成为一种颇具前景的方法，可以对 VLM 进行微调，使其更好地适应局部区域，而无需大量标注。然而，之前最先进的方法往往存在严重的“前景偏差”，模型往往会错误地将背景区域识别为前景对象。为了缓解这个问题，我们提出了 DenseVLM，这是一个旨在从强大的预训练 VLM 表征中学习无偏区域语言对齐的框架。DenseVLM 利用预训练的 VLM 检索未标记区域的类别，然后解耦前景和背景特征之间的干扰。这种分离确保了准确的区域类别对齐，同时在训练过程中保持语义上的区分。我们证明了 DenseVLM 可以直接在开放词汇目标检测和图像分割方法中替代原始 VLM，从而显著提升性能。此外，在更广泛、更多样化的数据集上训练时，它展现出良好的零样本可扩展性。我们的代码可在 https://github.com/HVisionNKU/DenseVLM 获取。

—

Motivation

图1：前景偏差说明。以前的方法 [45, 48, 60] 通常会对背景区域产生相似的前景预测，而我们的方法有效地缓解了这个问题。

本文的动机源于流行的 VLM，如 CLIP [42] 和 EVA-CLIP [45]，已经表现出了卓越的零样本识别能力用于全局图像理解。然而，这些模型在理解局部视觉语义方面暴露出明显的局限性，尤其是在定位和识别小物体和背景物体方面 [60, 63]。这种限制源于 VLM 的训练方式，它将图像与全局文本对齐，而忽略了局部图像区域与其特定文本描述之间的对应关系。为了缓解这个问题，一些研究使用区域-文本或伪区域-文本对 [27, 32, 59, 60]，但这些方法受限于高标注成本，并且缺乏针对开放世界场景的可扩展性。相比之下，自监督方法，例如 CLIPSelf [48] 和 MaskEmbed [5]，分别使用裁剪的图像表示或重建带掩码的块嵌入来对齐区域语义。这些自提炼方法不依赖于带标注的数据，可在各种数据集上提供灵活性和可扩展性。

尽管取得了一些进展，但之前基于图像-文本和区域-文本对进行预训练的可变长度语言模型 (VLM) [42, 45, 60] 往往过分强调前景目标，而忽略了背景上下文。这种不成比例的关注导致模型明显偏向于前景目标识别，并导致模型错误地将背景区域与前景标签关联起来。因此，在密集预测任务中，这些 VLM 经常将背景区域错误地分类到同时出现的前景类别中——我们将这种现象称为“前景偏差”。为了说明这个问题，我们举了一个例子，比较了流行的VLM [45, 48, 60]，使用地面实况掩模从区域中提取特征。如图 1 所示，这些模型容易混淆“天空”（背景类别）和“建筑物”（前景物体）。

—

Contribution

图2：不同 VLM 的比较。与使用 (a) 图像-文本对比学习 [42]、(b) 区域-文本对比学习 [60] 或 (c) 自我提炼 [48] 的现有方法不同，我们的方法利用强大的模型表示进行区域-语言对齐。

我们识别了现有 VLM 中的前景偏差问题，并提出了通过类别引导引入显式语义结构来实现区域-文本对齐。

我们提出了 DenseVLM，这是一个区域-语言对齐框架，它利用强大的 VLM 检索未标记区域的类别，并解耦前景和背景特征以减少前景偏差。

在密集预测基准上进行的大量实验表明，我们的 DenseVLM 优于以往方法，并展现出良好的可扩展性。

—

Method

图3：DenseVLM 概览。DenseVLM 利用强大的 VLM 检索未标记区域的类别，并区分前景和背景。在 VLM 训练过程中，DenseVLM 会解耦前景区域和背景区域特征之间的干扰，并将每个区域与其对应的文本嵌入对齐。

我们的目标是开发一个区域-语言对齐模型，能够有效地对齐局部视觉和语义特征，从而提升 VLM 在开放词汇密集预测任务中的表现。为此，关键在于缓解先前 VLM [42, 45] 中普遍存在的前景偏差问题，该问题源于图文对的训练。此外，我们的方法力求在自我蒸馏的约束下获得更佳性能 [48]。

我们提出了 DenseVLM，一个端到端的区域语言对齐框架，旨在减轻前景偏差。DenseVLM 通过将未标记区域与其对应的类别精确对齐来实现这一点。如图 3 所示，该框架由两个关键组件组成。首先，它使用具有冻结权重的 P-VLM（强大的 VLM）检索区域特征的类别语义。其次，它将这些区域语言对齐解耦为前景和背景，以训练无前景偏差的 U-VLM（无偏 VLM）。具体而言，DenseVLM 的运行无需任何注释，只需依赖来自大规模数据集 [1, 62] 的多样化类别语义或使用 NXTP [56] 从图像中生成类别集即可。

图像块到语义区域。为了实现区域对齐，需要将 3.1 节中的块级视觉特征转换为语义区域特征。我们采用类似于 [48] 的策略，将稠密特征图划分为 m × n 的块网格。与此方法不同，我们避免直接裁剪输入图像，从而提高了计算效率和表示效果。在每次训练迭代中，m 和 n 从集合 {2, · · · , M } 中随机选择，其中 M 默认为 6，以允许不同的块网格大小。然后通过池化 (RoIAlign) [16] 从稠密特征图 F 中提取语义区域表示 {F, · · · , F}。这种块采样策略可以有效地捕捉前景物体和背景场景的区域特征。然而，由于 VLM 中的前景偏差 [42, 45, 48]，我们观察到背景区域通常被错误地分类为前景类，尽管它们只包含一小部分与前景相关的块。

强大的 VLM 用于检索区域。基于 3.1 节中描述的 VLM 提取的稠密表示及其将图像块映射到语义区域的能力，强大的 VLM 能够提取区域特征 F和文本嵌入 T。接下来，检索未标记区域并通过计算区域特征 F 和文本嵌入 T 之间的余弦相似度与最相关的类别进行匹配。对于特定区域 k，其特征 F= F[k, :] 之间的余弦相似度和所有类别的文本嵌入计算如下：

其中·表示点积，∥·∥表示欧氏范数。该区域与类别关联的概率确定如下：

使用随机网格提取区域特征通常会在完全覆盖单个对象方面引入不确定性，尤其是在包含多个对象的场景中。这种不确定性会显著影响区域类别对齐的精度。为了缓解这个问题，我们利用区域去噪方案，丢弃匹配概率低于阈值 θ（默认设置为 0.3）的区域。因此，此检索和去噪过程可以更精确、更可靠地将区域与其对应类别对齐。每个区域 k 的最佳类别（记为 c）由以下公式确定：c=argmax(p)，其中每个区域-类别关系表示为 (k, c)。此对齐对于后续的解耦对齐过程至关重要。

解耦区域对齐，以训练无前景偏差的 VLM。在建立区域-类别关系的基础上，我们对区域和文本表示进行对齐，以训练 U-VLM。一种简单的方法是直接对齐区域特征及其对应类别的文本嵌入，同时最大化不相关类别的分离。然而，由于 U-VLM 直接继承自 P-VLM，我们在第 4.3 节中的实验结果表明，这种方法会加剧前景偏差，从而提升前景检测效果，但背景识别效果有限。为了缓解这个问题，我们提出了一种解耦对齐策略，将前景区域和背景区域的对齐过程分离。具体来说，我们将训练 U-VLM 的区域特征表示为 F，使用与 P-VLM 相同的划分网格。文本向量表示为 T。通过利用 P-VLM 检索到的区域-类别关系 (k, c)，我们为 U-VLM 建立了一对一映射，以将区域特征与其对应的类别向量关联起来。为了区分前景和背景的语义区域，我们根据预定义的两个类别集，将这些区域-类别关系解耦为两个不同的组：前景对象 Thing (U) 和背景区域 Stuff (V)。通过选择性地对比与不相关类别相关的文本向量，我们引导模型更多地关注相关的背景区域，从而降低不相关前景类别的影响。这种选择性对比有助于模型捕捉背景区域的显著特征，从而更准确地区分前景和背景。通过最大化区域特征和文本嵌入的余弦相似度，可以有效地实现对齐过程。根据公式（2），当 c∈V 时，特定区域的概率 q 计算如下：

类似地，当 c∈U 时，概率 ˜qis 计算如下：

端到端优化。如公式 (3) 和公式 (4) 所示，我们也计算 P-VLM 的 p 和 ˜p。所提出的方法 DenseVLM 通过以下方式支持端到端训练KL 散度优化如下。

—

Experiment

表1：不同模型在稠密表示上的比较。我们报告了对边界框和全景蒙版（物体和物品）进行分类的 Top1 和 Top5 平均准确率。表示在 COCO 数据集上训练并在 ADE20K 数据集上以零样本设置进行评估的模型。

定量评估。我们在 COCO Panoptic [31] 和 ADE20K Panoptic [61] 数据集上，对多个可变长度语言模型 (VLM) 的稠密表示进行了全面的定量评估。如表 1 所示，虽然先前的方法 [3, 10, 45, 58] 在零样本图像分类中取得了良好的性能，但它们在区域识别方面的表现却明显欠佳。例如，EVACLIP [45] 在 COCO 数据集上的 Top-1 框分类准确率仅为 44.3%，在 ADE20K 数据集上仅为 33.0%。虽然在区域-文本对上训练的 RegionCLIP [60] 在 COCO 数据集上表现出色，但无法推广到 ADE20K 等数据集。此外，结合自蒸馏技术的 FineCLIP [20] 和 CLIPSelf [48] 取得了更高的 Mask-T 分类准确率，但在 Mask-S 分类中表现不佳。相比之下，我们的方法 DenseVLM 明显优于这些模型，在 COCO 上 Top-1 Mask-T 准确率提高了 4.3%，Top-1 Mask-S 准确率提高了 3.9%，凸显了其在密集预测任务中的有效性。

图4： COCO 数据集中不同类别的掩膜准确率比较。我们的方法取得了显著的改进，尤其是在解决前景偏差方面。前景类别以黑色显示，背景类别以红色突出显示。

图 4 显示了不同类别的 DenseVLM 结果进一步证明了其在区域-文本对齐方面的有效性。值得注意的是，我们的方法显著提高了“天空”和“墙壁”等背景类别的准确率，从而减轻了前景偏差。定性结果。我们使用余弦相似度对文本描述的对象类别进行注意力图可视化。如图 5 所示，DenseVLM 比 EVA-CLIP 和 CLIPSelf 实现了更准确、更完整的对象定位。此外，它更好地保留了语义分离，减少了来自其他对象的干扰。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！


ICCV 2025 论文和代码下载
在CVer公众号后台回复：ICCV2025，即可下载ICCV 2025论文和代码开源的论文合

CVPR 2025 论文和代码下载

在CVer公众号后台回复：CVPR2025，即可下载CVPR 2025论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群
CVer计算机视觉（知识星球）人数破万！如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料，一定要扫描下方二维码，加入CVer知识星球！最强助力你的科研和工作！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

试了6款AI编程工具，我只留这2个

AI Agent技术社区

为什么AI功能越发达，电商客服的差评反而越多？

但一个矛盾的现象正在越来越多的客服管理者之间蔓延：技术预算花了，机器人上线了，可客服团队的疲惫感没有减轻，大促期间的排队时长没有显著缩短，而用户投诉中关于“机器人答非所问”“转人工后要重复说三遍”的声音反而增加了。一线客服不再盯着几十个聊天窗口同时回复，而是监控AI Agent的运行状态，处理那些AI无法独立完成的边缘案例——情绪激动的投诉、涉及多方协调的纠纷、超出知识库范围的新品问题。人员流失率