多模态大模型研究每日简报【2025-07-29】

Caaacy_YU

1231人浏览 · 2025-07-30 13:32:58

Caaacy_YU · 2025-07-30 13:32:58 发布

训练数据相关

ReXGroundingCT: A 3D Chest CT Dataset for Segmentation of Findings from Free-Text Reports (https://arxiv.org/abs/2507.22030): 发布了ReXGroundingCT，这是一个新的公开数据集，用于将放射学报告中的文本描述与3D胸部CT扫描中的像素级分割相关联。该数据集包含3142个CT扫描和相应的报告，报告中的肺部和胸膜病灶由专家手动分割，为开发和评估医学图像分析模型提供了一个新的基准。
VeS: Teaching Pixels to Listen Without Supervision (https://arxiv.org/abs/2507.22008): 该研究表明，密集音频-视觉模型即使在低资源、混合语种和噪声环境中也能有效工作。通过在Project Vaani的多语言子集上进行实验，研究发现密集token匹配目标比全局平均池化方法有显著的性能提升，并能产生清晰的零样本定位热图。
MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning (https://arxiv.org/abs/2507.21924): 为了提升多模态大语言模型（MLLM）的推理能力，研究者们构建了首个百万级别多模态Agent Tuning数据集MMAT-1M。该数据集包含CoT、反思和动态工具使用，通过GPT-4o生成，并在多个基准测试中验证了其有效性，例如在Dyn-VQA的RAG基准测试中，InternVL2.5-8B-RR模型取得了8.8%的性能提升。
Distribution-Based Masked Medical Vision-Language Model Using Structured Reports (https://arxiv.org/abs/2507.21794): 提出了一种基于不确定性的医学图像-文本预训练模型，通过利用大型语言模型生成的结构化文本报告来增强图像数据，并对模态间和模态内的不确定性进行建模，从而提高模型在下游任务中的泛化能力。
SafeDriveRAG: Towards Safe Autonomous Driving with Knowledge Graph-based Retrieval-Augmented Generation (https://arxiv.org/abs/2507.21585): 为了提升自动驾驶系统的安全性，该研究提出了SafeDriveRAG，一种基于知识图谱检索增强生成（RAG）的视觉语言模型（VLM）。作者构建了SafeDrive228K基准测试集，包含22.8万个交通安全相关的问答对，并结合从互联网收集的交通安全指南，显著提高了模型在交通安全场景下的性能。
C2-Evo: Co-Evolving Multimodal Data and Model for Self-Improving Reasoning (https://arxiv.org/abs/2507.16518): 本文提出了一种自动的闭环自提升框架C2-Evo，可以联合演化训练数据和模型能力。C2-Evo通过交叉模态数据演化循环和数据-模型演化循环来增强基线数据集和模型，能够持续改进模型和训练数据，并在多个数学推理基准测试中获得了可观的性能提升。

训练策略

MetaCLIP 2: A Worldwide Scaling Recipe (https://arxiv.org/abs/2507.22062): 该研究提出了一种名为MetaCLIP 2的新方法，用于在世界范围内扩展CLIP模型的训练。通过精心设计的流程，MetaCLIP 2 能够从网络规模的图文对数据中学习，同时避免了多语言训练中常见的“多语言诅咒”问题，在ImageNet零样本分类和多语言基准测试上取得了新的state-of-the-art结果。
Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security (https://arxiv.org/abs/2507.22037): 该研究提出了一种迭代防御-攻击训练方法SecTOW，用于增强多模态大语言模型的安全性。SecTOW使用强化学习训练防御者和辅助攻击者，通过迭代过程识别安全漏洞并扩展对抗样本数据，从而提升防御模型的鲁棒性，同时保持通用性能。
UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding (https://arxiv.org/abs/2507.22025): 为了提升图形用户界面（GUI）代理的能力，研究人员提出了UI-AGILE框架，该框架通过改进的监督微调（SFT）过程和一种名为“分解式选择接地”的推理方法，显著提高了接地精度，并在ScreenSpot-Pro等基准测试中取得了state-of-the-art的性能。
The Effect of Compression Techniques on Large Multimodal Language Models in the Medical Domain (https://arxiv.org/abs/2507.21976): 本文评估了结构化剪枝和激活感知量化对医学领域微调的LLAVA模型的影响。提出了一种新的层选择剪枝方法，并分析了不同的量化技术，结果表明，所提出的方法能够在降低内存使用的同时，提高模型性能。
MSGCoOp: Multiple Semantic-Guided Context Optimization for Few-Shot Learning (https://arxiv.org/abs/2507.21786): 为了提高few-shot学习的泛化能力，提出了一种多语义引导上下文优化（MSGCoOp）框架。该框架利用一组并行可学习的上下文向量来捕获不同的语义方面，并通过语义引导机制和多样性正则化损失来丰富这些提示，从而提升了在基础到新类别泛化中的性能。
Self-Aware Safety Augmentation: Leveraging Internal Semantic Understanding to Enhance Safety in Vision-Language Models (https://arxiv.org/abs/2507.21637): 该研究发现大型视觉语言模型（LVLM）比纯语言模型更容易受到有害输入的影响。为了解决这个问题，作者提出了自我感知安全增强（SASA）技术，通过将中间层的语义表示投影到早期的安全层，利用模型固有的语义理解来增强安全识别，且无需微调。
EMIT: Enhancing MLLMs for Industrial Anomaly Detection via Difficulty-Aware GRPO (https://arxiv.org/abs/2507.21619): 针对工业异常检测（IAD）中多模态大语言模型（MLLM）的有效性有限的问题，提出了一种统一的框架EMIT，通过难度感知的群体相对策略优化（GRPO）来增强MLLM。该框架构建了一个多任务IAD数据集，并利用GPT生成的对象文本描述来补偿缺失的缺陷图像，从而显著提高了MLLM在IAD上的性能。
Progressive Homeostatic and Plastic Prompt Tuning for Audio-Visual Multi-Task Incremental Learning (https://arxiv.org/abs/2507.21588): 提出了一种三阶段渐进式稳态和可塑性音视频提示(PHP)方法，用于解决音视频多任务增量学习中的挑战，通过任务共享和任务特定的提示设计，在知识保留和多任务迁移之间取得平衡。
TARS: MinMax Token-Adaptive Preference Strategy for Hallucination Reduction in MLLMs (https://arxiv.org/abs/2507.21584): 本文提出了一种token自适应偏好策略TARS，通过将直接偏好优化（DPO）重新表述为一个min-max优化问题，以减少多模态大型语言模型（MLLM）中的幻觉现象。该方法通过最大化token级别分布变化和最小化偏好损失，从而减轻了对偏好模式的过拟合。
AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning (https://arxiv.org/abs/2412.03248): 提出了一种免训练的自适应推理方法，用于多模态LLM，该方法通过基于嵌入相似度的迭代token合并和基于多模态重要性的LLM层内token剪枝，从而在最小性能下降的情况下，适应各种效率需求。
Knowledge Regularized Negative Feature Tuning of Vision-Language Models for Out-of-Distribution Detection (https://arxiv.org/abs/2507.19847)：提出了一种名为知识正则化负特征调整（KR-NFT）的新方法，用于提高视觉语言模型在未见类别和样式上的OOD检测能力。该方法集成了负特征调整（NFT）和相应的知识正则化（KR）优化策略，可增强ID和OOD集之间的区分，同时减轻预训练知识的遗忘。

大模型的行业应用

Cardiac-CLIP: A Vision-Language Foundation Model for 3D Cardiac CT Images (https://arxiv.org/abs/2507.22024): 提出了一种用于3D心脏CT图像的多模态基础模型Cardiac-CLIP。该模型通过两阶段预训练策略，首先使用3D掩码自动编码器进行自监督表示学习，然后引入对比学习来对齐视觉和文本表示，从而在心血管异常分类、信息检索和临床分析等多个下游任务中取得了state-of-the-art的性能。
AU-LLM: Micro-Expression Action Unit Detection via Enhanced LLM-Based Feature Fusion (https://arxiv.org/abs/2507.21778): 本文提出了一种名为AU-LLM的新框架，首次将LLM应用于微表情动作单元（AU）的检测。该框架通过增强融合投影器（EFP）将来自3D-CNN骨干网络的视觉特征融合到LLM中，从而实现了对细微面部肌肉运动的推理，并在CASME II和SAMM数据集上取得了新的state-of-the-art结果。
DGP: A Dual-Granularity Prompting Framework for Fraud Detection with Graph-Enhanced LLMs (https://arxiv.org/abs/2507.21653): 针对异构欺诈检测图，提出了一种双粒度提示（DGP）框架，通过保留目标节点的细粒度文本细节，并将邻居信息概括为粗粒度文本提示，从而减轻了信息过载，并在公共和工业数据集上提高了欺诈检测性能。
EMIT: Enhancing MLLMs for Industrial Anomaly Detection via Difficulty-Aware GRPO (https://arxiv.org/abs/2507.21619): 针对工业异常检测（IAD）中多模态大语言模型（MLLM）的有效性有限的问题，提出了一种统一的框架EMIT，通过难度感知的群体相对策略优化（GRPO）来增强MLLM。该框架构建了一个多任务IAD数据集，并利用GPT生成的对象文本描述来补偿缺失的缺陷图像，从而显著提高了MLLM在IAD上的性能。
Harnessing Large Language Model for Virtual Reality Exploration Testing: A Case Study (https://arxiv.org/abs/2501.05625)：该研究调查了使用大型语言模型（LLM）进行虚拟现实（VR）探索测试中的视野（FOV）分析的能力。结果表明，LLM可以有效地识别FOV中的测试实体，并且通过提示工程可以提高测试实体识别的准确性。

文生图/文生视频

X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again (https://arxiv.org/abs/2507.22058): 该研究表明，强化学习可以有效缓解离散自回归建模方法在图像生成中遇到的问题，例如低视觉保真度和输出失真。提出的X-Omni框架包含一个语义图像tokenizer、一个统一的语言和图像自回归模型以及一个离线扩散解码器，在图像生成任务中取得了state-of-the-art的性能。
HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels (https://arxiv.org/abs/2507.21809): 提出了HunyuanWorld 1.0，该框架结合了基于视频的方法和基于3D的方法的优点，从文本和图像条件生成沉浸式、可探索和交互式的3D场景。该方法具有360°沉浸式体验、网格导出功能和可分离的对象表示，实现了多样化3D世界的生成。
NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation Models (https://arxiv.org/abs/2507.11245): 研究者们提出了一种新的基准测试NarrLV，用于评估长视频生成模型在叙事表达方面的能力。该基准测试基于电影叙事理论，引入了时间叙事原子（TNA）的概念，并设计了一种有效的评估指标，使用MLLM进行问题生成和回答，从而全面评估长视频生成模型的叙事能力。
T2I-Copilot: A Training-Free Multi-Agent Text-to-Image System for Enhanced Prompt Interpretation and Interactive Generation (https://arxiv.org/abs/2507.20536): 介绍了一种免训练的多智能体系统 T2I-Copilot，它利用（多模态）大型语言模型的协作来自动化提示措辞、模型选择和迭代改进，从而简化了提示工程，同时提高了生成质量和文本-图像对齐。
DreamScene: 3D Gaussian-based End-to-end Text-to-3D Scene Generation (https://arxiv.org/abs/2507.13985): 提出了DreamScene，一个端到端的框架，用于从文本或对话生成高质量和可编辑的3D场景。DreamScene从一个场景规划模块开始，该模块推断对象语义和空间约束以构建混合图。然后，基于图的放置算法生成结构化的无碰撞布局，最后通过形成模式采样(FPS)生成对象几何体。

底层模型架构

CAPE: A CLIP-Aware Pointing Ensemble of Complementary Heatmap Cues for Embodied Reference Understanding (https://arxiv.org/abs/2507.21888): 针对具身参考理解问题，提出了一种双模型框架，该框架利用头部到指尖和手腕到指尖方向的信息，并通过CLIP-Aware Pointing Ensemble模块进行混合集成，从而在YouRefIt数据集上取得了显著的性能提升。
PEVLM: Parallel Encoding for Vision-Language Models (https://arxiv.org/abs/2506.19651): 为了提高视觉语言模型（VLM）在长视频场景中的预填充效率，本文提出了一种无需微调的并行编码方法PEVLM。PEVLM将输入视频划分为具有共享sink块的上下文块，同时保留顺序位置嵌入，从而在不牺牲准确性的前提下，降低了注意力计算的复杂度。

其他

See Different, Think Better: Visual Variations Mitigating Hallucinations in LVLMs (https://arxiv.org/abs/2507.22003): 该论文提出了一种视觉中心幻觉缓解框架ViHallu，通过视觉变异图像生成和视觉指令构建来增强视觉-语义对齐。ViHallu引入了可控视觉改变的视觉变异图像，并通过微调使LVLM更好地理解细粒度的视觉内容，从而减少幻觉。
ArtSeek: Deep artwork understanding via multimodal in-context reasoning and late interaction retrieval (https://arxiv.org/abs/2507.21917): 提出了ArtSeek，一个用于艺术分析的多模态框架，它结合了多模态大型语言模型与检索增强生成。ArtSeek集成了一个基于后期交互检索的智能多模态检索模块，一个用于预测艺术家、流派、风格、媒体和标签的对比多任务分类网络，以及一个通过上下文化示例实现的代理推理策略。
Aether Weaver: Multimodal Affective Narrative Co-Generation with Dynamic Scene Graphs (https://arxiv.org/abs/2507.21893): 介绍了一个新的集成框架Aether Weaver，用于多模态叙事协同生成，可以同步合成文本叙事、动态场景图表示、视觉场景和情感音景。
DualSG: A Dual-Stream Explicit Semantic-Guided Multivariate Time Series Forecasting Framework (https://arxiv.org/abs/2507.21830): 提出了一种双流框架DualSG，用于提供显式的语义指导，其中LLM充当语义指导，以细化而非取代传统预测。作为DualSG的一部分，引入时间序列字幕，一种显式的提示格式，总结了自然语言中的趋势模式，并为LLM提供了可解释的上下文，而不是依赖于文本和时间序列在潜在空间中的隐式对齐。
Anyone Can Jailbreak: Prompt-Based Attacks on LLMs and T2Is (https://arxiv.org/abs/2507.21820): 该研究对基于提示的对抗攻击（jailbreak）进行了系统性调查，揭示了非专业用户如何通过多轮叙事升级、词汇伪装、蕴含链、虚构模仿和细微语义编辑等技术绕过安全机制，并提出了一个统一的提示级别jailbreak策略分类法。
VAGU & GtS: LLM-Based Benchmark and Framework for Joint Video Anomaly Grounding and Understanding (https://arxiv.org/abs/2507.21507): 提出了VAGU，第一个集成视频异常接地和理解任务的基准测试，每个VAGU实例都包括异常类别、语义解释、精确的时间接地和视频问答注释。还提出了Glance then Scrutinize (GtS)，一个由文本提示引导的免训练框架。
VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback (https://arxiv.org/abs/2507.17294)：提出了一种名为VLA-Touch的方法，该方法通过双层触觉反馈增强通用机器人策略。该方法无需微调基础VLA，而是利用预训练的触觉语言模型提供语义触觉反馈以进行高级任务规划，并使用基于扩散的控制器通过触觉信号细化VLA生成的动作，从而提高任务规划效率并增强执行精度。
Geometric Algebra Meets Large Language Models: Instruction-Based Transformations of Separate Meshes in 3D, Interactive and Controllable Scenes (https://arxiv.org/abs/2408.02275)：本文介绍了一种大型语言模型（LLM）与共形几何代数（CGA）的新颖集成，用于彻底改变可控的 3D 场景编辑，特别是对象重新定位任务。该系统利用 CGA 作为强大的形式语言，将自然语言指令转换为 CGA 操作，然后将其应用于场景，从而促进 3D 场景中的精确空间转换，而无需专门的预训练。
Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator (https://arxiv.org/abs/2411.17799): 本文介绍了一种多语言手语模型，Signs as Tokens (SOKE)，它可以从文本输入自动回归地生成 3D 手语头像。为了将手语与 LM 对齐，我们利用了一个解耦的标记器，该标记器将连续的手语离散化为表示各种身体部位的标记序列。
GSON: A Group-based Social Navigation Framework with Large Multimodal Model (https://arxiv.org/abs/2409.18084): GSON是一种基于群体的社交导航框架，利用大型多模态模型（LMM）来增强机器人的社会感知能力。它使用视觉提示来实现零样本提取行人之间的社会关系，并将这些结果与稳健的行人检测和跟踪流水线集成。

编辑精选

ReXGroundingCT: A 3D Chest CT Dataset for Segmentation of Findings from Free-Text Reports (https://arxiv.org/abs/2507.22030): 医学领域高质量标注数据稀缺，该数据集将文本和3D图像关联，具有很高的应用价值。
Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security (https://arxiv.org/abs/2507.22037): 多模态模型的安全性是当前研究的热点，该工作利用强化学习进行防御-攻击训练，值得关注。
TARS: MinMax Token-Adaptive Preference Strategy for Hallucination Reduction in MLLMs (https://arxiv.org/abs/2507.21584):幻觉问题是目前多模态模型面临的重要挑战，该工作提出了一种token自适应的偏好策略，有效减少了幻觉现象。
HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels (https://arxiv.org/abs/2507.21809): 该工作对于如何从文本生成3D场景进行了有益的尝试，尤其是在可交互性方面，具有一定的创新性。
Anyone Can Jailbreak: Prompt-Based Attacks on LLMs and T2Is (https://arxiv.org/abs/2507.21820): 该论文揭示了普通用户如何通过简单的技巧绕过大型语言模型的安全机制，对于提升模型安全性具有重要意义。