多模态大模型研究每日简报【2025-08-07】

Caaacy_YU

991人浏览 · 2025-08-08 11:28:35

Caaacy_YU · 2025-08-08 11:28:35 发布

训练数据相关

Follow-Your-Instruction: A Comprehensive MLLM Agent for World Data Synthesis (https://arxiv.org/abs/2508.05580)
提出了一个多模态大语言模型驱动的框架，用于自动合成高质量的2D、3D和4D数据。该框架通过MLLM收集资产及其描述，构建3D布局，并利用视觉语言模型进行语义细化，最后生成时间上连贯的未来帧。实验表明，该方法合成的数据能显著提升现有基线模型的性能。
MELLA: Bridging Linguistic Capability and Cultural Groundedness for Low-Resource Language MLLMs (https://arxiv.org/abs/2508.05502)
针对低资源语言的多模态大语言模型效果不佳的问题，提出了一个双源策略，分别收集本地网络alt-text用于文化知识的学习，以及MLLM生成的字幕用于语言能力的学习，并构建了MELLA数据集。实验表明，在该数据集上进行微调后，模型在多个语言上都有性能提升。

训练策略

Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle (https://arxiv.org/abs/2508.05612)
针对多模态大语言模型强化学习训练效率低下的问题，提出了Shuffle-R1框架，通过动态重构轨迹采样和批次构成来提高训练效率。该框架引入了pairwise轨迹采样和基于优势的轨迹shuffle，在多个推理基准测试中表现优于现有强化学习基线。
VFlowOpt: A Token Pruning Framework for LMMs with Visual Information Flow-Guided Optimization (https://arxiv.org/abs/2508.05211)
提出了一个token剪枝框架VFlowOpt，通过视觉信息流引导的方法优化剪枝策略的超参数。该框架能够剪枝90%的视觉tokens，同时保持可比的性能，从而减少了KV-Cache内存的使用，并加快了推理速度。
Resource-Limited Joint Multimodal Sentiment Reasoning and Classification via Chain-of-Thought Enhancement and Distillation (https://arxiv.org/abs/2508.05234)
提出了一个多模态链式思考推理蒸馏模型MulCoT-RD，用于资源受限环境下的多模态情感推理和分类任务。该模型采用“教师-助手-学生”蒸馏范式，利用高性能的多模态大语言模型生成推理数据集，并训练轻量级学生模型。
QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering (https://arxiv.org/abs/2508.05197)
提出了一个查询感知的动态RAG系统QA-Dragon，用于知识密集型视觉问答。QA-Dragon引入了一个领域路由来识别查询的主题领域，以及一个搜索路由来动态选择最佳检索策略，支持多模态、多轮和多跳推理。
Flex-Judge: Text-Only Reasoning Unleashes Zero-Shot Multimodal Evaluators (https://arxiv.org/abs/2505.18601)
提出了Flex-Judge，一个推理引导的多模态judge模型，利用最少的文本推理数据，就能泛化到多个模态和评估格式。核心思想是结构化的文本推理解释，能够编码通用的决策模式，从而有效地转移到多模态判断。

大模型的行业应用

MoMA: A Mixture-of-Multimodal-Agents Architecture for Enhancing Clinical Prediction Modelling (https://arxiv.org/abs/2508.05492)
提出了一个混合多模态代理（MoMA）架构，利用多个大型语言模型（LLM）代理进行临床预测任务，使用多模态电子健康记录（EHR）数据。MoMA将非文本模态转换为结构化文本摘要，并结合临床笔记，生成统一的多模态摘要，用于临床预测。
CT-GRAPH: Hierarchical Graph Attention Network for Anatomy-Guided CT Report Generation (https://arxiv.org/abs/2508.05375)
提出了CT-GRAPH，一个分层图注意力网络，通过将解剖区域构建成图来显式地建模放射学知识，将细粒度的器官特征与粗略的解剖系统和全局患者上下文联系起来，用于辅助生成CT报告。
PriorRG: Prior-Guided Contrastive Pre-training and Coarse-to-Fine Decoding for Chest X-ray Report Generation (https://arxiv.org/abs/2508.05353)
提出了PriorRG，一个新颖的胸部X射线报告生成框架，通过一个两阶段的训练管道来模拟真实的临床工作流程。在第一阶段，引入了先验引导的对比预训练方案，利用临床背景来引导时空特征提取。在第二阶段，提出了先验感知的粗到细解码，逐步整合患者特定的先验知识。
Chemist Eye: A Visual Language Model-Powered System for Safety Monitoring and Robot Decision-Making in Self-Driving Laboratories (https://arxiv.org/abs/2508.05148)
提出了Chemist Eye，一个分布式安全监控系统，旨在增强自动驾驶实验室（SDL）中的情境感知。该系统集成了多个配备RGB、深度和红外摄像头的站点，旨在监控SDL中的事件，并使用视觉语言模型（VLM）驱动的决策来发现潜在事故、PPE合规性和火灾隐患。
VS-LLM: Visual-Semantic Depression Assessment based on LLM for Drawing Projection Test (https://arxiv.org/abs/2508.05299)
提出了一种有效的识别方法，以支持心理学家进行大规模自动绘画投射测试（DPT），通过使用LLM进行基于视觉语义的抑郁评估（VS-LLM）。

底层模型架构

TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation (https://arxiv.org/abs/2412.03069)
提出了TokenFlow，一个新颖的统一图像tokenizer，通过双重密码本架构来桥接多模态理解和生成之间的长期差距。语义和像素级别特征学习解耦，同时通过共享映射机制保持它们的对齐。

大模型安全

From Detection to Correction: Backdoor-Resilient Face Recognition via Vision-Language Trigger Detection and Noise-Based Neutralization (https://arxiv.org/abs/2508.05409)
提出了一种新颖且通用的方法TrueBiometric：值得信赖的生物识别技术，它使用多数投票机制，利用多个最先进的大型视觉语言模型，准确地检测中毒图像。一旦识别出来，就使用有针对性的校正噪声来校正中毒样本。
JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering (https://arxiv.org/abs/2508.05087)
提出了一种通过协作的视觉扰动和文本引导来越狱多模态大语言模型（MLLM）的方法，通过优化过的“引导提示”来引导LLM响应，从而满足攻击者的意图。
PhysPatch: A Physically Realizable and Transferable Adversarial Patch Attack for Multimodal Large Language Models-based Autonomous Driving Systems (https://arxiv.org/abs/2508.05167)
提出了PhysPatch，一个物理上可实现且可转移的对抗性补丁框架，专为基于MLLM的自动驾驶系统设计。PhysPatch共同优化补丁的位置、形状和内容，以提高攻击效果和现实世界的适用性。
SafeWork-R1: Coevolving Safety and Intelligence under the AI-45 $^{\\circ}$ Law (https://arxiv.org/abs/2507.18576)
介绍了一种多模态推理模型SafeWork-R1，展示了能力和安全性的协同发展。它由SafeLadder框架开发，该框架结合了大规模、渐进的、以安全为导向的强化学习后训练，并由一套多原则验证器支持。

文生图/文生视频

UNCAGE: Contrastive Attention Guidance for Masked Generative Transformers in Text-to-Image Generation (https://arxiv.org/abs/2508.05399)
提出了Unmasking with Contrastive Attention Guidance (UNCAGE)，一种新颖的免训练方法，通过利用注意力图来优先考虑代表单个物体的tokens的unmasking，从而提高组合保真度。
PoseGen: In-Context LoRA Finetuning for Pose-Controllable Long Human Video Generation (https://arxiv.org/abs/2508.05091)
提出了PoseGen，一个新颖的框架，可以从单个参考图像和驱动姿势序列生成特定主体的任意长度的连贯视频。我们的核心创新是一种上下文LoRA微调策略，该策略在token级别注入主体外观以保持身份，同时在通道级别以姿势信息为条件进行细粒度运动控制。

其他

RegionMed-CLIP: A Region-Aware Multimodal Contrastive Learning Pre-trained Model for Medical Image Understanding (https://arxiv.org/abs/2508.05244)
本文提出了区域感知的多模态对比学习框架RegionMed-CLIP，它显式地结合了局部病理信号和整体语义表示。
Multi-Modal Multi-Behavior Sequential Recommendation with Conditional Diffusion-Based Feature Denoising (https://arxiv.org/abs/2508.05352)
提出了一个novel Multi-Modal Multi-Behavior Sequential Recommendation model (M $^3$ BSR)，该模型首先使用Conditional Diffusion Modality Denoising Layer消除多模态表示中的噪声。
Explaining Similarity in Vision-Language Encoders with Weighted Banzhaf Interactions (https://arxiv.org/abs/2508.05430)
本文引入了LIP模型(FIxLIP)的忠实交互解释，作为分解视觉语言编码器相似性的一种统一方法。
Textual Inversion for Efficient Adaptation of Open-Vocabulary Object Detectors Without Forgetting (https://arxiv.org/abs/2508.05323)
受文本到图像扩散模型中文本反演(TI)成功的启发，提出了一种用于开放词汇对象检测的类似公式。TI允许通过学习新的或改进的tokens来扩展VLM词汇表，以从三个示例中准确地检测新的或细粒度的对象。
GuARD: Effective Anomaly Detection through a Text-Rich and Graph-Informed Language Model (https://arxiv.org/abs/2412.03930)
本文介绍了一种文本丰富且基于图的语言模型GuARD，该模型结合了基于图的方法的关键结构特征与通过小语言模型提取的细粒度语义属性，以在文本丰富图上进行有效的异常检测。
Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts (https://arxiv.org/abs/2502.17297)
本文介绍了一个多模态检索增强生成(M2RAG)的基准测试，旨在评估多模态大型语言模型在利用来自多模态检索文档的知识方面的有效性。

编辑精选

Follow-Your-Instruction: A Comprehensive MLLM Agent for World Data Synthesis (https://arxiv.org/abs/2508.05580): 数据是AI发展的基石，该工作提供了一个自动生成高质量、多样性数据的方案，对于AIGC的发展有重要意义。
Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle (https://arxiv.org/abs/2508.05612): 强化学习是提升MLLM能力的重要手段，该工作关注RL训练的效率问题，提出了数据中心化的优化方法，具有很强的实用价值。
MoMA: A Mixture-of-Multimodal-Agents Architecture for Enhancing Clinical Prediction Modelling (https://arxiv.org/abs/2508.05492): 将多模态大模型应用于医疗领域，具有很强的应用前景和社会价值。
From Detection to Correction: Backdoor-Resilient Face Recognition via Vision-Language Trigger Detection and Noise-Based Neutralization (https://arxiv.org/abs/2508.05409): 针对生物识别系统中的后门攻击问题，提出了一种有效的检测和校正方法，对于提高生物识别系统的安全性有重要意义。