多模态大模型研究每日简报【2025-09-18】

Caaacy_YU

840人浏览 · 2025-09-18 12:08:17

Caaacy_YU · 2025-09-18 12:08:17 发布

训练数据相关

EDITS: Enhancing Dataset Distillation with Implicit Textual Semantics (https://arxiv.org/abs/2509.13858): 提出了一个新框架EDITS，利用图像数据中隐含的文本语义来实现增强的蒸馏。首先，通过全局语义查询模块将视觉语言模型（VLM）生成的外部文本与图像特征融合，形成先验聚类缓冲区。然后，局部语义感知从缓冲区中选择代表性样本来构建图像和文本原型，最后通过扩散模型生成最终的合成数据集。
Iterative Prompt Refinement for Safer Text-to-Image Generation (https://arxiv.org/abs/2509.13760): 提出了一种迭代提示细化算法，该算法使用视觉语言模型（VLM）来分析输入提示和生成的图像，从而更有效地细化提示，提高安全性，同时保持与用户意图的一致性和可靠性。此外，还引入了一个新数据集，该数据集使用现成的多模态LLM标记了文本和视觉安全信号。

Agent相关

CLAW: A Vision-Language-Action Framework for Weight-Aware Robotic Grasping (https://arxiv.org/abs/2509.14143): 提出了一种新的视觉-语言-动作（VLA）框架CLAW，通过解耦条件评估和动作生成，来提高机器人抓取的精确性。CLAW利用微调的CLIP模型作为轻量级提示生成器，根据任务特定的权重阈值生成离散指令，然后由基于流的VLA策略使用这些指令和多视角相机观察来产生连续的机器人动作。
PhysicalAgent: Towards General Cognitive Robotics with Foundation World Models (https://arxiv.org/abs/2509.13903): 介绍了一个用于机器人操作的agentic框架PhysicalAgent，该框架集成了迭代推理、基于扩散的视频生成和闭环执行。该方法通过生成候选轨迹的短视频演示，并在机器人上执行它们，然后迭代地重新规划以应对失败，从而实现从执行错误中稳健恢复。
AdaThinkDrive: Adaptive Thinking via Reinforcement Learning for Autonomous Driving (https://arxiv.org/abs/2509.13769): 提出了一种新的VLA框架AdaThinkDrive，该框架具有受快速和慢速思维启发的双模推理机制。该框架使用QA和轨迹数据集在大型自动驾驶（AD）场景上进行预训练，以获取世界知识和驾驶常识。SFT期间，引入双模数据集（快速回答w/o CoT和慢速思考with CoT），使模型能够区分需要推理的场景。

大模型的行业应用

When Avatars Have Personality: Effects on Engagement and Communication in Immersive Medical Training (https://arxiv.org/abs/2509.14132): 研究将大型语言模型集成到沉浸式VR中，创建具有不同个性、医学上连贯的虚拟病人，用于医疗培训。研究表明，这种方法不仅可行，而且被医生认为是高度有益且有效的培训增强。研究还揭示了一些关键的设计原则，包括“真实性-冗长悖论”，即不那么健谈的代理可能显得更人工化，以及挑战需要被认为是真实的才能具有指导意义。
Integrating Text and Time-Series into (Large) Language Models to Predict Medical Outcomes (https://arxiv.org/abs/2509.13696): 探索了如何将指令调优的LLM与DSPy提示优化相结合，以处理临床笔记和结构化的EHR输入，用于临床分类任务。结果表明，该方法在实现与专业多模态系统相当的性能的同时，降低了复杂性，并提供了更大的跨任务适应性。
Language Conditioning Improves Accuracy of Aircraft Goal Prediction in Untowered Airspace (https://arxiv.org/abs/2509.14063): 提出了一种多模态框架，通过整合自然语言理解与空间推理来改善飞机目标预测。该方法利用自动语音识别和大型语言模型来转录和解释飞行员无线电呼叫，识别飞机并提取离散的意图标签，从而提高预测精度。

Benchmark

Cinéaste: A Fine-grained Contextual Movie Question Answering Benchmark (https://arxiv.org/abs/2509.14227): 提出了一个综合性的长篇电影理解基准 $mathsf{Cin\\acute{e}aste}$ ，包含来自200部电影的3119个多项选择题-答案对，涵盖了五个新的细粒度上下文推理类别。实验表明，现有的MLLM在 $mathsf{Cin\\acute{e}aste}$ 上表现不佳，长程时间推理是主要的瓶颈。
Can Current AI Models Count What We Mean, Not What They See? A Benchmark and Systematic Evaluation (https://arxiv.org/abs/2509.13939): 提出了一个基准数据集PairTally，专门用于评估细粒度视觉计数。PairTally包含681张高分辨率图像，每张图像包含两个对象类别，需要模型根据形状、大小、颜色或语义的细微差异进行区分和计数。
GenExam: A Multidisciplinary Text-to-Image Exam (https://arxiv.org/abs/2509.14232): 提出了一个多学科的文本到图像生成考试基准GenExam，包含10个学科的1000个样本。实验表明，即使是最先进的模型也难以达到高分，表明该基准具有很大的挑战性。该基准旨在严格评估模型整合知识、推理和生成的能力，为通用人工智能的发展提供洞见。
MARS2 2025 Challenge on Multimodal Reasoning: Datasets, Methods, Results, Discussion, and Outlook (https://arxiv.org/abs/2509.14142): 回顾了MARS2 2025多模态推理挑战赛，发布了两个定制数据集Lens和AdsQA作为测试集，分别支持12个日常场景中的一般推理和广告视频中的领域特定推理。

底层模型架构

Dense Video Understanding with Gated Residual Tokenization (https://arxiv.org/abs/2509.14199): 提出了Dense Video Understanding (DVU)，通过减少tokenization时间和token开销来实现高FPS视频理解。为此，提出了Gated Residual Tokenization (GRT)，一个两阶段框架：(1) Motion-Compensated Inter-Gated Tokenization使用像素级运动估计来跳过tokenization期间的静态区域；(2) Semantic-Scene Intra-Tokenization Merging融合场景内静态区域的token，进一步减少冗余。
DSpAST: Disentangled Representations for Spatial Audio Reasoning with Large Language Models (https://arxiv.org/abs/2509.13927): 提出了DSpAST，一种基于SpatialAST的新型音频编码器，它学习空间音频的解耦表示，同时只有0.2%的额外参数。

其他

AD-DINOv3: Enhancing DINOv3 for Zero-Shot Anomaly Detection with Anomaly-Aware Calibration (https://arxiv.org/abs/2509.14084): 提出了AD-DINOv3，一个用于零样本异常检测（ZSAD）的新型视觉-语言多模态框架。该框架将异常检测表述为多模态对比学习问题，并设计了一个异常感知校准模块（AACM），显式地引导CLS token关注异常区域，而不是一般的foreground语义。
FSR-VLN: Fast and Slow Reasoning for Vision-Language Navigation with Hierarchical Multi-modal Scene Graph (https://arxiv.org/abs/2509.13733): 提出了一种视觉语言导航系统FSR-VLN，该系统结合了分层多模态场景图（HMSG）和快速到慢速导航推理（FSR）。HMSG提供了一种多模态地图表示，支持从粗略的房间级定位到细粒度的目标视图和对象识别的渐进式检索。
SAIL-VL2 Technical Report (https://arxiv.org/abs/2509.14033): 介绍了SAIL-VL2，一个开放套件的视觉语言基础模型（LVM），用于全面的多模态理解和推理。SAIL-VL2在2B和8B参数规模上实现了跨各种图像和视频基准的最先进性能，展示了从细粒度感知到复杂推理的强大能力。

编辑精选

以下是我们精选的几篇论文，值得特别关注：

Cinéaste: A Fine-grained Contextual Movie Question Answering Benchmark (https://arxiv.org/abs/2509.14227): 这个新的电影问答基准专注于长篇叙事理解，对现有模型的推理能力提出了更高的要求，揭示了它们在长程时间推理方面的不足。这对于开发更智能的、能够理解复杂情境的AI系统至关重要。
PhysicalAgent: Towards General Cognitive Robotics with Foundation World Models (https://arxiv.org/abs/2509.13903): 通过结合视频生成和迭代执行，PhysicalAgent在机器人操作方面取得了显著进展，强调了闭环反馈和错误恢复在实际机器人应用中的重要性。这种方法对于开发更通用、更稳健的机器人控制系统具有重要意义。
EDITS: Enhancing Dataset Distillation with Implicit Textual Semantics (https://arxiv.org/abs/2509.13858): EDITS通过利用图像中隐含的文本语义来增强数据集蒸馏，这是一种新颖的方法，可以有效地合成小型数据集，同时保持竞争力模型性能。
AD-DINOv3: Enhancing DINOv3 for Zero-Shot Anomaly Detection with Anomaly-Aware Calibration (https://arxiv.org/abs/2509.14084): 该研究提出的AD-DINOv3框架通过利用DINOv3模型和创新性的异常感知校准模块，显著提高了零样本异常检测的性能，为工业和医疗领域的应用提供了有价值的参考。