多模态大模型研究每日简报【2025-08-11】

Caaacy_YU

1135人浏览 · 2025-08-12 11:40:20

Caaacy_YU · 2025-08-12 11:40:20 发布

训练数据相关

VGGSounder: Audio-Visual Evaluations for Foundation Models：该研究指出，常用的音频-视觉基础模型评估数据集VGGSounder存在标注不完整、类别重叠和模态不对齐等问题，可能导致模型听觉和视觉能力的评估失真。为了解决这些问题，作者提出了一个全面重新标注的多标签测试集VGGSounder，它扩展了VGGSound，并专门设计用于评估音频-视觉基础模型。VGGSounder 具有详细的模态标注，能够精确分析特定模态的性能。
RSVLM-QA: A Benchmark Dataset for Remote Sensing Vision Language Model-based Question Answering：针对遥感图像视觉问答（RS VQA）数据集在标注丰富度、问题多样性和推理能力评估方面的局限性，本研究提出了一个新的大规模、内容丰富的VQA数据集RSVLM-QA。该数据集通过结合多个遥感分割和检测数据集，利用大型语言模型（LLMs）自动生成详细的标注，包括图像标题、空间关系和语义标签，以及复杂的问题-答案对。
UniSVG: A Unified Dataset for Vector Graphic Understanding and Generation with Multimodal Large Language Models：为了促进AI在可缩放矢量图形（SVG）理解和生成方面的能力，该研究提出了一个名为UniSVG的数据集，包含52.5万个数据项，专为多模态大型语言模型（MLLM）的训练和评估而设计。该数据集旨在统一SVG生成（从文本提示和图像）和SVG理解（颜色、类别、用途等）任务。
AU-IQA: A Benchmark Dataset for Perceptual Quality Assessment of AI-Enhanced User-Generated Content：针对缺乏专门的质量评估模型来评估人工智能增强的用户生成内容（AI-UGC）的问题，该研究构建了一个基准数据集AU-IQA，包含4,800张由三种代表性增强类型（超分辨率、低光增强和去噪）生成的AI-UGC图像。
SynthVLM: Towards High-Quality and Efficient Synthesis of Image-Caption Datasets for Vision-Language Models：该论文提出了一种新的数据合成和管理方法SynthVLM，用于生成图像-标题对。与传统方法不同，SynthVLM利用高级扩散模型和高质量标题来合成和选择来自文本标题的图像，从而创建精确对齐的图像-文本对。进一步提出了SynthVLM-100K，一个由10万个精心策划和合成的图像-标题对组成的高质量数据集。
DreamFrame: Enhancing Video Understanding via Automatically Generated QA and Style-Consistent Keyframes：为了解决现有视频理解模型缺乏特定领域训练数据的问题，该研究提出了一个名为DreamFrame的三阶段框架，用于自动生成风格一致的关键帧和相应的问答（QA）对，以支持LVLM指令调整。

训练策略

Optimal Transport Regularization for Speech Text Alignment in Spoken Language Models：为了解决语音语言模型（SLM）在跨数据集泛化方面的挑战，该研究引入了最优传输正则化（OTReg），这是一种将语音-文本对齐建模为最优传输问题的方法，并推导出一个正则化损失来改进SLM训练。
WeChat-YATT: A Simple, Scalable and Balanced RLHF Trainer：该论文介绍了微信YATT（Yet Another Transformer Trainer in WeChat），一个简单、可扩展且平衡的RLHF训练框架，旨在应对扩展到复杂多模态工作流程和适应动态工作负载时面临的挑战。WeChat-YATT 采用并行控制器编程模型，可以灵活高效地编排复杂的 RLHF 工作流程，有效缓解与集中式控制器架构相关的瓶颈，并促进大规模数据场景中的可扩展性。
CATP: Contextually Adaptive Token Pruning for Efficient and Enhanced Multimodal In-Context Learning：现代大型视觉语言模型 (LVLM) 将每个输入图像转换为大量 token，远远超过文本 token。虽然这提高了视觉感知，但它引入了严重的图像 token 冗余。为此，论文提出了一种上下文自适应 token 剪枝 (CATP) 方法，这是一种针对多模态 ICL 的免训练剪枝方法。
Pose-RFT: Enhancing MLLMs for 3D Pose Generation via Hybrid Action Reinforcement Fine-Tuning：为了解决姿势特定的多模态大型语言模型（MLLM）在训练中难以建模歧义和实现任务特定对齐的问题，该研究提出了一种强化微调框架Pose-RFT，专门用于MLLM中的3D人体姿势生成。
SASST: Leveraging Syntax-Aware Chunking and LLMs for Simultaneous Speech Translation：本研究提出了一种基于语法的分块策略，通过解析依赖关系（例如，名词短语边界、动词-宾语结构）和标点符号特征，将输入流分割成语义完整的单元。该方法确保了块的连贯性并最大限度地减少了语义碎片。在此机制的基础上，提出了 SASST（Syntax-Aware Simultaneous Speech Translation），这是一个集成了冻结的 Whisper 编码器和仅解码器 LLM 的端到端框架。
Separation and Collaboration: Two-Level Routing Grouped Mixture-of-Experts for Multi-Domain Continual Learning：多领域持续学习（MDCL）从具有转移类别集和分布的顺序任务中获取知识。为此，本文提出了一种两级路由分组混合专家（TRGE）方法。
CLGRPO: Reasoning Ability Enhancement for Small VLMs：小视觉语言模型（SVLM）由于参数数量的限制，推理能力受到限制。为了解决这个问题，本文提出了一种后训练优化范式，称为增量训练策略，以增强 SVLM 的推理能力。
Sparsity Outperforms Low-Rank Projections in Few-Shot Adaptation：论文提出了一个新颖的稀疏优化 (SO) 框架。与通常将更新限制在固定子空间的低秩方法不同，SO 方法利用高稀疏性来动态调整非常少的参数。
EDiT: Efficient Diffusion Transformers with Linear Compressed Attention：扩散转换器 (DiT) 已成为文本到图像合成的主要架构，可生成高质量且照片般逼真的图像。然而，DiT 中注意力的二次缩放特性阻碍了更高分辨率或资源有限的设备上的图像生成。这项工作引入了一种高效的扩散转换器 (EDiT) 来缓解传统 DiT 和多模式 DiT (MM-DiT) 中的这些效率瓶颈。

大模型的行业应用

ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks：该研究提出了ODYSSEY，一个统一的移动操作框架，适用于配备机械臂的敏捷四足机器人，它无缝集成了高层任务规划和低层全身控制。为了应对语言条件任务中以自我为中心的感知挑战，作者引入了一个由视觉-语言模型驱动的分层规划器，从而实现长时程指令分解和精确的动作执行。
Capabilities of GPT-5 on Multimodal Medical Reasoning：该研究评估了GPT-5在多模态医学推理方面的能力，结果表明GPT-5在多个医学问答基准测试中优于所有基线模型，并在多模态推理方面取得了显著的进展。
MuaLLM: A Multimodal Large Language Model Agent for Circuit Design Assistance with Hybrid Contextual Retrieval-Augmented Generation：该研究提出了MuaLLM，一个用于电路设计辅助的开源多模态大型语言模型（LLM）代理，它集成了混合检索增强生成（RAG）框架和一个自适应的电路设计研究论文向量数据库。
Vision-Based Localization and LLM-based Navigation for Indoor Environments：该研究提出了一种室内定位和导航方法，该方法集成了基于视觉的定位和基于大型语言模型（LLM）的导航。该定位系统利用通过两阶段过程微调的 ResNet-50 卷积神经网络，通过智能手机摄像头输入识别用户的位置。
FEAT: A Multi-Agent Forensic AI System with Domain-Adapted Large Language Model for Automated Cause-of-Death Analysis：该研究介绍了一种多智能体AI框架FEAT，该框架通过领域自适应的大型语言模型来自动化和标准化死亡调查。FEAT的面向应用的架构集成了：(i) 用于任务分解的中央规划器，(ii) 用于证据分析的专用本地求解器，(iii) 用于迭代细化的记忆与反思模块，以及 (iv) 用于结论综合的全局求解器。
MolmoAct: Action Reasoning Models that can Reason in Space：该研究介绍了动作推理模型（ARM），这是一类视觉-语言-动作模型，通过结构化的三阶段流水线集成感知、规划和控制。该模型MolmoAct将观察和指令编码为深度感知感知token，生成中级空间计划作为可编辑的轨迹跟踪，并预测精确的低级动作，从而实现可解释和可操纵的行为。
Autonomous Navigation of Cloud-Controlled Quadcopters in Confined Spaces Using Multi-Modal Perception and LLM-Driven High Semantic Reasoning：本文介绍了一种先进的AI驱动的感知系统，用于在GPS受限的室内环境中实现自主四旋翼飞行器导航。该框架利用云计算来卸载计算密集型任务，并结合定制设计的印刷电路板（PCB）以实现高效的传感器数据采集，从而在狭窄空间中实现鲁棒的导航。
SwarmVLM: VLM-Guided Impedance Control for Autonomous Navigation of Heterogeneous Robots in Dynamic Warehousing：该研究提出SwarmVLM，通过阻抗控制实现无人机和地面机器人在语义上的协作，从而解决异构导航的局限性。该系统利用视觉语言模型 (VLM) 和检索增强生成 (RAG) 来调整阻抗控制参数，以响应环境变化。
AIS-LLM: A Unified Framework for Maritime Trajectory Prediction, Anomaly Detection, and Collision Risk Assessment with Explainable Forecasting：为了解决现有方法倾向于单独处理这些任务的问题，该研究提出了一种新颖的框架AIS-LLM，该框架将时序AIS数据与大型语言模型（LLM）集成在一起。
Solving Zero-Shot 3D Visual Grounding as Constraint Satisfaction Problems：三维视觉定位（3DVG）旨在用自然语言描述定位 3D 场景中的对象。本文提出了一种零样本方法，将 3DVG 任务重新表述为约束满足问题 (CSP)，其中变量和约束分别表示对象及其空间关系。
EEG-Language Pretraining for Highly Label-Efficient Clinical Phenotyping：多模态语言建模已经实现了表征学习的突破，但在临床表型分析的功能性脑数据领域仍有待探索。本文率先使用临床报告和 15000 个脑电图训练脑电图语言模型 (ELM)。

文生图/文生视频

StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation：针对现有音频驱动的化身视频生成扩散模型难以合成具有自然音频同步和身份一致性的长视频的问题，该研究提出了StableAvatar，这是第一个端到端视频扩散转换器，可以合成无限长度的高质量视频，无需后处理。
LL3M: Large Language 3D Modelers：该研究提出了LL3M，一个多智能体系统，它利用预训练的大型语言模型（LLMs）通过在Blender中编写可解释的Python代码来生成3D资产。
TBAC-UniImage: Unified Understanding and Generation by Ladder-Side Diffusion Tuning：该论文介绍了TBAC-UniImage，一种用于多模态理解和生成的新型统一模型。通过将预训练的扩散模型（作为生成梯子）与多模态大型语言模型（MLLM）进行深度集成来实现这一点。
Being-M0.5: A Real-Time Controllable Vision-Language-Motion Model：这项工作提出了Being-M0.5，这是第一个实时的、可控的VLMM，可以在多个运动生成任务中实现最先进的性能。基于迄今为止最大、最全面的HuMo100M人体运动数据集构建，该数据集包含超过 500 万个自行收集的运动序列、1 亿个多任务指令实例以及解决现有数据集关键差距的详细部分级注释。
How Far Are We from Generating Missing Modalities with Foundation Models?：论文评估了多模态基础模型作为缺失模态重建的即插即用解决方案的潜力，识别并正式化了缺失模态重建的三个潜在范例，并对这些范例进行了全面评估，涵盖了 42 个模型变体，包括重建精度和对下游任务的适应性。
DanceChat: Large Language Model-Guided Music-to-Dance Generation：音乐到舞蹈生成旨在合成以音乐输入为条件的人类舞蹈动作。为此，论文介绍了一种大型语言模型 (LLM) 引导的音乐到舞蹈生成方法 DanceChat。使用 LLM 作为编舞，提供文本运动指令，为舞蹈生成提供明确的、高级的指导。
CoherenDream: Boosting Holistic Text Coherence in 3D Generation via Multimodal Large Language Models Feedback：分数蒸馏采样 (SDS) 在文本到 3D 内容生成中取得了显著成功。然而，基于 SDS 的方法难以保持用户提示的语义保真度，尤其是在涉及具有复杂交互的多个对象时。为了缓解这种限制，提出了一种新的 SDS 目标，称为文本连贯分数蒸馏 (TCSD)，它集成了来自多模态大型语言模型 (MLLM) 的对齐反馈。

底层模型架构

Spatial-ORMLLM: Improve Spatial Relation Understanding in the Operating Room with Multimodal Large Language Model：该研究介绍了Spatial-ORMLLM，这是第一个用于手术室3D空间推理的大型视觉语言模型，它仅使用RGB模态来推断体积和语义线索，从而能够利用详细和整体的空间上下文进行下游医学任务。
Dual Information Speech Language Models for Emotional Conversations：依赖于基于文本的大型语言模型（LLM）的对话系统通常忽略了语调线索，而语调线索对于理解情感和意图至关重要。为此，论文提出了两个异构适配器，并提出了一种弱监督训练策略。
Investigating the Design Space of Visual Grounding in Multimodal Large Language Model：精细的多模态能力在多模态大型语言模型（MLLM）中已成为一个关键的研究方向，特别是对于解决视觉基础（VG）问题。为了填补这一空白，本文对影响 MLLM 的 VG 性能的各种设计选择进行了全面的研究。
AR-VRM: Imitating Human Motions for Visual Robot Manipulation with Analogical Reasoning：视觉机器人操作（VRM）旨在使机器人能够根据机器人状态和视觉观察结果遵循自然语言指令，因此需要昂贵的多模态数据。为此，论文提出了一种从大规模人类动作视频数据集中以显式方式学习的方法（即模仿来自手部关键点的人类动作），从而引入了具有类比推理的视觉机器人操作（AR-VRM）。
Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring：本文介绍了一种统一的高分辨率通用模型 Griffon v2，通过视觉和文本提示实现灵活的对象指代。为了有效地扩大图像分辨率，设计了一个简单而轻量级的下采样投影仪，以克服大型语言模型中的输入token约束。

视觉强化学习

Reinforcement Learning in Vision: A Survey：该综述对强化学习（RL）和视觉智能交叉领域的最新进展进行了总结。首先，形式化了视觉RL问题，并追溯了从RLHF到可验证奖励范式，以及从近端策略优化到群相对策略优化的策略优化策略的演变。
MedReasoner: Reinforcement Learning Drives Reasoning Grounding from Clinical Thought to Pixel-Level Precision：精确地定位感兴趣区域（ROI）对于医学成像中的诊断和治疗计划至关重要。为此，本文定义了统一医学推理基础（UMRG），这是一项新颖的视觉语言任务，需要临床推理和像素级基础。
Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning：大型语言模型、多模态大型语言模型和大型音频语言模型 (LALM) 的最新进展通过基于规则奖励的强化学习显着提高了其推理能力。为了解决这些限制，提出了一种强化学习框架 Audio-Thinker，旨在增强 LALM 的推理能力，重点是提高适应性、一致性和有效性。
Affordance-R1: Reinforcement Learning for Generalizable Affordance Reasoning in Multimodal Large Language Model：现有模型通常忽略不同对象之间共享的可供性，因为它们缺乏思路链 (CoT) 推理能力，从而限制了它们的域外 (OOD) 泛化和显式推理能力。为此，论文提出了 Affordance-R1，这是第一个统一的可供性基础框架，它将认知 CoT 引导的组相对策略优化 (GRPO) 集成到强化学习范式中。
Multimodal Visual Transformer for Sim2real Transfer in Visual Reinforcement Learning：深度信息对场景外观变化具有鲁棒性，并且本身就带有 3D 空间细节。在本文中，提出了一种基于视觉转换器的视觉骨干来融合 RGB 和深度模态，以增强泛化。不同的模态首先由单独的 CNN stem 处理，然后将组合的卷积特征传递到可扩展的视觉转换器以获得视觉表示。

其他

ReferSplat: Referring Segmentation in 3D Gaussian Splatting：该研究提出了一个名为Referring 3D Gaussian Splatting Segmentation (R3DGS) 的新任务，旨在根据自然语言描述在3D Gaussian场景中分割目标对象，这些描述通常包含空间关系或对象属性。为了支持该领域的研究，作者构建了第一个R3DGS数据集Ref-LERF，并提出了一个名为ReferSplat的框架来解决3D多模态理解和空间关系建模的挑战。
DoorDet: Semi-Automated Multi-Class Door Detection Dataset via Object Detection and Large Language Models：这项工作提出了一个半自动化的流程，利用最先进的目标检测器和大型语言模型（LLM）来构建一个多类门检测数据集，只需最少的人工干预。该方法首先使用深度目标检测模型将门检测为一个统一的类别，然后LLM根据其视觉和上下文特征对每个检测到的实例进行分类。
SAGOnline: Segment Any Gaussians Online：该研究提出了Segment Any Gaussians Online (SAGOnline)，一个轻量级且零样本的框架，用于在Gaussian场景中进行实时3D分割，它通过两个关键创新来解决这些限制：（1）一种解耦策略，该策略集成了视频基础模型（例如，SAM2）以实现跨合成视图的视图一致的2D掩码传播；以及（2）一种GPU加速的3D掩码生成和Gaussian级别实例标记算法，该算法将唯一的标识符分配给3D基元，从而实现跨视图的无损多对象跟踪和分割。
BadPromptFL: A Novel Backdoor Threat to Prompt-based Federated Learning in Multimodal Models：该研究介绍了BadPromptFL，这是第一个针对多模态对比模型中基于prompt的联邦学习的后门攻击。在BadPromptFL中，受损的客户端共同优化本地后门触发器和prompt嵌入，将中毒的prompt注入到全局聚合过程中。
Multi-agent systems for chemical engineering: A review and perspective：大型语言模型（LLM）的多智能体系统（MAS）是一项新兴但发展迅速的技术，它具有通过将复杂的工作流程分解为具有专门知识和工具的协作智能体团队来改变化学工程的潜力。这篇综述调查了化学工程中 MAS 的最新技术。
Global Compression Commander: Plug-and-Play Inference Acceleration for High-Resolution Large Vision-Language Models：基于此，我们提出了“全局压缩指挥官”(GlobalCom2)，一种用于 HR-LVLM 的新型即插即用令牌压缩框架。GlobalCom2 利用缩略图作为“指挥官”来指导本地作物的压缩，自适应地保留信息丰富的细节，同时消除冗余。
Spotter+GPT: Turning Sign Spottings into Sentences with LLMs：本文介绍了一个轻量级的模块化 SLT 框架 Spotter+GPT，它利用了大型语言模型 (LLM) 的强大功能，避免了繁重的端到端训练。