一篇多模态大模型推理技术最新综述

尽管多模态大型语言模型（Multimodal Large Language Models, **MLLMs**）显著扩展了LLMs以处理视觉、音频和视频等多种模态，但在多模态输入之间**实现稳健的推理**仍然是一个重大挑战。**华东师大&字节跳动**系统回顾了**基于强化学习的MLLMs推理**的最新进展，涵盖了关键的算法设计、奖励机制创新以及实际应用。

大靠山

2045人浏览 · 2025-05-29 19:32:04

大靠山 · 2025-05-29 19:32:04 发布

尽管多模态大型语言模型（Multimodal Large Language Models, MLLMs）显著扩展了LLMs以处理视觉、音频和视频等多种模态，但在多模态输入之间实现稳健的推理仍然是一个重大挑战。华东师大&字节跳动系统回顾了基于强化学习的MLLMs推理的最新进展，涵盖了关键的算法设计、奖励机制创新以及实际应用。

一、MLLMs&RL基础

MLLMs与MM-CoT

多模态大型语言模型（MLLMs）：将大型语言模型（LLMs）与其他模态（如视觉、音频和视频）的模型结合，以处理多种模态的数据。MLLMs通过将LLMs作为核心认知引擎，并利用其他模态的基础模型提供高质量的非文本数据表示，从而扩展了LLMs的能力。
多模态链式推理（MM-CoT）：在多模态推理任务中，模型生成中间推理步骤（链式推理），这些步骤可以仅依赖于文本信息，也可以整合多模态信号。MM-CoT的目标是通过逐步推理解决复杂问题，同时在推理过程中融入多模态信息。

强化学习（RL）

策略优化方法：
- 近端策略优化（PPO）：通过最大化代理目标来优化LLMs，同时引入裁剪机制以稳定训练。PPO需要同时训练策略模型和价值模型，这在模型参数或标记数量较大时会带来显著的计算需求。
- REINFORCE留一法（RLOO）：省略了价值模型和GAE的使用，直接利用蒙特卡洛方法计算基线，通过留一法减少策略梯度估计的方差。
- 组相对策略优化（GRPO）：通过直接比较生成的响应组来优化模型，省略了价值模型，通过相对奖励来评估响应的质量，减少了对硬件资源的需求。
奖励机制：
- 结果导向奖励机制（ORM）：仅根据最终输出的正确性来评估模型，奖励信号稀疏且延迟，难以解决长期信用分配问题。
- 过程导向奖励机制（PRM）：强调模型在推理过程中的中间行为，提供更细粒度的监督，但设计过程奖励依赖于对中间推理步骤的准确评估，具有挑战性。
训练效率：
- 课程强化学习：通过逐步引入任务，帮助模型逐步积累知识，提高在复杂任务上的收敛速度和性能。
- 数据高效学习：通过优先采样和选择高质量样本，提高样本效率，减少不必要的计算开销。

二、关键设计与优化：RL在LLMs/MLLMs中应用

深入探讨了强化学习（RL）算法在大型语言模型（LLMs）和多模态大型语言模型（MLLMs）中的关键设计和优化策略：无价值方法（value-free）和基于价值的方法（value-based）。

2.1 Value-Free 方法

无价值方法通过直接优化策略，而无需计算价值函数，从而简化了训练过程并提高了计算效率。这些方法在处理长推理链（long-CoT）任务时表现出色，但可能会遇到熵崩溃（entropy collapse）和奖励噪声（reward noise）等问题：

GRPO（Group Relative Policy Optimization）：
- 核心思想：通过比较生成的响应组来优化模型，避免了复杂的价值模型训练。
- 挑战：熵崩溃和奖励噪声，可能导致模型生成低质量的输出。
- 优化策略：引入动态采样机制，避免梯度信号消失；采用token-level策略梯度损失，确保长序列中的每个token都能公平地贡献梯度。
DAPO（Dynamic Asymmetric Policy Optimization）：
- 不对称裁剪策略：通过解耦裁剪上下界，增强低概率token的探索能力。
- 动态采样：过滤掉准确率为0或1的样本，确保每个批次中都有有效的梯度信号。
- token-level策略梯度损失：确保长序列中的每个token都能公平地贡献梯度。
- 过长奖励塑形：通过逐步增加长度依赖的惩罚，减少奖励噪声，稳定训练过程。
- 核心思想：在GRPO的基础上，引入不对称裁剪策略、动态采样机制、token-level策略梯度损失和过长奖励塑形（overlong reward shaping）。
- 优化策略：
Dr.GRPO（Debiased Group Relative Policy Optimization）：
- 消除长度归一化：避免模型偏好生成更长的错误响应。
- 消除标准差归一化：确保不同难度的问题在优化过程中被平等对待。
- 核心思想：通过消除GRPO中的长度偏差和问题难度偏差，提高模型的公平性和稳定性。
- 优化策略：
CPPO（Completion Pruning Policy Optimization）：
- 剪枝策略：仅保留具有最高绝对优势值的top-k完成项，减少冗余计算。
- 动态完成分配策略：结合剩余剪枝的完成项和新查询的高质量完成项，充分利用GPU的并行计算能力。
- 核心思想：通过剪枝策略减少计算开销，同时保持或提高模型性能。
- 优化策略：

3.2 Value-Based方法

基于价值的方法通过精确的逐步信用分配来优化策略，适合处理复杂推理任务。这些方法在长推理链任务中面临挑战，但通过创新的优化技术，可以提高训练的稳定性和性能：

PPO（Proximal Policy Optimization）：
- Open-Reasoner-Zero：通过简单的规则化奖励函数和大量的训练数据，显著提高了响应长度和基准性能。
- VC-PPO：通过值初始化偏差和解耦GAE（Decoupled-GAE）来优化PPO，减少训练过程中的方差。
- 核心思想：通过最大化代理目标来优化策略，同时引入裁剪机制以稳定训练。
- 挑战：在长推理链任务中，PPO可能会遇到训练不稳定和性能下降的问题。
- 优化策略：
VC-PPO（Value Corrected PPO）：
- 值预训练：通过离线训练价值模型，确保其能够准确估计预期回报。
- 解耦GAE：通过为策略和价值优化分别设置不同的𝜀值，独立优化偏差-方差权衡。
- 核心思想：通过值预训练和解耦GAE来优化PPO，减少训练过程中的方差。
- 优化策略：

三、RL的多模态大模型推理

系统回顾了基于强化学习（RL）的多模态大型语言模型（MLLMs）推理的最新进展，涵盖了关键的算法设计、奖励机制创新以及实际应用。

3.1 从LLMs到MLLMs的RL训练范式

标准化R1训练范式：
- Kimi K1.5：通过在线策略镜像下降（OPMD）算法，将强化学习应用于MLLMs，增强了其在多模态领域的推理能力。
- DeepSeek R1：通过验证性奖励机制（Verifiable Reward Mechanism, VRM），展示了如何通过简单的规则化激励机制和轻量级的RL算法，使LLMs能够自主发展复杂的推理能力。
- ORM（Outcome Reward Mechanism）：基于最终输出的正确性来评估模型，适用于数学问题解决和代码生成等任务，但存在奖励信号稀疏和延迟的问题。
- PRM（Process Reward Mechanism）：通过评估推理过程中的中间步骤来提供更细粒度的监督，有助于提高模型的逻辑一致性和可解释性。
MLLMs中的R1训练范式：
- MedVLM-R1：将DeepSeek R1的训练范式扩展到医学领域的视觉问答任务中，通过显式的推理路径提高预测准确性和泛化能力。
- Vision-R1：通过逐步推理抑制训练（PTST）策略，逐步扩展推理链的长度，同时分离格式和准确性奖励，缓解了过思考的问题。
- LMM-R1：采用两阶段训练策略，先在纯文本数据上进行RL训练，再扩展到图像-文本数据，以提高模型在视觉感知和其他多模态任务中的泛化能力。

3.2 多模态感知中的奖励机制设计

结果导向奖励机制（ORM）：
- 任务导向奖励策略：根据任务的内在属性设计奖励，如图像分类任务使用标签匹配作为奖励信号，目标检测任务优化IoU（交并比）。
- 跨模态交互奖励策略：通过联合评估不同模态的输出来促进更积极的跨模态交互，例如UI-R1通过评估预测的动作类型、参数选择和输出格式的有效性来建立模态之间的对齐反馈。
过程导向奖励机制（PRM）：
- 结构化奖励框架：通过引入结构化奖励，如逻辑一致性、信息完整性和引用可靠性，来提高模型的可解释性和用户信任度。
- R1-VL：通过StepGRPO框架，引入StepRAR（关键中间推理步骤评估）和StepRVR（推理链逻辑连贯性评估）两个结构化奖励组件，显著提高了模型在复杂任务中的逻辑一致性。

3.3 训练效率与稳定性

课程学习：
- Kimi K1.5：通过课程采样逐步训练模型，从简单任务到复杂任务，同时结合优先采样，优化学习过程。
- Curr-ReFT：将训练分为三个阶段：二元分类、多项选择和开放式问答，每个阶段都由特定任务的奖励函数引导，逐步发展模型的推理能力。
样本效率：
- Reason-RFT：通过GPT-4o过滤低质量或错误样本，重构高质量数据集，确保数据质量和适用性。
- Skywork R1V：通过自适应长度链式推理蒸馏和混合优化框架，动态调整推理链长度，减少对大规模标注数据的依赖。
灾难性遗忘：
- Curr-ReFT：通过拒绝样本的自我改进机制，选择性地从高质量的多模态和文本示例中学习，以保持MLLMs的基本能力，缓解灾难性遗忘问题。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

后端接入 AI Agent：Tool Calling 网关、幂等与审计日志实战

AI Agent技术社区

AI导出鸭惊了！DeepSeek代码手机导出保姆级实操，不看亏一套海景房

AI Agent技术社区

OpenClaw vs Hermes Agent：企业级执行 vs 自我进化，一文读懂怎么选！

AI Agent 开源双子星深度对比：OpenClaw（GitHub 26.4w⭐）主打工程化落地，四层记忆+20+渠道+13,700+技能，适合企业自动化；Hermes Agent（53天10w⭐）主打闭环学习，四级记忆+自动技能进化+3,200+社区技能，越用越聪明。两者可互补组合：OpenClaw 做稳定执行引擎，Hermes 做持续学习大脑。短期落地选 OpenClaw，长期陪伴选 Her