GMPO算法：解决大语言模型训练不稳定性问题，提升推理能力

微软亚洲研究院提出GMPO算法，将算术平均奖励优化转变为几何平均优化，有效抑制了异常值对大语言模型训练的影响。相比传统GRPO方法，GMPO具有更稳定的策略更新、更高的奖励、减少过拟合风险和更强的探索能力。实验证明，GMPO在多项语言与多模态推理任务中表现出更优的稳定性和整体性能，为强化学习在大语言模型中的应用提供了更可靠的解决方案。

IT猫仔

1190人浏览 · 2025-09-11 19:35:47

IT猫仔 · 2025-09-11 19:35:47 发布

前排提示，文末有大模型AGI-CSDN独家资料包哦！

编者按：近年来，强化学习在推动大语言模型进步的过程中扮演着越来越关键的角色，尤其是在提升模型推理能力方面。然而，传统方法在训练过程中常因奖励异常值导致重要性采样比率剧烈波动，进而引发策略更新不稳定、泛化能力受限等问题。为此，微软亚洲研究院提出一种新型稳定化训练算法——几何平均策略优化（Geometric-Mean Policy Optimization, GMPO），通过将算术平均奖励优化转变为几何平均优化，GMPO 有效抑制了异常值的影响，使得大语言模型在多项语言与多模态推理任务中表现出更优的稳定性和整体性能。

此外，本篇论文也是微软亚洲研究院全新推出的视频栏目 《3x3论文开箱》 的首期内容。该栏目是以“3分钟、3个问题”的形式，快速分享前沿研究的核心创新与价值。欢迎点击下方观看**《3x3论文开箱》**第一期：GMPO。

本文转载自公众号“机器之心”。

近年来，强化学习（RL）在大语言模型（LLMs）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。然而，尽管它们在许多场景下都表现良好，仍然面临着在训练过程中不稳定的问题，尤其是在处理带有极端重要性加权奖励时。

微软亚洲研究院提出的几何平均策略优化（Geometric-Mean Policy Optimization，GMPO），作为 GRPO 的稳定化版本，可解决上述问题。本文将深入探讨 GMPO 的原理、优势，并通过理论分析和实验验证来展示其强大的效果。

Geometric-Mean Policy Optimization

论文链接：

https://arxiv.org/abs/2507.20673

开源代码：

https://github.com/callsys/GMPO

图1：GMPO 和 GRPO 的对比。GRPO 优化算数平均奖励、而 GMPO 优化几何平均奖励（左）。在训练过程中，GRPO 经常出现极端重要性采样比率，更新不稳定，而 GMPO 有更稳定的重要性采样比率，更新更加稳定（右）。

GRPO 面临的挑战

组相对策略优化（GRPO）是强化学习在大语言模型微调中的重要进展。GRPO 通过优化 token 级奖励的算术平均值来进行训练（忽略了剪切操作）：

然而算数平均对异常值十分敏感，在训练过程中容易产生极端的重要性采样比率（ps. 当前策略与旧策略分配给一个 token 的概率比）。在训练过程中，重要性采样比率（即当前策略与旧策略分配给一个标记的概率比）可能会大幅波动。这种波动导致策略更新不稳定。为了缓解这一问题，GRPO 引入了对重要性采样比率的剪切操作，但这种方法并未完全解决稳定性问题，并且还过度限制模型更新幅度使得模型探索能力变弱，进而影响了模型的泛化能力。

GMPO：GRPO 的稳定化版本

GMPO 通过优化几何平均来替代 GRPO 中的算术平均，解决了 GRPO 在训练过程中容易受到异常值影响的问题。几何平均本身对异常值更具鲁棒性，因为它会相对抑制极端值的影响，从而使训练过程更加稳定。GMPO 的训练目标可以表示为：

这种简单而有效的修改确保了 GMPO 在训练过程中能够更好地处理极端奖励，从而避免了 GRPO 中常见的不稳定情况。

通过将 PPO 中的 token 级裁切策略引入 GMPO，我们得到了 GMPO 的完整公式：

为了维持计算的稳定性，GMPO 中的连乘操作和裁切操作被放在 log 域执行。GMPO 的伪代码如下所示：

为了进一步理解为什么 GMPO 相比于 GRPO 更加稳定，我们推导并证明了 GMPO 在梯度层面上相对 GRPO 更加鲁棒：

可以看到，GRPO 每个 token 的梯度受到了它自身的重要性采样比率加权，容易受到极端值影响。GMPO 每个 token 的梯度则受到序列重要性采样比率的几何平均加权，不容易受到极端值影响。

图2：不同剪切范围和训练步骤下的重要性采样比率范围。范围越宽，表示策略更新越不稳定。与 GRPO（剪切范围为 (0.8, 1.2)）相比，GMPO 在剪切范围为 (e−0.4, e0.4) 的情况下表现出更大的稳定性。

除了算数平均向几何平均的变化，GMPO 还有两个关键设计：

在 token 级别进行裁切。不同于 DeepSeek-Math，在 DeepSeek-R1 中，GRPO 被定义在了序列级。序列级重要性采样比率等效于 token 级重要性采样比率的连乘，DeepSeek-R1 对序列级重要性采样比率进行了裁切。GMPO 没有跟随 DeepSeek-R1 进行序列级别裁切，而是继续跟随 DeepSeek-Math 进行 token 级裁切。原因如下：

（1）与序列级别的剪切相比，词元级别的剪切更加稳定。如图2所示，序列级别剪切（GMPO-seqclip-(e−0.4,e0.4)）的采样范围大于词元级别剪切（GMPO (e−0.4,e0.4)），因此在优化过程中更容易产生极端梯度。

（2）序列级别的剪切相比 token 级别的剪切过于激进。一旦触发，它会将整个序列中所有 token 的梯度置为零，可能会丢失来自序列中有价值部分的梯度信号。

更宽的裁切。正如 DAPO 所示，剪切操作可能限制探索并导致早期的确定性策略，从而妨碍扩展过程。为了在不牺牲稳定性的情况下促进探索，DAPO 采用了剪切上限策略，将剪切范围从 (0.8, 1.2) 轻微扩展至 (0.8, 1.28)。

如图1所示，我们可视化了 GRPO 和 GMPO 在每个训练步骤中的最大和最小重要性采样比率。关键观察结果如下：

（1）随着训练的进行，重要性采样比率的范围逐渐扩大，表明策略更新变得更为激进，稳定性降低。

（2）与 GRPO 相比，GMPO 保持了更稳定的采样比率范围，表明更新更加稳定。

（3）对于 GMPO，将剪切范围从 (e−0.2,e0.2) 扩展至 (−∞,+∞) 会增加策略更新的不稳定性。基于这些发现，我们通过将方程4中的剪切阈值 (ϵ1,ϵ2) 设置为 (e−0.4,e0.4) 来平衡训练稳定性与探索性。这个范围显著大于 GRPO 和 DAPO，能鼓励更大的探索，并提升性能。

GMPO 的优势

与 GRPO 相比，GMPO 在以下几个方面具有明显的优势：

更稳定的策略更新：GMPO 的梯度更新更加稳定。
更高的奖励：与 GRPO 相比，GMPO 在简单数据集 MATH Level 3-Level 5 上维持了相当的奖励。在更难的 DeepScaleR 和多模态数据集 Geometry3K 上有更高的奖励。
减少过拟合的风险：相对于 GRPO，GMPO 自然地维持了和 RL 前模型的 KL 散度。通过保持较小的 KL 散度，GMPO 减少了过拟合的风险，有助于模型在更复杂的任务中取得更好的表现。
更高的熵值：GMPO 在训练过程中能够保持更高的熵，支持更加持续的探索，避免了训练过程中的早期收敛。

实验验证：GMPO 与 GRPO 的对比

为了验证 GMPO 的有效性，我们在多个语言任务和多模态推理基准上进行了广泛的实验。实验结果表明，GMPO 在多个数据集上显著优于 GRPO，无论是在稳定性方面，还是在推理能力方面。

语言任务：在语言推理任务中，GMPO 在五个数学推理基准上进行了测试，这些基准包含不同难度的数学问题，包括 AIME24、AMC、MATH500、Minerva 和 OlympiadBench。实验结果显示：

多模态任务：在多模态推理任务中，GMPO 在 Geometry3K 基准上进行了测试，该任务涉及几何问题的解答。GMPO 相比 GRPO，在 Pass@1 准确率上提高了1.4%，这表明 GMPO 在多模态任务中的应用潜力。

结论

Geometric-Mean Policy Optimization（GMPO）通过优化标记级奖励的几何平均值，成功克服了 GRPO 在训练过程中面临的不稳定性问题。与传统的算术平均方法相比，GMPO 的策略更新更加稳定，探索能力更强，同时减少了过拟合的风险。通过广泛的理论分析和实验验证，GMPO 在语言任务和多模态推理任务中都取得了显著的优势。

GMPO 的提出为未来强化学习在大语言模型中的应用提供了一个更加可靠且可扩展的解决方案，为未来的研究奠定了坚实的基础。随着对 LLMs 推理能力的不断提升，GMPO 无疑将在推动更高效、更稳定的强化学习系统方面发挥重要作用。

读者福利：倘若大家对大模型感兴趣，那么这套大模型学习资料一定对你有用。

针对0基础小白：

如果你是零基础小白，快速入门大模型是可行的。
大模型学习流程较短，学习内容全面，需要理论与实践结合
学习计划和方向能根据资料进行归纳总结

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

请添加图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

这里我们能提供零基础学习书籍和视频。作为最快捷也是最有效的方式之一，跟着老师的思路，由浅入深，从理论到实操，其实大模型并不难。

在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

后端接入 AI Agent：Tool Calling 网关、幂等与审计日志实战

AI Agent技术社区

AI导出鸭惊了！DeepSeek代码手机导出保姆级实操，不看亏一套海景房

AI Agent技术社区

OpenClaw vs Hermes Agent：企业级执行 vs 自我进化，一文读懂怎么选！

AI Agent 开源双子星深度对比：OpenClaw（GitHub 26.4w⭐）主打工程化落地，四层记忆+20+渠道+13,700+技能，适合企业自动化；Hermes Agent（53天10w⭐）主打闭环学习，四级记忆+自动技能进化+3,200+社区技能，越用越聪明。两者可互补组合：OpenClaw 做稳定执行引擎，Hermes 做持续学习大脑。短期落地选 OpenClaw，长期陪伴选 Her