强化学习的进化：从 PPO 到 MaxRL，LLM 推理训练的算法演进史

📌 一句话摘要

本文系统梳理了用于 LLM 推理训练的强化学习算法从 PPO 到 GRPO、RLOO、DAPO、CISPO、MaxRL 等最新变体的演进历程，深入分析了各算法的核心思想、改进动机与关键差异。

📝 详细摘要

本文是一篇高质量的算法综述，系统回顾了 2024 至 2026 年间用于 LLM 推理训练的强化学习算法演进。文章从 REINFORCE 和 PPO 等基础算法讲起，详细介绍了 GRPO 如何通过移除价值模型降低内存占用，以及 RLOO、Dr. GRPO、DAPO、CISPO、MaxRL、DPPO、ScaleRL 等后续变体在信任域定义、损失聚合、优势估计、样本效率等方面的改进。文章不仅阐述了各算法的技术细节和数学公式，还总结了几个反复出现的模式：critic 模型不再是必需、标准差归一化可能产生副作用、损失聚合方式至关重要、信任域定义是优化切入点。最后，文章指出了当前领域的开放挑战，包括信用分配、样本效率、向数学和代码之外的领域拓展等。全文结构清晰，分析严谨，对技术从业者理解 LLM 后训练技术栈具有很高的参考价值。

💡 主要观点

- PPO 是 LLM 强化学习的第一代主导算法，但存在内存占用高、需要额外价值模型等局限。 PPO 通过裁剪重要性采样比例来近似信任域，但其完整形式需要驻留可训练策略、推演策略、参考策略和价值模型四个庞大组件，内存开销巨大。

GRPO 通过组内相对基线替代学习到的价值函数，大幅降低了内存占用，成为第二代算法的核心。 GRPO 对同一提示词下的多个回复进行组内归一化获得优势估计，移除了 critic 模型，使得面向推理模型的大规模强化学习更容易运行。

后续变体（Dr. GRPO、DAPO、CISPO 等）主要围绕损失聚合、信任域定义、优势估计等细节进行优化。 Dr. GRPO 修复了序列级损失归一化带来的长度偏置；DAPO 引入非对称裁剪和动态采样；CISPO 解耦裁剪与梯度流，保留信息量大的 token 的梯度；MaxRL 从最大似然视角重新定义目标函数。

当前领域面临信用分配、样本效率、泛化能力等根本性挑战，算法已不再是主要瓶颈。 现有方法本质上是将相同奖励分配给所有 token，效率低下；样本效率受限于每个提示词需要多个推演结果；向数学和代码之外的领域拓展仍是难题。

💬 文章金句

- PPO 本质上是一个带有信任域掩码、经过重要性加权的策略梯度方法。

GRPO 成功的更重要原因非常简单：它移除了 critic 模型。这大幅减少了内存占用，使得面向推理模型的大规模强化学习更容易运行。
缺乏可用的算法，已经不再是阻碍大语言模型强化学习发展的瓶颈所在。目前我们已经掌握了好几种优秀的算法。更为棘手的问题在于效率、鲁棒性以及泛化能力。
对于 LLM 训练而言，critic 模型似乎不再是必需项。
损失聚合绝非无关紧要的细节。

📊 文章信息

AI 初评：88

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：35 分钟

字数：8738

标签：强化学习, LLM 推理, PPO, GRPO, RLHF

阅读完整文章

强化学习的进化：从 PPO 到 MaxRL，LLM 推理训练的算法演进史

🤖 問 AI