← 回總覽

强化学习的进化:从 PPO 到 MaxRL,LLM 推理训练的算法演进史

📅 2026-05-01 13:01 机器之心 人工智能 2 分鐘 1618 字 評分: 88
强化学习 LLM 推理 PPO GRPO RLHF
📌 一句话摘要 本文系统梳理了用于 LLM 推理训练的强化学习算法从 PPO 到 GRPO、RLOO、DAPO、CISPO、MaxRL 等最新变体的演进历程,深入分析了各算法的核心思想、改进动机与关键差异。 📝 详细摘要 本文是一篇高质量的算法综述,系统回顾了 2024 至 2026 年间用于 LLM 推理训练的强化学习算法演进。文章从 REINFORCE 和 PPO 等基础算法讲起,详细介绍了 GRPO 如何通过移除价值模型降低内存占用,以及 RLOO、Dr. GRPO、DAPO、CISPO、MaxRL、DPPO、ScaleRL 等后续变体在信任域定义、损失聚合、优势估计、样本效率等方面

📌 一句话摘要

本文系统梳理了用于 LLM 推理训练的强化学习算法从 PPO 到 GRPO、RLOO、DAPO、CISPO、MaxRL 等最新变体的演进历程,深入分析了各算法的核心思想、改进动机与关键差异。

📝 详细摘要

本文是一篇高质量的算法综述,系统回顾了 2024 至 2026 年间用于 LLM 推理训练的强化学习算法演进。文章从 REINFORCE 和 PPO 等基础算法讲起,详细介绍了 GRPO 如何通过移除价值模型降低内存占用,以及 RLOO、Dr. GRPO、DAPO、CISPO、MaxRL、DPPO、ScaleRL 等后续变体在信任域定义、损失聚合、优势估计、样本效率等方面的改进。文章不仅阐述了各算法的技术细节和数学公式,还总结了几个反复出现的模式:critic 模型不再是必需、标准差归一化可能产生副作用、损失聚合方式至关重要、信任域定义是优化切入点。最后,文章指出了当前领域的开放挑战,包括信用分配、样本效率、向数学和代码之外的领域拓展等。全文结构清晰,分析严谨,对技术从业者理解 LLM 后训练技术栈具有很高的参考价值。

💡 主要观点

- PPO 是 LLM 强化学习的第一代主导算法,但存在内存占用高、需要额外价值模型等局限。 PPO 通过裁剪重要性采样比例来近似信任域,但其完整形式需要驻留可训练策略、推演策略、参考策略和价值模型四个庞大组件,内存开销巨大。

GRPO 通过组内相对基线替代学习到的价值函数,大幅降低了内存占用,成为第二代算法的核心。 GRPO 对同一提示词下的多个回复进行组内归一化获得优势估计,移除了 critic 模型,使得面向推理模型的大规模强化学习更容易运行。
后续变体(Dr. GRPO、DAPO、CISPO 等)主要围绕损失聚合、信任域定义、优势估计等细节进行优化。 Dr. GRPO 修复了序列级损失归一化带来的长度偏置;DAPO 引入非对称裁剪和动态采样;CISPO 解耦裁剪与梯度流,保留信息量大的 token 的梯度;MaxRL 从最大似然视角重新定义目标函数。
当前领域面临信用分配、样本效率、泛化能力等根本性挑战,算法已不再是主要瓶颈。 现有方法本质上是将相同奖励分配给所有 token,效率低下;样本效率受限于每个提示词需要多个推演结果;向数学和代码之外的领域拓展仍是难题。

💬 文章金句

- PPO 本质上是一个带有信任域掩码、经过重要性加权的策略梯度方法。

  • GRPO 成功的更重要原因非常简单:它移除了 critic 模型。这大幅减少了内存占用,使得面向推理模型的大规模强化学习更容易运行。
  • 缺乏可用的算法,已经不再是阻碍大语言模型强化学习发展的瓶颈所在。目前我们已经掌握了好几种优秀的算法。更为棘手的问题在于效率、鲁棒性以及泛化能力。
  • 对于 LLM 训练而言,critic 模型似乎不再是必需项。
  • 损失聚合绝非无关紧要的细节。

📊 文章信息

AI 初评:88

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:35 分钟

字数:8738

标签: 强化学习, LLM 推理, PPO, GRPO, RLHF

阅读完整文章

查看原文 → 發佈: 2026-05-01 13:01:00 收錄: 2026-05-01 20:00:33

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。