本文系统梳理了用于 LLM 推理训练的强化学习算法从 PPO 到 GRPO、RLOO、DAPO、CISPO、MaxRL 等最新变体的演进历程,深入分析了各算法的核心思想、改进动机与关键差异。
📝 详细摘要
本文是一篇高质量的算法综述,系统回顾了 2024 至 2026 年间用于 LLM 推理训练的强化学习算法演进。文章从 REINFORCE 和 PPO 等基础算法讲起,详细介绍了 GRPO 如何通过移除价值模型降低内存占用,以及 RLOO、Dr. GRPO、DAPO、CISPO、MaxRL、DPPO、ScaleRL 等后续变体在信任域定义、损失聚合、优势估计、样本效率等方面的改进。文章不仅阐述了各算法的技术细节和数学公式,还总结了几个反复出现的模式:critic 模型不再是必需、标准差归一化可能产生副作用、损失聚合方式至关重要、信任域定义是优化切入点。最后,文章指出了当前领域的开放挑战,包括信用分配、样本效率、向数学和代码之外的领域拓展等。全文结构清晰,分析严谨,对技术从业者理解 LLM 后训练技术栈具有很高的参考价值。
💡 主要观点
- PPO 是 LLM 强化学习的第一代主导算法,但存在内存占用高、需要额外价值模型等局限。 PPO 通过裁剪重要性采样比例来近似信任域,但其完整形式需要驻留可训练策略、推演策略、参考策略和价值模型四个庞大组件,内存开销巨大。
💬 文章金句
- PPO 本质上是一个带有信任域掩码、经过重要性加权的策略梯度方法。
- GRPO 成功的更重要原因非常简单:它移除了 critic 模型。这大幅减少了内存占用,使得面向推理模型的大规模强化学习更容易运行。
- 缺乏可用的算法,已经不再是阻碍大语言模型强化学习发展的瓶颈所在。目前我们已经掌握了好几种优秀的算法。更为棘手的问题在于效率、鲁棒性以及泛化能力。
- 对于 LLM 训练而言,critic 模型似乎不再是必需项。
- 损失聚合绝非无关紧要的细节。
📊 文章信息
AI 初评:88
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:35 分钟
字数:8738
标签: 强化学习, LLM 推理, PPO, GRPO, RLHF