本文从传统强化学习(RL)的 Bellman 方程视角出发,剖析了当前大模型 RLVR 训练(如 GRPO)的本质差异,并介绍了旨在解决 off-policy 训练稳定性与 bias-variance 权衡问题的优化算法 VESPO。
📝 详细摘要
文章深入探讨了传统 RL 与大模型 RLVR 训练体系的本质区别。作者指出,传统 RL 根植于 Bellman 方程,依赖于 value estimation 与 policy improvement 的相辅相成;而基于 GRPO 的 LLM RL 更多表现为一种 Weighted SFT,侧重于 sequence-level 的优化。文章分析了在 sequence-level MDP 视角下,bias 和 variance 的权衡问题,并引出了作者团队提出的 VESPO 算法。VESPO 通过引入泛函优化,在 off-policy 设置下有效平衡了 bias 与 variance,为 LLM 训练稳定性提供了新的理论视角。
💡 主要观点
- 传统 RL 与 LLM RLVR 存在本质体系差异。 传统 RL 依赖于 Bellman 方程及 value estimation,而 GRPO 等 LLM RL 方法更接近 Weighted SFT,其核心在于 sequence-level 的优化,而非传统的 value-policy 迭代。
💬 文章金句
- 所有传统 RL 算法优化的根基都是 Bellman 方程(包括 reinforce 和 PPO),而 LLM RLVR 中基于 GRPO 的算法是另一个体系的东西。
- 如果彻底放弃通过 policy gradient theorem 来理解 GRPO,而是从 weighted SFT 的角度来分析公式中 weight 到底是否合理,这一定程度上能解释为什么像 SAPO、LUFFY 这种已经不再符合原教旨主义 policy gradient theorem 的工作,in practice 实验效果也还不错。
- 在 VESPO 中的方案:列一个关于非线性函数的泛函,在这个泛函中把 bias 和 variance 的约束都考虑进去,看看推出来的函数长什么样。
📊 文章信息
AI 评分:88
来源:青稞AI
作者:青稞AI
分类:人工智能
语言:中文
阅读时间:11 分钟
字数:2549
标签: LLM, RLVR, GRPO, Reinforcement Learning, VESPO