从传统 RL 的视角看大模型 RLVR

📌 一句话摘要

本文从传统强化学习（RL）的 Bellman 方程视角出发，剖析了当前大模型 RLVR 训练（如 GRPO）的本质差异，并介绍了旨在解决 off-policy 训练稳定性与 bias-variance 权衡问题的优化算法 VESPO。

📝 详细摘要

文章深入探讨了传统 RL 与大模型 RLVR 训练体系的本质区别。作者指出，传统 RL 根植于 Bellman 方程，依赖于 value estimation 与 policy improvement 的相辅相成；而基于 GRPO 的 LLM RL 更多表现为一种 Weighted SFT，侧重于 sequence-level 的优化。文章分析了在 sequence-level MDP 视角下，bias 和 variance 的权衡问题，并引出了作者团队提出的 VESPO 算法。VESPO 通过引入泛函优化，在 off-policy 设置下有效平衡了 bias 与 variance，为 LLM 训练稳定性提供了新的理论视角。

💡 主要观点

- 传统 RL 与 LLM RLVR 存在本质体系差异。 传统 RL 依赖于 Bellman 方程及 value estimation，而 GRPO 等 LLM RL 方法更接近 Weighted SFT，其核心在于 sequence-level 的优化，而非传统的 value-policy 迭代。

在 LLM RLVR 的 sequence-level MDP 建模中，variance 是比 bias 更严峻的问题。 随着 response 长度增加，variance 呈指数级爆炸，这使得在 sequence-level 视角下，如何有效控制方差成为训练稳定性的关键。

VESPO 算法通过泛函分析解决 off-policy 训练中的稳定性与权衡问题。 VESPO 通过引入非线性函数泛函，在目标函数中显式考虑 bias 和 variance 约束，并引入超参以在两者间寻找平衡，优化了 sequence-level 的训练目标。

💬 文章金句

- 所有传统 RL 算法优化的根基都是 Bellman 方程（包括 reinforce 和 PPO），而 LLM RLVR 中基于 GRPO 的算法是另一个体系的东西。

如果彻底放弃通过 policy gradient theorem 来理解 GRPO，而是从 weighted SFT 的角度来分析公式中 weight 到底是否合理，这一定程度上能解释为什么像 SAPO、LUFFY 这种已经不再符合原教旨主义 policy gradient theorem 的工作，in practice 实验效果也还不错。
在 VESPO 中的方案：列一个关于非线性函数的泛函，在这个泛函中把 bias 和 variance 的约束都考虑进去，看看推出来的函数长什么样。

📊 文章信息

AI 评分：88

来源：青稞AI

作者：青稞AI

分类：人工智能

语言：中文

阅读时间：11 分钟

字数：2549

标签： LLM, RLVR, GRPO, Reinforcement Learning, VESPO

阅读完整文章

从传统 RL 的视角看大模型 RLVR

🤖 問 AI