从 P(y|x) 到 P(y)：将 RL 引入预训练空间，激发大模型内生推理

📌 一句话摘要

中科院自动化所等机构提出 PreRL 与 DSRL 方法，通过直接优化推理轨迹的边缘分布 P(y) 而非条件分布 P(y|x)，配合负样本强化，仅 20 步即可大幅激发大模型内生推理能力，并在多个数学推理基准上超越现有强基线。

📝 详细摘要

本文介绍了由中科院自动化所、新加坡国立大学和腾讯 AI Lab 联合提出的 PreRL（预训练空间强化学习）与 DSRL（双空间强化学习）方法。核心思想是：大模型经过预训练后已内化推理知识，因此可以直接对推理轨迹本身（即优化边缘分布 P(y)）进行奖励驱动优化，而非局限于给定问题的条件分布 P(y|x)。研究团队从理论和实验上验证了 P(y) 与 P(y|x) 梯度的高度对齐性。关键发现是，在去掉问题条件的预训练空间中，正样本强化（PSR）失效，而负样本强化（NSR）效果惊人：仅需 20 步即可将模型的过渡推理步骤增加 14.89 倍、反思步骤增加 6.54 倍。基于此，DSRL 采用 Policy Reincarnation 策略，先用 NSR-PreRL 进行预热，快速剪枝错误推理路径并激发内生推理，再切换到标准条件 RL（GRPO）进行精细化优化。实验表明，DSRL 在 MATH500、AMC23、AIME24/25 等多个数学推理基准上一致超越 GRPO、PPO 等强基线，并在 GPQA、MMLU-Pro 等分布外任务上展现出更强的泛化能力。

💡 主要观点

- 提出 PreRL 方法，直接优化推理轨迹的边缘分布 P(y) 而非条件分布 P(y|x)。 该方法认为模型已内化推理知识，通过移除问题条件，让奖励信号直接作用于推理轨迹本身，在更广阔的探索空间中重组推理模式。理论与实验验证了 P(y) 与 P(y|x) 梯度在高概率 token 上高度对齐。

负样本强化（NSR）在预训练空间中效果惊人，正样本强化（PSR）则失效。 NSR-PreRL 通过对负奖励样本施加负梯度，仅 20 步即可将过渡推理步骤提升 14.89 倍、反思步骤提升 6.54 倍，以更少步数剪枝错误推理路径。PSR 则因需要高质量分布外专家演示而无法从在线轨迹中有效学习。

DSRL 将 NSR-PreRL 预热与标准条件 RL 结合，实现更优的推理性能。 DSRL 采用 Policy Reincarnation 策略，先用 NSR-PreRL 快速消除基础错误模式并激发内生推理，再切换到 GRPO 进行精细化优化。在多个数学推理基准上一致超越 GRPO、PPO 等强基线，并展现出更强的分布外泛化能力。

💬 文章金句

- 现有大模型的推理强化学习，大多是在给定问题 context 的条件下做优化，也就是优化 P(y|x)。

PreRL 的做法不同：在更新时移除输入条件，直接优化边缘分布 P(y)，让奖励信号直接作用于 reasoning trajectory 本身。
负样本强化（NSR）展现出惊人的效果。NSR-PreRL 通过对奖励为负的样本施加负梯度，在预训练空间中快速剪枝错误推理路径，同时激发模型的内生推理能力。
DSRL 将 NSR-PreRL 预热阶段与标准条件 RL 通过 Policy Reincarnation 策略有机结合，在广泛的推理基准和 OOD 泛化任务中一致超越强基线。

📊 文章信息

AI 初评：88

来源：PaperWeekly

作者：PaperWeekly

分类：人工智能

语言：中文

阅读时间：15 分钟

字数：3685

标签： PreRL, DSRL, 强化学习, 大模型推理, 预训练空间

阅读完整文章

从 P(y|x) 到 P(y)：将 RL 引入预训练空间，激发大模型内生推理

🤖 問 AI