← 回總覽

从 P(y|x) 到 P(y):将 RL 引入预训练空间,激发大模型内生推理

📅 2026-05-18 12:36 PaperWeekly 人工智能 2 分鐘 1800 字 評分: 88
PreRL DSRL 强化学习 大模型推理 预训练空间
📌 一句话摘要 中科院自动化所等机构提出 PreRL 与 DSRL 方法,通过直接优化推理轨迹的边缘分布 P(y) 而非条件分布 P(y|x),配合负样本强化,仅 20 步即可大幅激发大模型内生推理能力,并在多个数学推理基准上超越现有强基线。 📝 详细摘要 本文介绍了由中科院自动化所、新加坡国立大学和腾讯 AI Lab 联合提出的 PreRL(预训练空间强化学习)与 DSRL(双空间强化学习)方法。核心思想是:大模型经过预训练后已内化推理知识,因此可以直接对推理轨迹本身(即优化边缘分布 P(y))进行奖励驱动优化,而非局限于给定问题的条件分布 P(y|x)。研究团队从理论和实验上验证了 P

📌 一句话摘要

中科院自动化所等机构提出 PreRL 与 DSRL 方法,通过直接优化推理轨迹的边缘分布 P(y) 而非条件分布 P(y|x),配合负样本强化,仅 20 步即可大幅激发大模型内生推理能力,并在多个数学推理基准上超越现有强基线。

📝 详细摘要

本文介绍了由中科院自动化所、新加坡国立大学和腾讯 AI Lab 联合提出的 PreRL(预训练空间强化学习)与 DSRL(双空间强化学习)方法。核心思想是:大模型经过预训练后已内化推理知识,因此可以直接对推理轨迹本身(即优化边缘分布 P(y))进行奖励驱动优化,而非局限于给定问题的条件分布 P(y|x)。研究团队从理论和实验上验证了 P(y) 与 P(y|x) 梯度的高度对齐性。关键发现是,在去掉问题条件的预训练空间中,正样本强化(PSR)失效,而负样本强化(NSR)效果惊人:仅需 20 步即可将模型的过渡推理步骤增加 14.89 倍、反思步骤增加 6.54 倍。基于此,DSRL 采用 Policy Reincarnation 策略,先用 NSR-PreRL 进行预热,快速剪枝错误推理路径并激发内生推理,再切换到标准条件 RL(GRPO)进行精细化优化。实验表明,DSRL 在 MATH500、AMC23、AIME24/25 等多个数学推理基准上一致超越 GRPO、PPO 等强基线,并在 GPQA、MMLU-Pro 等分布外任务上展现出更强的泛化能力。

💡 主要观点

- 提出 PreRL 方法,直接优化推理轨迹的边缘分布 P(y) 而非条件分布 P(y|x)。 该方法认为模型已内化推理知识,通过移除问题条件,让奖励信号直接作用于推理轨迹本身,在更广阔的探索空间中重组推理模式。理论与实验验证了 P(y) 与 P(y|x) 梯度在高概率 token 上高度对齐。

负样本强化(NSR)在预训练空间中效果惊人,正样本强化(PSR)则失效。 NSR-PreRL 通过对负奖励样本施加负梯度,仅 20 步即可将过渡推理步骤提升 14.89 倍、反思步骤提升 6.54 倍,以更少步数剪枝错误推理路径。PSR 则因需要高质量分布外专家演示而无法从在线轨迹中有效学习。
DSRL 将 NSR-PreRL 预热与标准条件 RL 结合,实现更优的推理性能。 DSRL 采用 Policy Reincarnation 策略,先用 NSR-PreRL 快速消除基础错误模式并激发内生推理,再切换到 GRPO 进行精细化优化。在多个数学推理基准上一致超越 GRPO、PPO 等强基线,并展现出更强的分布外泛化能力。

💬 文章金句

- 现有大模型的推理强化学习,大多是在给定问题 context 的条件下做优化,也就是优化 P(y|x)。

  • PreRL 的做法不同:在更新时移除输入条件,直接优化边缘分布 P(y),让奖励信号直接作用于 reasoning trajectory 本身。
  • 负样本强化(NSR)展现出惊人的效果。NSR-PreRL 通过对奖励为负的样本施加负梯度,在预训练空间中快速剪枝错误推理路径,同时激发模型的内生推理能力。
  • DSRL 将 NSR-PreRL 预热阶段与标准条件 RL 通过 Policy Reincarnation 策略有机结合,在广泛的推理基准和 OOD 泛化任务中一致超越强基线。

📊 文章信息

AI 初评:88

来源:PaperWeekly

作者:PaperWeekly

分类:人工智能

语言:中文

阅读时间:15 分钟

字数:3685

标签: PreRL, DSRL, 强化学习, 大模型推理, 预训练空间

阅读完整文章

查看原文 → 發佈: 2026-05-18 12:36:00 收錄: 2026-05-19 00:00:48

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。