用强化学习做知识蒸馏，方差太大怎么办？

📌 一句话摘要

本文介绍了 KETCHUP 方法，一种通过 K-step return 和 teacher 模型 Q-value 来构造 baseline，从而有效降低 RL-based 知识蒸馏中 REINFORCE 算法高方差问题的技术方案。

📝 详细摘要

文章聚焦于强化学习用于知识蒸馏时 REINFORCE 算法梯度方差过大的经典难题。作者团队提出了一种名为 KETCHUP 的创新方法，其核心思想是将长序列生成轨迹切分为 K 步的块，并利用 teacher 模型的 Q-value 函数直接为每个块计算一个“打包价”作为回报，而非逐步累加单步奖励。文章从理论层面推导了该方法如何通过 Bellman 最优方程的展开实现方差缩减，并分析了其引入的偏差与方差之间的权衡。实验在摘要生成、机器翻译和数学推理三个任务上验证了 KETCHUP 的有效性，相比基线方法（LLMR）在多个指标上均有提升，且训练曲线更平滑稳定。文章最后讨论了文本生成 RL 的特殊性以及充分利用 teacher 模型结构信息的重要性。

💡 主要观点

- REINFORCE 在文本生成的知识蒸馏中面临高方差挑战。 文本生成的 action space（词表）巨大且序列长，导致 Monte Carlo 采样的回报方差极高，训练不稳定，这是 RL-based KD 的一个核心痛点。

KETCHUP 方法通过 K-step return 和 teacher Q-value 构造 baseline 来降低方差。 将轨迹分段，利用 teacher 的 Q-value 直接计算每个 K 步块的总回报，减少了求和项数量，从而在理论上将方差降低约 K 倍，且该 baseline 源自模型结构，无需额外训练 critic。

方法在偏差-方差权衡中取得了有利平衡。 方差降低的代价是引入了近似偏差，但该偏差会随着 student 模型性能提升而减小。实验表明，适度的 K 值（如 2）能在显著降低方差的同时控制偏差，实现整体性能提升。

充分利用 teacher 模型的结构信息是 KD 场景下的独特优势。 在知识蒸馏框架下，teacher 的 logits 可视为一个现成的 Q-value 函数，KETCHUP 利用这一“免费”信息构造 baseline，避免了传统 batch-based baseline 在大动作空间下代表性不足的问题。

💬 文章金句

- REINFORCE 本身就是出了名的高方差。它用 Monte Carlo 采样来估计梯度，而文本生成的 action space 是整个词表（几万甚至十几万 tokens），序列长度又不短，导致不同采样轨迹之间的 return 差异巨大。

那能不能不逐步累加，而是把长序列切成若干段，每段直接用 teacher 给一个‘打包价’？
KETCHUP 本质上可以被理解为一种 REINFORCE-with-baseline 的变体。和传统 baseline 不同的是：我们的 baseline 是从 teacher 的 Q-value 结构中推导出来的，而不是从采样数据中估计的。
天下没有免费的午餐。方差降低的代价是引入了一定的 bias：因为 telescoping 的精确性依赖于 student 走最优路径这一假设，而 student 并不完全是最优的。
文本生成的 RL 和传统 RL 的差异很大。但文本生成的 action space 是整个词表，state 是变长的 token 序列，这使得很多经典方法失效。需要结合文本生成本身的结构来设计方法。

📊 文章信息

AI 初评：88

来源：青稞AI

作者：青稞AI

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3217

标签：强化学习, 知识蒸馏, 方差缩减, REINFORCE, KETCHUP

阅读完整文章

用强化学习做知识蒸馏，方差太大怎么办？

🤖 問 AI