ACL 2026 Findings | 浙大提出 GFT：On-Policy SFT 视角下的奖励微调

📌 一句话摘要

浙大团队提出 GFT 框架，从训练动力学角度将 SFT 改造为 on-policy 的奖励微调，通过组内优势学习和动态系数修正解决 SFT 单路径依赖和梯度不稳定问题。

📝 详细摘要

本文是浙大团队在 ACL 2026 Findings 上发表的工作 GFT 的技术解读。文章从训练动力学视角出发，指出标准 SFT 可被解释为一种退化的 RL，其核心缺陷在于奖励信号过于稀疏（只监督单条专家轨迹）和反概率权重导致的梯度不稳定。为解决这两个问题，GFT 提出了两个核心组件：Group Advantage Learning（GAL）将训练单元从单条专家答案扩展为包含专家示范、教师蒸馏和模型自生成样本的 response group，通过组内奖励标准化实现相对优势学习；Dynamic Coefficient Rectification（DCR）通过概率阈值机制抑制极端低概率 token 带来的梯度爆炸，同时保留正常 token 的学习效率。实验在数学推理场景下验证，GFT 在 11 个 benchmark 上以更少的 query 预算取得了显著提升，且能作为更好的 RL 初始化阶段，改善 SFT 到 RL 的交接。文章还讨论了 GFT 在灾难性遗忘缓解和输出多样性保持方面的优势。

💡 主要观点

- 标准 SFT 可被解释为一种退化的 RL，存在单路径依赖和梯度不稳定两个结构性缺陷。 从训练动力学视角，SFT 的梯度形式可改写为特殊的 RL 形式，其中奖励项只在采样等于专家答案时为 1，反概率权重在低概率 token 上会引发梯度爆炸，导致机械记忆和熵塌缩。

GFT 通过 Group Advantage Learning 将训练从单条专家答案扩展为 response group 内的相对比较。 每个 query 构造包含专家示范、教师蒸馏和模型自生成样本的候选组，通过组内奖励标准化计算 advantage，让模型学习哪些回答相对更好，而非盲目模仿单条轨迹。

Dynamic Coefficient Rectification 通过概率阈值机制稳定低概率 token 的更新。 只对极端低概率 token 做系数修正，抑制梯度爆炸，同时保留正常 token 的学习效率，在知识注入和优化稳定性之间取得平衡。

GFT 可作为更好的 RL 初始化阶段，改善 SFT 到 RL 的交接。 相比传统 SFT + GRPO，GFT + GRPO 能保留更多探索空间，提供更高质量和多样性的 rollout，SFT + GFT + GRPO 的 staged pipeline 可达到最高性能。

💬 文章金句

- SFT 可以被解释成一种非常特殊的 RL。这个视角揭示了 SFT 泛化性弱的两个来源：奖励项过于稀疏，导致学习信号只存在于一条专家轨迹上；反概率权重可能导致训练不稳定。

GFT 是把 SFT 从「单路径离线模仿」改造成「on-policy response group 上的奖励微调」的一种后训练范式。
GFT 保留了 SFT 的一个核心优点：高效知识注入。同时，它也引入了 RL/on-policy 学习的一个关键优点：不只学习别人给定的答案，也利用当前模型自己生成的候选轨迹，并基于奖励和相对优势进行选择。
问题不在于 SFT 和 RL 不能结合，而在于二者之间缺少一个能缓冲「模仿」与「探索」的中间阶段。

📊 文章信息

AI 初评：86

来源：青稞AI

作者：青稞AI

分类：人工智能

语言：中文

阅读时间：30 分钟

字数：7323

标签： GFT, SFT, 奖励微调, 后训练, 数学推理

阅读完整文章

ACL 2026 Findings | 浙大提出 GFT：On-Policy SFT 视角下的奖励微调

🤖 問 AI