浙大团队提出 GFT 框架,从训练动力学角度将 SFT 改造为 on-policy 的奖励微调,通过组内优势学习和动态系数修正解决 SFT 单路径依赖和梯度不稳定问题。
📝 详细摘要
本文是浙大团队在 ACL 2026 Findings 上发表的工作 GFT 的技术解读。文章从训练动力学视角出发,指出标准 SFT 可被解释为一种退化的 RL,其核心缺陷在于奖励信号过于稀疏(只监督单条专家轨迹)和反概率权重导致的梯度不稳定。为解决这两个问题,GFT 提出了两个核心组件:Group Advantage Learning(GAL)将训练单元从单条专家答案扩展为包含专家示范、教师蒸馏和模型自生成样本的 response group,通过组内奖励标准化实现相对优势学习;Dynamic Coefficient Rectification(DCR)通过概率阈值机制抑制极端低概率 token 带来的梯度爆炸,同时保留正常 token 的学习效率。实验在数学推理场景下验证,GFT 在 11 个 benchmark 上以更少的 query 预算取得了显著提升,且能作为更好的 RL 初始化阶段,改善 SFT 到 RL 的交接。文章还讨论了 GFT 在灾难性遗忘缓解和输出多样性保持方面的优势。
💡 主要观点
- 标准 SFT 可被解释为一种退化的 RL,存在单路径依赖和梯度不稳定两个结构性缺陷。 从训练动力学视角,SFT 的梯度形式可改写为特殊的 RL 形式,其中奖励项只在采样等于专家答案时为 1,反概率权重在低概率 token 上会引发梯度爆炸,导致机械记忆和熵塌缩。
💬 文章金句
- SFT 可以被解释成一种非常特殊的 RL。这个视角揭示了 SFT 泛化性弱的两个来源:奖励项过于稀疏,导致学习信号只存在于一条专家轨迹上;反概率权重可能导致训练不稳定。
- GFT 是把 SFT 从「单路径离线模仿」改造成「on-policy response group 上的奖励微调」的一种后训练范式。
- GFT 保留了 SFT 的一个核心优点:高效知识注入。同时,它也引入了 RL/on-policy 学习的一个关键优点:不只学习别人给定的答案,也利用当前模型自己生成的候选轨迹,并基于奖励和相对优势进行选择。
- 问题不在于 SFT 和 RL 不能结合,而在于二者之间缺少一个能缓冲「模仿」与「探索」的中间阶段。
📊 文章信息
AI 初评:86
来源:青稞AI
作者:青稞AI
分类:人工智能
语言:中文
阅读时间:30 分钟
字数:7323
标签: GFT, SFT, 奖励微调, 后训练, 数学推理