← 回總覽

无惧 Off-Policy 偏移!Bengio 团队解绑后训练,大模型 RL 提速 50 倍

📅 2026-05-12 17:07 PaperWeekly 人工智能 2 分鐘 1606 字 評分: 88
TBA RL 后训练 Off-Policy GFlowNet 异步训练
📌 一句话摘要 Bengio 团队提出 TBA 异步框架,通过解耦采样与训练并引入轨迹平衡目标,使大模型 RL 后训练最高提速 50 倍,同时保持或提升性能。 📝 详细摘要 本文解读了 Bengio 团队在 NeurIPS 2025 提出的 TBA(Trajectory Balance with Asynchrony)框架,旨在解决大模型 RL 后训练中 rollout 慢、算力利用率低、数据难以复用的核心瓶颈。TBA 将计算节点分为 Searcher 和 Trainer,Searcher 负责异步生成轨迹并存入 replay buffer,Trainer 则从中采样更新模型。为处理异步产

📌 一句话摘要

Bengio 团队提出 TBA 异步框架,通过解耦采样与训练并引入轨迹平衡目标,使大模型 RL 后训练最高提速 50 倍,同时保持或提升性能。

📝 详细摘要

本文解读了 Bengio 团队在 NeurIPS 2025 提出的 TBA(Trajectory Balance with Asynchrony)框架,旨在解决大模型 RL 后训练中 rollout 慢、算力利用率低、数据难以复用的核心瓶颈。TBA 将计算节点分为 Searcher 和 Trainer,Searcher 负责异步生成轨迹并存入 replay buffer,Trainer 则从中采样更新模型。为处理异步产生的 off-policy 数据,TBA 引入源自 GFlowNet 的轨迹平衡目标,无需复杂的重要性采样修正。文章详细介绍了 TBA 的架构、动态采样调控策略,并在数学推理、偏好微调、自动红队三个任务上展示了其显著的速度优势(最高 50 倍)和性能提升。实验还验证了该方法在 7B 模型和高度 off-policy 场景下的稳定性。

💡 主要观点

- TBA 通过异步架构解耦采样与训练,解决后训练效率瓶颈。 将集群节点分为 Searcher(采样)和 Trainer(训练),Searcher 异步生成轨迹存入 replay buffer,Trainer 持续从中采样更新,避免训练等待 rollout,大幅提升算力利用率。

引入轨迹平衡目标,有效处理异步产生的 off-policy 数据。 TBA 采用源自 GFlowNet 的 VarGrad TB 损失,其 off-policy 性质允许使用旧轨迹进行训练,无需复杂且易失效的重要性采样修正,在异步环境中展现出远超传统方法的鲁棒性。
TBA 在多个任务上实现显著加速,最高达 50 倍。 在数学推理(GSM8K)、偏好微调(TL;DR)和自动红队任务中,TBA 在保持或提升性能的同时,训练速度分别比基线快 50 倍、3.8-5.3 倍和 7 倍。
动态采样调控策略平衡数据新鲜度与探索多样性。 TBA 设计混合采样方案,以概率 m 优先采样最新数据保证稳定性,以 1-m 概率混合奖励 Softmax 采样和均匀采样,兼顾高质量历史样本利用和探索多样性。

💬 文章金句

- LLM 后训练的慢,很多时候不在学习本身,而在等模型一条条生成样本。

  • TBA 把后训练拆成两条流水线,Searcher 负责生成轨迹,Trainer 持续从 replay buffer 中抽样更新模型。
  • TBA 引入 Trajectory Balance 目标来处理这些 off-policy 轨迹,让原本容易被丢掉的旧样本继续参与学习。
  • TBA 的价值,不只是让后训练更快,而是重新组织了采样和学习的关系。

📊 文章信息

AI 初评:88

来源:PaperWeekly

作者:PaperWeekly

分类:人工智能

语言:中文

阅读时间:12 分钟

字数:2946

标签: TBA, RL 后训练, Off-Policy, GFlowNet, 异步训练

阅读完整文章

查看原文 → 發佈: 2026-05-12 17:07:00 收錄: 2026-05-12 22:00:08

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。