无惧 Off-Policy 偏移！Bengio 团队解绑后训练，大模型 RL 提速 50 倍

📌 一句话摘要

Bengio 团队提出 TBA 异步框架，通过解耦采样与训练并引入轨迹平衡目标，使大模型 RL 后训练最高提速 50 倍，同时保持或提升性能。

📝 详细摘要

本文解读了 Bengio 团队在 NeurIPS 2025 提出的 TBA（Trajectory Balance with Asynchrony）框架，旨在解决大模型 RL 后训练中 rollout 慢、算力利用率低、数据难以复用的核心瓶颈。TBA 将计算节点分为 Searcher 和 Trainer，Searcher 负责异步生成轨迹并存入 replay buffer，Trainer 则从中采样更新模型。为处理异步产生的 off-policy 数据，TBA 引入源自 GFlowNet 的轨迹平衡目标，无需复杂的重要性采样修正。文章详细介绍了 TBA 的架构、动态采样调控策略，并在数学推理、偏好微调、自动红队三个任务上展示了其显著的速度优势（最高 50 倍）和性能提升。实验还验证了该方法在 7B 模型和高度 off-policy 场景下的稳定性。

💡 主要观点

- TBA 通过异步架构解耦采样与训练，解决后训练效率瓶颈。 将集群节点分为 Searcher（采样）和 Trainer（训练），Searcher 异步生成轨迹存入 replay buffer，Trainer 持续从中采样更新，避免训练等待 rollout，大幅提升算力利用率。

引入轨迹平衡目标，有效处理异步产生的 off-policy 数据。 TBA 采用源自 GFlowNet 的 VarGrad TB 损失，其 off-policy 性质允许使用旧轨迹进行训练，无需复杂且易失效的重要性采样修正，在异步环境中展现出远超传统方法的鲁棒性。

TBA 在多个任务上实现显著加速，最高达 50 倍。 在数学推理（GSM8K）、偏好微调（TL;DR）和自动红队任务中，TBA 在保持或提升性能的同时，训练速度分别比基线快 50 倍、3.8-5.3 倍和 7 倍。

动态采样调控策略平衡数据新鲜度与探索多样性。 TBA 设计混合采样方案，以概率 m 优先采样最新数据保证稳定性，以 1-m 概率混合奖励 Softmax 采样和均匀采样，兼顾高质量历史样本利用和探索多样性。

💬 文章金句

- LLM 后训练的慢，很多时候不在学习本身，而在等模型一条条生成样本。

TBA 把后训练拆成两条流水线，Searcher 负责生成轨迹，Trainer 持续从 replay buffer 中抽样更新模型。
TBA 引入 Trajectory Balance 目标来处理这些 off-policy 轨迹，让原本容易被丢掉的旧样本继续参与学习。
TBA 的价值，不只是让后训练更快，而是重新组织了采样和学习的关系。

📊 文章信息

AI 初评：88

来源：PaperWeekly

作者：PaperWeekly

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2946

标签： TBA, RL 后训练, Off-Policy, GFlowNet, 异步训练

阅读完整文章

无惧 Off-Policy 偏移！Bengio 团队解绑后训练，大模型 RL 提速 50 倍

🤖 問 AI