Bengio 团队提出 TBA 异步框架,通过解耦采样与训练并引入轨迹平衡目标,使大模型 RL 后训练最高提速 50 倍,同时保持或提升性能。
📝 详细摘要
本文解读了 Bengio 团队在 NeurIPS 2025 提出的 TBA(Trajectory Balance with Asynchrony)框架,旨在解决大模型 RL 后训练中 rollout 慢、算力利用率低、数据难以复用的核心瓶颈。TBA 将计算节点分为 Searcher 和 Trainer,Searcher 负责异步生成轨迹并存入 replay buffer,Trainer 则从中采样更新模型。为处理异步产生的 off-policy 数据,TBA 引入源自 GFlowNet 的轨迹平衡目标,无需复杂的重要性采样修正。文章详细介绍了 TBA 的架构、动态采样调控策略,并在数学推理、偏好微调、自动红队三个任务上展示了其显著的速度优势(最高 50 倍)和性能提升。实验还验证了该方法在 7B 模型和高度 off-policy 场景下的稳定性。
💡 主要观点
- TBA 通过异步架构解耦采样与训练,解决后训练效率瓶颈。 将集群节点分为 Searcher(采样)和 Trainer(训练),Searcher 异步生成轨迹存入 replay buffer,Trainer 持续从中采样更新,避免训练等待 rollout,大幅提升算力利用率。
💬 文章金句
- LLM 后训练的慢,很多时候不在学习本身,而在等模型一条条生成样本。
- TBA 把后训练拆成两条流水线,Searcher 负责生成轨迹,Trainer 持续从 replay buffer 中抽样更新模型。
- TBA 引入 Trajectory Balance 目标来处理这些 off-policy 轨迹,让原本容易被丢掉的旧样本继续参与学习。
- TBA 的价值,不只是让后训练更快,而是重新组织了采样和学习的关系。
📊 文章信息
AI 初评:88
来源:PaperWeekly
作者:PaperWeekly
分类:人工智能
语言:中文
阅读时间:12 分钟
字数:2946
标签: TBA, RL 后训练, Off-Policy, GFlowNet, 异步训练