本文介绍了被 ICML 2026 Spotlight 接收的 T²PO 方法,通过 token 级和 turn 级的不确定性引导探索控制,解决多轮 Agentic RL 训练中的不稳定和 collapse 问题。
📝 详细摘要
本文是作者对自己被 ICML 2026 接收的论文 T²PO 的解读。文章指出,多轮 Agentic RL 训练不稳定的核心原因不仅是奖励稀疏,更在于模型在交互中产生大量低信息量的「犹豫」行为——即 token 级别的冗余思考和 turn 级别的无效交互。为此,T²PO 提出了一种基于模型内部不确定性信号的实时探索控制机制,包含两个核心组件:Token-level Thinking Intervention (TTI) 通过滑动窗口监控不确定性变化,自适应截断低信息量的思考;Turn-level Dynamical Sampling (TDS) 则通过比较相邻 turn 的不确定性结构,丢弃并重采样重复的低效交互。在 WebShop、ALFWorld 和 Search QA 等任务上的实验表明,T²PO 不仅显著提升了任务成功率和训练稳定性,还减少了约 25% 的交互轮次,探索效率更高。
💡 主要观点
- 多轮 Agentic RL 训练不稳定的核心原因是模型的「犹豫」行为。 模型在 token 级别和 turn 级别生成大量低信息量内容,看似在探索,实则消耗训练预算并放大噪声,最终导致训练崩溃。
💬 文章金句
- 犹豫就会败北。
- 多轮 Agentic RL 的训练不稳定,往往不是因为模型「不够努力」,而是因为模型在错误的地方投入了太多努力。
- 未来的 Agentic RL 不能只关注「如何更新策略」,还必须关注「如何产生高质量探索」。
- T²PO 的目标就是让 Agent 学会在多轮 RL 中更高效地探索:该思考时思考,该停止时停止,该重试时重试。
📊 文章信息
AI 初评:86
来源:青稞AI
作者:青稞AI
分类:人工智能
语言:中文
阅读时间:17 分钟
字数:4102
标签: 多轮强化学习, Agentic RL, T²PO, 探索控制, 不确定性