ICML'26 Spotlight｜犹豫就会败北：用 T²PO 稳定多轮 Agentic RL 训练

📌 一句话摘要

本文介绍了被 ICML 2026 Spotlight 接收的 T²PO 方法，通过 token 级和 turn 级的不确定性引导探索控制，解决多轮 Agentic RL 训练中的不稳定和 collapse 问题。

📝 详细摘要

本文是作者对自己被 ICML 2026 接收的论文 T²PO 的解读。文章指出，多轮 Agentic RL 训练不稳定的核心原因不仅是奖励稀疏，更在于模型在交互中产生大量低信息量的「犹豫」行为——即 token 级别的冗余思考和 turn 级别的无效交互。为此，T²PO 提出了一种基于模型内部不确定性信号的实时探索控制机制，包含两个核心组件：Token-level Thinking Intervention (TTI) 通过滑动窗口监控不确定性变化，自适应截断低信息量的思考；Turn-level Dynamical Sampling (TDS) 则通过比较相邻 turn 的不确定性结构，丢弃并重采样重复的低效交互。在 WebShop、ALFWorld 和 Search QA 等任务上的实验表明，T²PO 不仅显著提升了任务成功率和训练稳定性，还减少了约 25% 的交互轮次，探索效率更高。

💡 主要观点

- 多轮 Agentic RL 训练不稳定的核心原因是模型的「犹豫」行为。 模型在 token 级别和 turn 级别生成大量低信息量内容，看似在探索，实则消耗训练预算并放大噪声，最终导致训练崩溃。

T²PO 通过模型内部不确定性信号实时调控探索过程。 结合 entropy 和 confidence 构造自校准不确定性信号，在 rollout 过程中监控，而非事后过滤，实现更精细的探索控制。

Token-level Thinking Intervention (TTI) 自适应截断冗余思考。 通过滑动窗口监控不确定性变化，当信息增益低于阈值时强制结束推理阶段，避免在关键实体处误截断。

Turn-level Dynamical Sampling (TDS) 避免无效交互循环。 比较相邻 turn 的不确定性结构，若变化小则丢弃并重采样，确保每个交互轮次都带来新的探索信息。

💬 文章金句

- 犹豫就会败北。

多轮 Agentic RL 的训练不稳定，往往不是因为模型「不够努力」，而是因为模型在错误的地方投入了太多努力。
未来的 Agentic RL 不能只关注「如何更新策略」，还必须关注「如何产生高质量探索」。
T²PO 的目标就是让 Agent 学会在多轮 RL 中更高效地探索：该思考时思考，该停止时停止，该重试时重试。

📊 文章信息

AI 初评：86

来源：青稞AI

作者：青稞AI

分类：人工智能

语言：中文

阅读时间：17 分钟

字数：4102

标签：多轮强化学习, Agentic RL, T²PO, 探索控制, 不确定性

阅读完整文章

ICML'26 Spotlight｜犹豫就会败北：用 T²PO 稳定多轮 Agentic RL 训练

🤖 問 AI