← 回總覽

ICML'26 Spotlight|犹豫就会败北:用 T²PO 稳定多轮 Agentic RL 训练

📅 2026-05-10 00:01 青稞AI 人工智能 2 分鐘 1515 字 評分: 86
多轮强化学习 Agentic RL T²PO 探索控制 不确定性
📌 一句话摘要 本文介绍了被 ICML 2026 Spotlight 接收的 T²PO 方法,通过 token 级和 turn 级的不确定性引导探索控制,解决多轮 Agentic RL 训练中的不稳定和 collapse 问题。 📝 详细摘要 本文是作者对自己被 ICML 2026 接收的论文 T²PO 的解读。文章指出,多轮 Agentic RL 训练不稳定的核心原因不仅是奖励稀疏,更在于模型在交互中产生大量低信息量的「犹豫」行为——即 token 级别的冗余思考和 turn 级别的无效交互。为此,T²PO 提出了一种基于模型内部不确定性信号的实时探索控制机制,包含两个核心组件:Toke

📌 一句话摘要

本文介绍了被 ICML 2026 Spotlight 接收的 T²PO 方法,通过 token 级和 turn 级的不确定性引导探索控制,解决多轮 Agentic RL 训练中的不稳定和 collapse 问题。

📝 详细摘要

本文是作者对自己被 ICML 2026 接收的论文 T²PO 的解读。文章指出,多轮 Agentic RL 训练不稳定的核心原因不仅是奖励稀疏,更在于模型在交互中产生大量低信息量的「犹豫」行为——即 token 级别的冗余思考和 turn 级别的无效交互。为此,T²PO 提出了一种基于模型内部不确定性信号的实时探索控制机制,包含两个核心组件:Token-level Thinking Intervention (TTI) 通过滑动窗口监控不确定性变化,自适应截断低信息量的思考;Turn-level Dynamical Sampling (TDS) 则通过比较相邻 turn 的不确定性结构,丢弃并重采样重复的低效交互。在 WebShop、ALFWorld 和 Search QA 等任务上的实验表明,T²PO 不仅显著提升了任务成功率和训练稳定性,还减少了约 25% 的交互轮次,探索效率更高。

💡 主要观点

- 多轮 Agentic RL 训练不稳定的核心原因是模型的「犹豫」行为。 模型在 token 级别和 turn 级别生成大量低信息量内容,看似在探索,实则消耗训练预算并放大噪声,最终导致训练崩溃。

T²PO 通过模型内部不确定性信号实时调控探索过程。 结合 entropy 和 confidence 构造自校准不确定性信号,在 rollout 过程中监控,而非事后过滤,实现更精细的探索控制。
Token-level Thinking Intervention (TTI) 自适应截断冗余思考。 通过滑动窗口监控不确定性变化,当信息增益低于阈值时强制结束推理阶段,避免在关键实体处误截断。
Turn-level Dynamical Sampling (TDS) 避免无效交互循环。 比较相邻 turn 的不确定性结构,若变化小则丢弃并重采样,确保每个交互轮次都带来新的探索信息。

💬 文章金句

- 犹豫就会败北。

  • 多轮 Agentic RL 的训练不稳定,往往不是因为模型「不够努力」,而是因为模型在错误的地方投入了太多努力。
  • 未来的 Agentic RL 不能只关注「如何更新策略」,还必须关注「如何产生高质量探索」。
  • T²PO 的目标就是让 Agent 学会在多轮 RL 中更高效地探索:该思考时思考,该停止时停止,该重试时重试。

📊 文章信息

AI 初评:86

来源:青稞AI

作者:青稞AI

分类:人工智能

语言:中文

阅读时间:17 分钟

字数:4102

标签: 多轮强化学习, Agentic RL, T²PO, 探索控制, 不确定性

阅读完整文章

查看原文 → 發佈: 2026-05-10 00:01:00 收錄: 2026-05-10 20:00:15

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。