全部 未讀 (24396) ★ 收藏 (0) 🤖 人工智能 (11536) 📊 商业科技 (4898) 💻 软件编程 (1762) 📁 个人成长 (1649) 📁 媒体资讯 (1637) 📁 生活文化 (1212) 📁 投资财经 (1015) 🎨 产品设计 (448) 📁 体育运动 (191) 📁 AI 产品 (39)
篩選中: 🏷️ 探索控制 共 1 篇 ✕ 清除篩選
24398
全部文章
24396
未讀
382
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (06-17 22:00)
BestBlogs 精選 (24363)

🏷️ 熱門標籤

AI Agent 2360 AI 编程 1084 Anthropic 1006 Claude Code 941 LLM 805 AI 智能体 781 OpenAI 754 开源 584 政策解读 575 Claude 564 OpenClaw 557 产业动态 538 AI 529 投资与市场 518 AI 安全 511 开发者工具 472 宏观经济 469 科技新闻 429 地缘政治 428 Codex 427
ICML'26 Spotlight|犹豫就会败北:用 T²PO 稳定多轮 Agentic RL 训练
📌 一句话摘要 本文介绍了被 ICML 2026 Spotlight 接收的 T²PO 方法,通过 token 级和 turn 级的不确定性引导探索控制,解决多轮 Agentic RL 训练中的不稳定和 collapse 问题。 📝 详细摘要 本文是作者对自己被 ICML 2026 接收的论文
📅 2026-05-10 00:01 (05-10 00:01) 青稞AI 人工智能 2 分鐘 ★ 86
多轮强化学习 Agentic RL T²PO 探索控制