← 回總覽

滴滴多篇论文入选 ICML2026,值得一读!

📅 2026-05-21 19:58 滴滴技术 人工智能 2 分鐘 1567 字 評分: 82
ICML 2026 滴滴技术 大模型智能体 强化学习 因果推断
📌 一句话摘要 滴滴技术团队五篇论文被 ICML 2026 收录,涵盖大模型智能体评估、GUI 自动化记忆系统、持续离线强化学习、智能体上下文省略及因果推断等前沿方向。 📝 详细摘要 本文是滴滴技术团队发布的成果公告,宣布其五篇学术论文被机器学习顶会 ICML 2026 录用。论文分别来自滴滴 L-Lab 和网约车交易市场技术团队,与中山大学、香港科技大学(广州)、北京大学、上海财经大学等高校合作完成。研究方向覆盖大模型智能体长周期任务评估基准(UltraHorizon)、GUI 智能体自进化记忆系统(Darwinian Memory)、持续离线强化学习(HTAC)、智能体上下文省略框架(

📌 一句话摘要

滴滴技术团队五篇论文被 ICML 2026 收录,涵盖大模型智能体评估、GUI 自动化记忆系统、持续离线强化学习、智能体上下文省略及因果推断等前沿方向。

📝 详细摘要

本文是滴滴技术团队发布的成果公告,宣布其五篇学术论文被机器学习顶会 ICML 2026 录用。论文分别来自滴滴 L-Lab 和网约车交易市场技术团队,与中山大学、香港科技大学(广州)、北京大学、上海财经大学等高校合作完成。研究方向覆盖大模型智能体长周期任务评估基准(UltraHorizon)、GUI 智能体自进化记忆系统(Darwinian Memory)、持续离线强化学习(HTAC)、智能体上下文省略框架(Agent-Omit)以及因果推断中的结构性非重叠问题(Feasible Fusion)。文章简要介绍了每篇论文的核心贡献和实验结论,并提供了 arXiv 论文链接。

💡 主要观点

- 滴滴五篇论文被 ICML 2026 录用,覆盖多个 AI 前沿方向。 论文涉及大模型智能体评估、GUI 自动化记忆系统、持续离线强化学习、智能体上下文省略和因果推断,展示了滴滴在 AI 领域的学术研究实力。

UltraHorizon 基准测试揭示当前智能体在长周期任务中的不足。 该基准测试发现,现有最先进智能体在需要持续推理和记忆管理的长周期任务中表现远不如人类,主要受限于上下文锁定和基础能力缺失。
Agent-Omit 框架通过自适应省略冗余内容提升智能体效率。 该框架利用两阶段训练实现智能体在交互过程中自适应省略冗余的思考与观察信息,在保持任务效果的同时显著降低 token 开销。
Feasible Fusion 提出解决因果推断中结构性非重叠问题的新方法。 该研究形式化了结构性非重叠问题,并提出受约束的联合估计框架,在滴滴大规模网约车场景中验证了其有效性,效果可与使用更多 RCT 数据的模型相仿。

💬 文章金句

- 现有的自主智能体评估未能涵盖现实世界中那些需要持续推理、记忆管理和工具调用的长周期且部分可观察的复杂任务。

  • 当前最先进的智能体在这些任务中表现远不如人类,且无法通过简单的扩大规模来提升,其失败的主要原因在于上下文锁定(in-context locking)和基础能力的缺失。
  • 通过将记忆构建为一个不断进化的生态系统,DMS 在无需任何额外训练的情况下,显著提升了 MLLM 智能体的任务成功率、执行稳定性与效率。
  • Agent-Omit 采用两阶段训练:先基于冷启动数据微调,让模型掌握省略行为规范;再通过省略感知的智能体强化学习,实现自适应省略冗余内容。
  • 本文对由处理机制诱发的结构性非重叠进行了形式化刻画,并证明:在这一情形下,常用的加权融合方法在理论上无法满足随机化识别约束。

📊 文章信息

AI 初评:82

来源:滴滴技术

作者:滴滴技术

分类:人工智能

语言:中文

阅读时间:10 分钟

字数:2326

标签: ICML 2026, 滴滴技术, 大模型智能体, 强化学习, 因果推断

阅读完整文章

查看原文 → 發佈: 2026-05-21 19:58:00 收錄: 2026-05-21 22:00:45

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。