← 回總覽

让离线强化学习从「局部描摹」变「全局布局」丨 ICLR’26

📅 2026-04-06 13:35 一水 人工智能 2 分鐘 1267 字 評分: 89
离线强化学习 MAGE ICLR 2026 长程规划 多尺度生成
📌 一句话摘要 厦门大学与香港科技大学提出 MAGE 算法,通过「由粗到细」的多尺度自回归生成框架,解决了离线强化学习在长程规划中全局连贯性不足的问题。 📝 详细摘要 本文介绍了入选 ICLR 2026 的离线强化学习新算法 MAGE(Multi-scale Autoregressive Generation)。针对现有生成式方法(如 Decision Transformer 和 Diffusion-based 方法)在复杂任务中容易陷入「局部合理但全局偏航」的痛点,MAGE 借鉴人类素描逻辑,采用「自顶向下、由粗到细」的策略。其核心包含多尺度轨迹自编码器(MTAE)和条件引导的自回归生成

📌 一句话摘要

厦门大学与香港科技大学提出 MAGE 算法,通过「由粗到细」的多尺度自回归生成框架,解决了离线强化学习在长程规划中全局连贯性不足的问题。

📝 详细摘要

本文介绍了入选 ICLR 2026 的离线强化学习新算法 MAGE(Multi-scale Autoregressive Generation)。针对现有生成式方法(如 Decision Transformer 和 Diffusion-based 方法)在复杂任务中容易陷入「局部合理但全局偏航」的痛点,MAGE 借鉴人类素描逻辑,采用「自顶向下、由粗到细」的策略。其核心包含多尺度轨迹自编码器(MTAE)和条件引导的自回归生成模块,先构建宏观全局轮廓再逐层细化微观动作细节。实验表明,MAGE 在 Adroit、Franka Kitchen 等 5 个基准测试中表现优异,且推理速度比主流扩散模型快 50-80 倍,满足机器人实时控制的 20Hz 门槛。

💡 主要观点

- 现有生成式离线强化学习方法在长程规划中存在「局部合理但全局偏航」的问题。 Decision Transformer 受限于单向自回归导致的全局上下文缺失,而扩散模型存在局部生成偏差,导致在复杂迷宫或长序列任务中轨迹不连贯甚至违背物理规则。

MAGE 提出「自顶向下、由粗到细」的多尺度轨迹建模策略。 通过 MTAE 将轨迹转化为多尺度 Token,粗尺度负责掌控全局长程结构,细尺度建模短期动态细节,确保了规划的全局一致性与局部精确度。
MAGE 在保持高性能的同时,实现了极高的计算效率与实时性。 推理速度比同类分层扩散模型快 50-80 倍,每步推理仅需 27 毫秒,成功跨越了真实机器人控制所需的 20Hz 实时运行门槛。

💬 文章金句

- MAGE 采用自顶向下的'由粗到细'生成策略,先建模轨迹的宏观规划,再逐步细化微观细节。

  • 粗尺度的 Token 负责掌控全局长程结构,最细尺度的 Token 则详细建模短期的动态细节。
  • MAGE 的运行速度比 Hierarchical Diffuser 快约 50 倍,比 Decision Diffuser 快 80 倍。其每步推理时间保持在 27 毫秒,完美满足了真实机器人控制所要求的 20 Hz 实时运行门槛。

📊 文章信息

AI 评分:89

来源:量子位

作者:一水

分类:人工智能

语言:中文

阅读时间:8 分钟

字数:1797

标签: 离线强化学习, MAGE, ICLR 2026, 长程规划, 多尺度生成

阅读完整文章

查看原文 → 發佈: 2026-04-06 13:35:27 收錄: 2026-04-06 16:00:53

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。