让离线强化学习从「局部描摹」变「全局布局」丨 ICLR’26

📌 一句话摘要

厦门大学与香港科技大学提出 MAGE 算法，通过「由粗到细」的多尺度自回归生成框架，解决了离线强化学习在长程规划中全局连贯性不足的问题。

📝 详细摘要

本文介绍了入选 ICLR 2026 的离线强化学习新算法 MAGE（Multi-scale Autoregressive Generation）。针对现有生成式方法（如 Decision Transformer 和 Diffusion-based 方法）在复杂任务中容易陷入「局部合理但全局偏航」的痛点，MAGE 借鉴人类素描逻辑，采用「自顶向下、由粗到细」的策略。其核心包含多尺度轨迹自编码器（MTAE）和条件引导的自回归生成模块，先构建宏观全局轮廓再逐层细化微观动作细节。实验表明，MAGE 在 Adroit、Franka Kitchen 等 5 个基准测试中表现优异，且推理速度比主流扩散模型快 50-80 倍，满足机器人实时控制的 20Hz 门槛。

💡 主要观点

- 现有生成式离线强化学习方法在长程规划中存在「局部合理但全局偏航」的问题。 Decision Transformer 受限于单向自回归导致的全局上下文缺失，而扩散模型存在局部生成偏差，导致在复杂迷宫或长序列任务中轨迹不连贯甚至违背物理规则。

MAGE 提出「自顶向下、由粗到细」的多尺度轨迹建模策略。 通过 MTAE 将轨迹转化为多尺度 Token，粗尺度负责掌控全局长程结构，细尺度建模短期动态细节，确保了规划的全局一致性与局部精确度。

MAGE 在保持高性能的同时，实现了极高的计算效率与实时性。 推理速度比同类分层扩散模型快 50-80 倍，每步推理仅需 27 毫秒，成功跨越了真实机器人控制所需的 20Hz 实时运行门槛。

💬 文章金句

- MAGE 采用自顶向下的'由粗到细'生成策略，先建模轨迹的宏观规划，再逐步细化微观细节。

粗尺度的 Token 负责掌控全局长程结构，最细尺度的 Token 则详细建模短期的动态细节。
MAGE 的运行速度比 Hierarchical Diffuser 快约 50 倍，比 Decision Diffuser 快 80 倍。其每步推理时间保持在 27 毫秒，完美满足了真实机器人控制所要求的 20 Hz 实时运行门槛。

📊 文章信息

AI 评分：89

来源：量子位

作者：一水

分类：人工智能

语言：中文

阅读时间：8 分钟

字数：1797

标签：离线强化学习, MAGE, ICLR 2026, 长程规划, 多尺度生成

阅读完整文章

让离线强化学习从「局部描摹」变「全局布局」丨 ICLR’26

🤖 問 AI