厦门大学与香港科技大学提出 MAGE 算法,通过「由粗到细」的多尺度自回归生成框架,解决了离线强化学习在长程规划中全局连贯性不足的问题。
📝 详细摘要
本文介绍了入选 ICLR 2026 的离线强化学习新算法 MAGE(Multi-scale Autoregressive Generation)。针对现有生成式方法(如 Decision Transformer 和 Diffusion-based 方法)在复杂任务中容易陷入「局部合理但全局偏航」的痛点,MAGE 借鉴人类素描逻辑,采用「自顶向下、由粗到细」的策略。其核心包含多尺度轨迹自编码器(MTAE)和条件引导的自回归生成模块,先构建宏观全局轮廓再逐层细化微观动作细节。实验表明,MAGE 在 Adroit、Franka Kitchen 等 5 个基准测试中表现优异,且推理速度比主流扩散模型快 50-80 倍,满足机器人实时控制的 20Hz 门槛。
💡 主要观点
- 现有生成式离线强化学习方法在长程规划中存在「局部合理但全局偏航」的问题。 Decision Transformer 受限于单向自回归导致的全局上下文缺失,而扩散模型存在局部生成偏差,导致在复杂迷宫或长序列任务中轨迹不连贯甚至违背物理规则。
💬 文章金句
- MAGE 采用自顶向下的'由粗到细'生成策略,先建模轨迹的宏观规划,再逐步细化微观细节。
- 粗尺度的 Token 负责掌控全局长程结构,最细尺度的 Token 则详细建模短期的动态细节。
- MAGE 的运行速度比 Hierarchical Diffuser 快约 50 倍,比 Decision Diffuser 快 80 倍。其每步推理时间保持在 27 毫秒,完美满足了真实机器人控制所要求的 20 Hz 实时运行门槛。
📊 文章信息
AI 评分:89
来源:量子位
作者:一水
分类:人工智能
语言:中文
阅读时间:8 分钟
字数:1797
标签: 离线强化学习, MAGE, ICLR 2026, 长程规划, 多尺度生成