图灵奖得主 Sutton 新作：用一个 1967 年的公式，解决流式强化学习一大缺陷

📌 一句话摘要

图灵奖得主 Richard Sutton 团队提出「意图更新」方法，通过直接控制函数输出的变化量而非参数步长，从根本上解决了流式深度强化学习中的训练不稳定问题。

📝 详细摘要

本文报道了阿尔伯塔大学 Mahmood 团队与 Openmind 研究院合作的最新研究成果。研究指出，流式深度强化学习长期存在的「流式壁垒」问题，根源在于传统梯度下降的步长策略——它规定参数移动多少，却无法控制函数输出的实际变化量，导致在单样本流式环境下训练剧烈震荡。受 1967 年 Nagumo 和 Noda 的 NLMS 算法启发，研究者提出了「意图更新」（Intentional Updates）框架：每次更新前先明确期望的函数输出变化量，再反推所需的步长。该框架在价值学习中通过梯度范数自动调整步长，在策略学习中通过优势函数归一化控制策略变化幅度。结合 RMSProp 对角缩放和资格迹，形成了 Intentional TD (λ)、Intentional Q (λ) 和 Intentional Policy Gradient 三个完整算法。实验表明，在 MuJoCo 连续控制任务上，新方法在流式设置下性能接近 SAC，但计算量仅为后者的 1/140；在 Atari 离散动作任务上，用同一套超参数即可跑通全部任务。论文也坦诚了策略学习中步长对动作的依赖可能导致偏差的问题，并指出了未来研究方向。

💡 主要观点

- 流式强化学习的「流式壁垒」根源在于步长策略不当，而非数据量不足。 传统梯度下降规定参数移动量，但无法控制函数输出的实际变化，在单样本流式环境下导致过冲和欠冲，训练剧烈震荡。

「意图更新」框架通过直接控制函数输出的变化量来反推步长，从根本上稳定训练。 受 1967 年 NLMS 算法启发，每次更新前先明确期望的输出变化比例，再根据梯度范数自动计算步长，确保更新幅度可控。

新方法在流式设置下性能接近 SAC，但计算量仅为后者的 1/140。 在 MuJoCo 连续控制任务上，Intentional AC 在批量大小为 1、无回放缓冲区的条件下，性能接近使用大批量回放的 SAC，且超参数鲁棒性更强。

💬 文章金句

- 流式壁垒的根源不是「数据不够多」，而是「步长选错了单位」。

与其指定参数移动多少，不如直接指定函数输出该改变多少。
步长不只是一个超参数，它是 AI 每一步「想做多少」的承诺。当这个承诺终于变得可控，学习本身就稳定了。
意图缩放从根源上减少了对外部「拐杖」的依赖。

📊 文章信息

AI 初评：88

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3286

标签：流式强化学习, 意图更新, Richard Sutton, 步长自适应, 深度强化学习

阅读完整文章

图灵奖得主 Sutton 新作：用一个 1967 年的公式，解决流式强化学习一大缺陷

🤖 問 AI