Bengio 团队提出 GRAM 模型,将递归推理从确定性单轨迹改为概率多轨迹采样,以 10M 参数在 Sudoku-Extreme 上达到 97% 准确率,并在 ARC-AGI 等任务上超越传统递归模型。
📝 详细摘要
本文介绍了由 Yoshua Bengio 团队与 KAIST、Mila、NYU 研究人员提出的 GRAM(生成式递归推理模型)。GRAM 的核心创新在于将传统递归模型(如 HRM、TRM)的确定性单轨迹隐状态更新,改造为概率潜变量过程,允许推理时并行采样多条隐空间推理轨迹。模型将隐状态解耦为高、低两层:低层负责细粒度计算,高层承载抽象推理状态并注入高斯扰动,实现可学习的随机引导。在 Sudoku-Extreme 上,GRAM 以 10M 参数达到 97.0% 准确率,在 ARC-AGI-1 上取得 52.0%。消融实验验证了随机性和引导信号缺一不可。此外,GRAM 还展示了推理时扩展能力,通过并行采样 N=20 条轨迹即可超越 TRM 在 320 次迭代下的表现,并具备无条件生成能力。论文也指出其局限性,包括深度监督的顺序训练限制效率,以及当前主要在受控任务上验证。
💡 主要观点
- GRAM 将确定性递归推理改为概率多轨迹采样,提升探索能力。 传统递归模型(HRM/TRM)对同一输入只产生一条确定性隐空间轨迹,GRAM 通过向高层隐状态注入高斯扰动,生成多条候选轨迹,并通过隐过程奖励模型选择最优解,显著提升了结构化推理任务的性能。
💬 文章金句
- 10M 参数,在大模型时代显得有些微不足道。但 Yoshua Bengio 团队与 KAIST、Mila、NYU 研究人员提出的 GRAM,用这个量级的模型跑出了几组值得注意的结果。
- 传统递归架构通过共享转移函数反复更新隐状态,在不增加参数量的情况下延长内部计算。
- GRAM 把确定性递归更新改成了概率多轨迹计算。
- 随机性只加在高层状态 h 上,作者尝试过向低层状态注入噪声,但没有带来性能提升。
- 数据增强和推理时采样承担的是互补作用,不能简单相加理解。
📊 文章信息
AI 初评:86
来源:PaperWeekly
作者:PaperWeekly
分类:人工智能
语言:中文
阅读时间:11 分钟
字数:2704
标签: GRAM, 递归推理, 多轨迹采样, 小模型, ARC-AGI