← 回總覽

10M 参数也能跑 ARC 与数独,Bengio 团队押注「多轨迹推理」

📅 2026-05-22 13:35 PaperWeekly 人工智能 2 分鐘 1711 字 評分: 86
GRAM 递归推理 多轨迹采样 小模型 ARC-AGI
📌 一句话摘要 Bengio 团队提出 GRAM 模型,将递归推理从确定性单轨迹改为概率多轨迹采样,以 10M 参数在 Sudoku-Extreme 上达到 97% 准确率,并在 ARC-AGI 等任务上超越传统递归模型。 📝 详细摘要 本文介绍了由 Yoshua Bengio 团队与 KAIST、Mila、NYU 研究人员提出的 GRAM(生成式递归推理模型)。GRAM 的核心创新在于将传统递归模型(如 HRM、TRM)的确定性单轨迹隐状态更新,改造为概率潜变量过程,允许推理时并行采样多条隐空间推理轨迹。模型将隐状态解耦为高、低两层:低层负责细粒度计算,高层承载抽象推理状态并注入高斯扰动

📌 一句话摘要

Bengio 团队提出 GRAM 模型,将递归推理从确定性单轨迹改为概率多轨迹采样,以 10M 参数在 Sudoku-Extreme 上达到 97% 准确率,并在 ARC-AGI 等任务上超越传统递归模型。

📝 详细摘要

本文介绍了由 Yoshua Bengio 团队与 KAIST、Mila、NYU 研究人员提出的 GRAM(生成式递归推理模型)。GRAM 的核心创新在于将传统递归模型(如 HRM、TRM)的确定性单轨迹隐状态更新,改造为概率潜变量过程,允许推理时并行采样多条隐空间推理轨迹。模型将隐状态解耦为高、低两层:低层负责细粒度计算,高层承载抽象推理状态并注入高斯扰动,实现可学习的随机引导。在 Sudoku-Extreme 上,GRAM 以 10M 参数达到 97.0% 准确率,在 ARC-AGI-1 上取得 52.0%。消融实验验证了随机性和引导信号缺一不可。此外,GRAM 还展示了推理时扩展能力,通过并行采样 N=20 条轨迹即可超越 TRM 在 320 次迭代下的表现,并具备无条件生成能力。论文也指出其局限性,包括深度监督的顺序训练限制效率,以及当前主要在受控任务上验证。

💡 主要观点

- GRAM 将确定性递归推理改为概率多轨迹采样,提升探索能力。 传统递归模型(HRM/TRM)对同一输入只产生一条确定性隐空间轨迹,GRAM 通过向高层隐状态注入高斯扰动,生成多条候选轨迹,并通过隐过程奖励模型选择最优解,显著提升了结构化推理任务的性能。

10M 参数的小模型在 Sudoku-Extreme 上达到 97% 准确率,超越大模型参考值。 GRAM 在 Sudoku-Extreme 上以 10M 参数达到 97.0% 准确率,而论文列出的大模型(DeepSeek-R1、Claude 3.7、o3-mini-high)在该任务上均为 0.0%,但作者强调这不是公平对比,仅作为任务难度参考。
推理时扩展从深度维度扩展到宽度维度,并行采样效率更高。 GRAM 在 16 次迭代中并行采样 20 条轨迹即可达到 97% 准确率,而 TRM 需要 320 次迭代才能达到 90.5%,展示了宽度维度推理时计算的优势。
消融实验证明随机性和引导信号必须同时存在。 移除引导信号(均值归零)后 N-Queens 准确率降至 50.27%,移除随机性(方差归零)后降至 0.0%,说明 GRAM 的收益来自变分训练下的随机引导,而非随机解码或随机初始化。

💬 文章金句

- 10M 参数,在大模型时代显得有些微不足道。但 Yoshua Bengio 团队与 KAIST、Mila、NYU 研究人员提出的 GRAM,用这个量级的模型跑出了几组值得注意的结果。

  • 传统递归架构通过共享转移函数反复更新隐状态,在不增加参数量的情况下延长内部计算。
  • GRAM 把确定性递归更新改成了概率多轨迹计算。
  • 随机性只加在高层状态 h 上,作者尝试过向低层状态注入噪声,但没有带来性能提升。
  • 数据增强和推理时采样承担的是互补作用,不能简单相加理解。

📊 文章信息

AI 初评:86

来源:PaperWeekly

作者:PaperWeekly

分类:人工智能

语言:中文

阅读时间:11 分钟

字数:2704

标签: GRAM, 递归推理, 多轨迹采样, 小模型, ARC-AGI

阅读完整文章

查看原文 → 發佈: 2026-05-22 13:35:00 收錄: 2026-05-23 12:00:11

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。