10M 参数也能跑 ARC 与数独，Bengio 团队押注「多轨迹推理」

📌 一句话摘要

Bengio 团队提出 GRAM 模型，将递归推理从确定性单轨迹改为概率多轨迹采样，以 10M 参数在 Sudoku-Extreme 上达到 97% 准确率，并在 ARC-AGI 等任务上超越传统递归模型。

📝 详细摘要

本文介绍了由 Yoshua Bengio 团队与 KAIST、Mila、NYU 研究人员提出的 GRAM（生成式递归推理模型）。GRAM 的核心创新在于将传统递归模型（如 HRM、TRM）的确定性单轨迹隐状态更新，改造为概率潜变量过程，允许推理时并行采样多条隐空间推理轨迹。模型将隐状态解耦为高、低两层：低层负责细粒度计算，高层承载抽象推理状态并注入高斯扰动，实现可学习的随机引导。在 Sudoku-Extreme 上，GRAM 以 10M 参数达到 97.0% 准确率，在 ARC-AGI-1 上取得 52.0%。消融实验验证了随机性和引导信号缺一不可。此外，GRAM 还展示了推理时扩展能力，通过并行采样 N=20 条轨迹即可超越 TRM 在 320 次迭代下的表现，并具备无条件生成能力。论文也指出其局限性，包括深度监督的顺序训练限制效率，以及当前主要在受控任务上验证。

💡 主要观点

- GRAM 将确定性递归推理改为概率多轨迹采样，提升探索能力。 传统递归模型（HRM/TRM）对同一输入只产生一条确定性隐空间轨迹，GRAM 通过向高层隐状态注入高斯扰动，生成多条候选轨迹，并通过隐过程奖励模型选择最优解，显著提升了结构化推理任务的性能。

10M 参数的小模型在 Sudoku-Extreme 上达到 97% 准确率，超越大模型参考值。 GRAM 在 Sudoku-Extreme 上以 10M 参数达到 97.0% 准确率，而论文列出的大模型（DeepSeek-R1、Claude 3.7、o3-mini-high）在该任务上均为 0.0%，但作者强调这不是公平对比，仅作为任务难度参考。

推理时扩展从深度维度扩展到宽度维度，并行采样效率更高。 GRAM 在 16 次迭代中并行采样 20 条轨迹即可达到 97% 准确率，而 TRM 需要 320 次迭代才能达到 90.5%，展示了宽度维度推理时计算的优势。

消融实验证明随机性和引导信号必须同时存在。 移除引导信号（均值归零）后 N-Queens 准确率降至 50.27%，移除随机性（方差归零）后降至 0.0%，说明 GRAM 的收益来自变分训练下的随机引导，而非随机解码或随机初始化。

💬 文章金句

- 10M 参数，在大模型时代显得有些微不足道。但 Yoshua Bengio 团队与 KAIST、Mila、NYU 研究人员提出的 GRAM，用这个量级的模型跑出了几组值得注意的结果。

传统递归架构通过共享转移函数反复更新隐状态，在不增加参数量的情况下延长内部计算。
GRAM 把确定性递归更新改成了概率多轨迹计算。
随机性只加在高层状态 h 上，作者尝试过向低层状态注入噪声，但没有带来性能提升。
数据增强和推理时采样承担的是互补作用，不能简单相加理解。

📊 文章信息

AI 初评：86

来源：PaperWeekly

作者：PaperWeekly

分类：人工智能

语言：中文

阅读时间：11 分钟

字数：2704

标签： GRAM, 递归推理, 多轨迹采样, 小模型, ARC-AGI

阅读完整文章

10M 参数也能跑 ARC 与数独，Bengio 团队押注「多轨迹推理」

🤖 問 AI