Bengio 团队提出 GRAM 模型,将递归推理从确定性单轨变为概率性多轨,通过并行采样在 16 步递归+20 条轨迹下超越 320 步串行推理,为推理效率与质量提供了新范式。
📝 详细摘要
本文介绍了图灵奖得主 Yoshua Bengio 团队提出的 GRAM(生成式递归推理模型)框架。GRAM 的核心创新在于将传统递归推理模型(RRMs)的确定性潜在状态转移改造为概率性过程:在每一步递归中,模型从状态相关的高斯分布中采样随机引导信号,与确定性更新相加,从而生成多样化的推理轨迹。这种设计使模型能够探索解空间中的多个有效解,避免陷入局部最优。GRAM 采用层次化架构,将随机性注入高层抽象状态,低层则进行细粒度快速更新。训练通过变分推断进行,后验能「看到」正确答案以学习有效探索策略。在推理时,GRAM 支持双轴扩展:深度扩展(增加递归步数)和宽度扩展(并行采样多条轨迹),后者可绕过延迟瓶颈。实验结果显示,GRAM 在 Sudoku-Extreme 上以 16 步递归+20 条并行采样达到 97.0% 准确率,超越 TRM 在 320 步串行递归时的 90.5%;在多解任务(N-Queens、Graph Coloring)上同时实现了最高准确率和接近最优的覆盖率;在无条件生成任务上也表现出色。消融实验表明,随机性与学习到的引导方向缺一不可。
💡 主要观点
- GRAM 将确定性递归推理改造为概率性多轨迹计算,通过随机采样探索解空间。 在每一步递归中,模型从状态相关的高斯分布中采样随机引导信号,与确定性更新结合,生成多样化推理轨迹,避免陷入局部最优,支持多解探索。
💬 文章金句
- GRAM 在仅用 16 步递归 + 20 条并行采样的情况下,就超越了所有确定性基线在 320 步串行递归时的表现。
- 推理系统不仅需要「深」,还需要「宽」。
- 在潜在空间中,通过概率递归,同时沿深度和宽度两个方向扩展。
- GRAM 的增益来自变分框架本身,来自随机性与学习到的引导方向的协同作用,而非简单的随机扰动。
📊 文章信息
AI 初评:88
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:15 分钟
字数:3509
标签: GRAM, 递归推理, 概率模型, 并行推理, Yoshua Bengio