← 回總覽

一个小 10,000 倍的模型如何胜过 ChatGPT?

📅 2026-04-01 20:45 Moulik Gupta 人工智能 2 分鐘 1567 字 評分: 88
微型递归模型 递归推理 ARC-AGI 自适应计算时间 LLM 架构
📌 一句话摘要 本文探讨了微型递归模型(Tiny Recursion Model,简称 TRM),这是一个拥有 700 万参数的架构,它通过优先考虑迭代推理而非模型规模,在逻辑推理基准测试中超越了 DeepSeek R1 和 Claude 3.7 等大型 LLM。 📝 详细摘要 本文挑战了行业对缩放定律(Scaling Laws)的依赖,认为如果小模型的设计目标是迭代推理而非仅仅是下一个 Token 预测(Next-token Prediction),那么智能也可以从小模型中涌现。文章介绍了微型递归模型(TRM),这是一种循环架构,将问题状态分为三个向量:不可变的问题(immutable

📌 一句话摘要

本文探讨了微型递归模型(Tiny Recursion Model,简称 TRM),这是一个拥有 700 万参数的架构,它通过优先考虑迭代推理而非模型规模,在逻辑推理基准测试中超越了 DeepSeek R1 和 Claude 3.7 等大型 LLM。

📝 详细摘要

本文挑战了行业对缩放定律(Scaling Laws)的依赖,认为如果小模型的设计目标是迭代推理而非仅仅是下一个 Token 预测(Next-token Prediction),那么智能也可以从小模型中涌现。文章介绍了微型递归模型(TRM),这是一种循环架构,将问题状态分为三个向量:不可变的问题(immutable question)、当前假设(current hypothesis)和潜在推理(latent reasoning)。与标准的前馈 LLM 不同,TRM 使用单一的浅层神经网络,通过嵌套循环来完善其思考和答案。通过采用自适应计算时间(Adaptive Computation Time,简称 ACT),模型可以根据置信度动态决定何时停止。在 Sudoku-Extreme 和 ARC-AGI 上的基准测试表明,TRM 显著优于 DeepSeek R1 和 Gemini 2.5 Pro 等巨头,证明了对于复杂的演绎推理,“时间深度”(递归)比“空间深度”(参数量)更有效。

💡 主要观点

- 智能是“时间深度”的函数,而不仅仅是“空间深度”。 文章认为,允许小模型在其推理过程中进行迭代(时间),对于逻辑任务而言,比单纯增加参数(空间)更有效。

下一个 Token 预测(NTP)在处理复杂推理时本质上是脆弱的。 标准 LLM 缺乏在生成过程中回溯或纠正内部逻辑的能力,导致错误累积,并倾向于依赖记忆而非演绎。
TRM 使用了一种具有“状态三位一体”(Trinity of State)的循环架构。 该模型维护一个不可变的问题向量、一个假设向量和一个潜在推理向量,并使用单一网络在嵌套循环中迭代更新它们。
自适应计算时间(ACT)实现了动态资源分配。 TRM 使用停止概率来决定何时答案已足够,使其能够在困难问题上花费更多的计算周期,而在简单问题上提前退出。
“容量陷阱”(Capacity Trap)表明更多的层数可能会阻碍推理。 将 TRM 的深度从 2 层增加到 4 层实际上降低了性能,因为额外的容量导致了过拟合和死记硬背,而非逻辑演绎。

💬 文章金句

- 一个微小的网络,如果被赋予对其自身解决方案进行重申的自由,能否胜过比它大几千倍的模型?

  • 该模型缺乏在回答前停止、回溯并纠正其内部逻辑的能力。
  • 这验证了该论文的核心假设:时间深度胜过空间深度。
  • 一个仅为 DeepSeek R1 大小 0.001% 的模型,其表现比它好近 3 倍。
  • 这证明了模型不需要庞大也能变得聪明;它只需要有效思考的时间。

📊 文章信息

AI 评分:88

来源:Towards Data Science

作者:Moulik Gupta

分类:人工智能

语言:英文

阅读时间:9 分钟

字数:2172

标签: 微型递归模型, 递归推理, ARC-AGI, 自适应计算时间, LLM 架构

阅读完整文章

查看原文 → 發佈: 2026-04-01 20:45:00 收錄: 2026-04-01 22:00:27

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。