一个小 10，000 倍的模型如何胜过 ChatGPT？

📌 一句话摘要

本文探讨了微型递归模型（Tiny Recursion Model，简称 TRM），这是一个拥有 700 万参数的架构，它通过优先考虑迭代推理而非模型规模，在逻辑推理基准测试中超越了 DeepSeek R1 和 Claude 3.7 等大型 LLM。

📝 详细摘要

本文挑战了行业对缩放定律（Scaling Laws）的依赖，认为如果小模型的设计目标是迭代推理而非仅仅是下一个 Token 预测（Next-token Prediction），那么智能也可以从小模型中涌现。文章介绍了微型递归模型（TRM），这是一种循环架构，将问题状态分为三个向量：不可变的问题（immutable question）、当前假设（current hypothesis）和潜在推理（latent reasoning）。与标准的前馈 LLM 不同，TRM 使用单一的浅层神经网络，通过嵌套循环来完善其思考和答案。通过采用自适应计算时间（Adaptive Computation Time，简称 ACT），模型可以根据置信度动态决定何时停止。在 Sudoku-Extreme 和 ARC-AGI 上的基准测试表明，TRM 显著优于 DeepSeek R1 和 Gemini 2.5 Pro 等巨头，证明了对于复杂的演绎推理，“时间深度”（递归）比“空间深度”（参数量）更有效。

💡 主要观点

- 智能是“时间深度”的函数，而不仅仅是“空间深度”。 文章认为，允许小模型在其推理过程中进行迭代（时间），对于逻辑任务而言，比单纯增加参数（空间）更有效。

下一个 Token 预测（NTP）在处理复杂推理时本质上是脆弱的。 标准 LLM 缺乏在生成过程中回溯或纠正内部逻辑的能力，导致错误累积，并倾向于依赖记忆而非演绎。

TRM 使用了一种具有“状态三位一体”（Trinity of State）的循环架构。 该模型维护一个不可变的问题向量、一个假设向量和一个潜在推理向量，并使用单一网络在嵌套循环中迭代更新它们。

自适应计算时间（ACT）实现了动态资源分配。 TRM 使用停止概率来决定何时答案已足够，使其能够在困难问题上花费更多的计算周期，而在简单问题上提前退出。

“容量陷阱”（Capacity Trap）表明更多的层数可能会阻碍推理。 将 TRM 的深度从 2 层增加到 4 层实际上降低了性能，因为额外的容量导致了过拟合和死记硬背，而非逻辑演绎。

💬 文章金句

- 一个微小的网络，如果被赋予对其自身解决方案进行重申的自由，能否胜过比它大几千倍的模型？

该模型缺乏在回答前停止、回溯并纠正其内部逻辑的能力。
这验证了该论文的核心假设：时间深度胜过空间深度。
一个仅为 DeepSeek R1 大小 0.001% 的模型，其表现比它好近 3 倍。
这证明了模型不需要庞大也能变得聪明；它只需要有效思考的时间。

📊 文章信息

AI 评分：88

来源：Towards Data Science

作者：Moulik Gupta

分类：人工智能

语言：英文

阅读时间：9 分钟

字数：2172

标签：微型递归模型, 递归推理, ARC-AGI, 自适应计算时间, LLM 架构

阅读完整文章

一个小 10，000 倍的模型如何胜过 ChatGPT？

🤖 問 AI