本文探讨了微型递归模型(Tiny Recursion Model,简称 TRM),这是一个拥有 700 万参数的架构,它通过优先考虑迭代推理而非模型规模,在逻辑推理基准测试中超越了 DeepSeek R1 和 Claude 3.7 等大型 LLM。
📝 详细摘要
本文挑战了行业对缩放定律(Scaling Laws)的依赖,认为如果小模型的设计目标是迭代推理而非仅仅是下一个 Token 预测(Next-token Prediction),那么智能也可以从小模型中涌现。文章介绍了微型递归模型(TRM),这是一种循环架构,将问题状态分为三个向量:不可变的问题(immutable question)、当前假设(current hypothesis)和潜在推理(latent reasoning)。与标准的前馈 LLM 不同,TRM 使用单一的浅层神经网络,通过嵌套循环来完善其思考和答案。通过采用自适应计算时间(Adaptive Computation Time,简称 ACT),模型可以根据置信度动态决定何时停止。在 Sudoku-Extreme 和 ARC-AGI 上的基准测试表明,TRM 显著优于 DeepSeek R1 和 Gemini 2.5 Pro 等巨头,证明了对于复杂的演绎推理,“时间深度”(递归)比“空间深度”(参数量)更有效。
💡 主要观点
- 智能是“时间深度”的函数,而不仅仅是“空间深度”。 文章认为,允许小模型在其推理过程中进行迭代(时间),对于逻辑任务而言,比单纯增加参数(空间)更有效。
💬 文章金句
- 一个微小的网络,如果被赋予对其自身解决方案进行重申的自由,能否胜过比它大几千倍的模型?
- 该模型缺乏在回答前停止、回溯并纠正其内部逻辑的能力。
- 这验证了该论文的核心假设:时间深度胜过空间深度。
- 一个仅为 DeepSeek R1 大小 0.001% 的模型,其表现比它好近 3 倍。
- 这证明了模型不需要庞大也能变得聪明;它只需要有效思考的时间。
📊 文章信息
AI 评分:88
来源:Towards Data Science
作者:Moulik Gupta
分类:人工智能
语言:英文
阅读时间:9 分钟
字数:2172
标签: 微型递归模型, 递归推理, ARC-AGI, 自适应计算时间, LLM 架构