DeepSeek V4 做数学证明，500 倍成本优势：智能体系统刷新多项纪录

📌 一句话摘要

普林斯顿大学团队提出 Goedel-Architect 智能体框架，通过蓝图生成与精炼策略，以 DeepSeek-V4-Flash 为核心，在形式化定理证明中实现 500 倍成本优势，并刷新多项基准纪录。

📝 详细摘要

文章报道了普林斯顿大学 PLI 实验室（由 Sanjeev Arora 与陈丹琦共同领导）发布的最新研究 Goedel-Architect。该框架的核心创新在于「蓝图」机制：在正式证明前先生成一张包含所有定义、引理及其依赖关系的有向无环图，再将节点并行分发给 Lean 证明器。当某个引理无法证明时，系统会生成结构化诊断报告，区分「命题有误」与「证明太难」两类失败模式，并在下一轮迭代中自动修正或分解节点。在 PutnamBench 上，Goedel-Architect 以 294 美元的成本达到 75.6% 的通过率，超越此前花费 17 万美元的 Hilbert（70.0%），成本优势约 500 倍。在 MiniF2F-test 上达到 99.2% 的通过率，并成为首个刷满全部 244 道题的系统。控制变量实验表明，性能提升主要来自 pipeline 设计而非模型本身。文章还引用了陶哲轩关于「证明过剩时代」的判断，以及形式化证明作为 AI 数学输出可信基础设施的讨论。

💡 主要观点

- Goedel-Architect 通过「蓝图」机制实现全局策略规划。 系统在证明前生成有向无环图，明确所有引理及其依赖关系，避免递归分解策略中常见的死胡同循环，提升并行效率。

蓝图精炼机制使系统能从失败中学习并自动修正。 当引理无法证明时，系统生成结构化诊断，区分命题错误与证明困难，并在下一轮迭代中自动修正或分解节点，实现迭代式推进。

在 PutnamBench 上实现 500 倍成本优势，且通过率更高。 Goedel-Architect 以 294 美元完成评测，通过率 75.6%，超越花费 17 万美元的 Hilbert（70.0%），展示了开源框架在成本效率上的巨大优势。

性能提升主要来自 pipeline 设计，而非模型本身。 控制变量实验显示，在相同 DeepSeek-V4-Flash 骨干下，Goedel-Architect 在 MiniF2F 上达到 99.2%，而采用递归分解的 Hilbert 仅达 84.4%。

💬 文章金句

- 数学正在从「证明稀缺时代」进入「证明过剩时代」，真正的瓶颈，已经从「如何生成证明」转移到了「如何验证与理解证明」。

形式化证明系统的价值，在于提供了一种让 AI 数学输出变得「可信」的基础设施。当 AI 有一天声称证明了一个重要猜想，Lean 编译器的判断比任何同行评审都更确定。
Goedel-Architect 更是让这套基础设施的访问门槛降低了大约两个数量级。

📊 文章信息

AI 初评：88

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3834

标签： AI Agent, 形式化定理证明, LLM, DeepSeek, Lean

阅读完整文章

DeepSeek V4 做数学证明，500 倍成本优势：智能体系统刷新多项纪录

🤖 問 AI