← 回總覽

DeepSeek V4 做数学证明,500 倍成本优势:智能体系统刷新多项纪录

📅 2026-06-06 12:00 机器之心 人工智能 2 分鐘 1598 字 評分: 88
AI Agent 形式化定理证明 LLM DeepSeek Lean
📌 一句话摘要 普林斯顿大学团队提出 Goedel-Architect 智能体框架,通过蓝图生成与精炼策略,以 DeepSeek-V4-Flash 为核心,在形式化定理证明中实现 500 倍成本优势,并刷新多项基准纪录。 📝 详细摘要 文章报道了普林斯顿大学 PLI 实验室(由 Sanjeev Arora 与陈丹琦共同领导)发布的最新研究 Goedel-Architect。该框架的核心创新在于「蓝图」机制:在正式证明前先生成一张包含所有定义、引理及其依赖关系的有向无环图,再将节点并行分发给 Lean 证明器。当某个引理无法证明时,系统会生成结构化诊断报告,区分「命题有误」与「证明太难」两类

📌 一句话摘要

普林斯顿大学团队提出 Goedel-Architect 智能体框架,通过蓝图生成与精炼策略,以 DeepSeek-V4-Flash 为核心,在形式化定理证明中实现 500 倍成本优势,并刷新多项基准纪录。

📝 详细摘要

文章报道了普林斯顿大学 PLI 实验室(由 Sanjeev Arora 与陈丹琦共同领导)发布的最新研究 Goedel-Architect。该框架的核心创新在于「蓝图」机制:在正式证明前先生成一张包含所有定义、引理及其依赖关系的有向无环图,再将节点并行分发给 Lean 证明器。当某个引理无法证明时,系统会生成结构化诊断报告,区分「命题有误」与「证明太难」两类失败模式,并在下一轮迭代中自动修正或分解节点。在 PutnamBench 上,Goedel-Architect 以 294 美元的成本达到 75.6% 的通过率,超越此前花费 17 万美元的 Hilbert(70.0%),成本优势约 500 倍。在 MiniF2F-test 上达到 99.2% 的通过率,并成为首个刷满全部 244 道题的系统。控制变量实验表明,性能提升主要来自 pipeline 设计而非模型本身。文章还引用了陶哲轩关于「证明过剩时代」的判断,以及形式化证明作为 AI 数学输出可信基础设施的讨论。

💡 主要观点

- Goedel-Architect 通过「蓝图」机制实现全局策略规划。 系统在证明前生成有向无环图,明确所有引理及其依赖关系,避免递归分解策略中常见的死胡同循环,提升并行效率。

蓝图精炼机制使系统能从失败中学习并自动修正。 当引理无法证明时,系统生成结构化诊断,区分命题错误与证明困难,并在下一轮迭代中自动修正或分解节点,实现迭代式推进。
在 PutnamBench 上实现 500 倍成本优势,且通过率更高。 Goedel-Architect 以 294 美元完成评测,通过率 75.6%,超越花费 17 万美元的 Hilbert(70.0%),展示了开源框架在成本效率上的巨大优势。
性能提升主要来自 pipeline 设计,而非模型本身。 控制变量实验显示,在相同 DeepSeek-V4-Flash 骨干下,Goedel-Architect 在 MiniF2F 上达到 99.2%,而采用递归分解的 Hilbert 仅达 84.4%。

💬 文章金句

- 数学正在从「证明稀缺时代」进入「证明过剩时代」,真正的瓶颈,已经从「如何生成证明」转移到了「如何验证与理解证明」。

  • 形式化证明系统的价值,在于提供了一种让 AI 数学输出变得「可信」的基础设施。当 AI 有一天声称证明了一个重要猜想,Lean 编译器的判断比任何同行评审都更确定。
  • Goedel-Architect 更是让这套基础设施的访问门槛降低了大约两个数量级。

📊 文章信息

AI 初评:88

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:16 分钟

字数:3834

标签: AI Agent, 形式化定理证明, LLM, DeepSeek, Lean

阅读完整文章

查看原文 → 發佈: 2026-06-06 12:00:00 收錄: 2026-06-07 00:00:12

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。