普林斯顿大学团队提出 Goedel-Architect 智能体框架,通过蓝图生成与精炼策略,以 DeepSeek-V4-Flash 为核心,在形式化定理证明中实现 500 倍成本优势,并刷新多项基准纪录。
📝 详细摘要
文章报道了普林斯顿大学 PLI 实验室(由 Sanjeev Arora 与陈丹琦共同领导)发布的最新研究 Goedel-Architect。该框架的核心创新在于「蓝图」机制:在正式证明前先生成一张包含所有定义、引理及其依赖关系的有向无环图,再将节点并行分发给 Lean 证明器。当某个引理无法证明时,系统会生成结构化诊断报告,区分「命题有误」与「证明太难」两类失败模式,并在下一轮迭代中自动修正或分解节点。在 PutnamBench 上,Goedel-Architect 以 294 美元的成本达到 75.6% 的通过率,超越此前花费 17 万美元的 Hilbert(70.0%),成本优势约 500 倍。在 MiniF2F-test 上达到 99.2% 的通过率,并成为首个刷满全部 244 道题的系统。控制变量实验表明,性能提升主要来自 pipeline 设计而非模型本身。文章还引用了陶哲轩关于「证明过剩时代」的判断,以及形式化证明作为 AI 数学输出可信基础设施的讨论。
💡 主要观点
- Goedel-Architect 通过「蓝图」机制实现全局策略规划。 系统在证明前生成有向无环图,明确所有引理及其依赖关系,避免递归分解策略中常见的死胡同循环,提升并行效率。
💬 文章金句
- 数学正在从「证明稀缺时代」进入「证明过剩时代」,真正的瓶颈,已经从「如何生成证明」转移到了「如何验证与理解证明」。
- 形式化证明系统的价值,在于提供了一种让 AI 数学输出变得「可信」的基础设施。当 AI 有一天声称证明了一个重要猜想,Lean 编译器的判断比任何同行评审都更确定。
- Goedel-Architect 更是让这套基础设施的访问门槛降低了大约两个数量级。
📊 文章信息
AI 初评:88
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3834
标签: AI Agent, 形式化定理证明, LLM, DeepSeek, Lean