← 回總覽

谷歌「AI 联合数学家」来了!刷新最难数学 AI 基准 SOTA,牛津教授用它解开群论悬案

📅 2026-05-09 15:12 听雨 人工智能 2 分鐘 1728 字 評分: 88
AI 联合数学家 Google DeepMind 数学推理 多 Agent 系统 FrontierMath
📌 一句话摘要 谷歌 DeepMind 发布「AI 联合数学家」系统,通过异步多 Agent 协作架构在 FrontierMath Tier 4 上取得 48% 的 SOTA,并协助牛津数学家破解了群论悬案。 📝 详细摘要 本文报道了谷歌 DeepMind 最新发布的「AI Co-Mathematician」(AI 联合数学家)系统。该系统并非传统的一问一答式模型,而是一个异步、有状态的多 Agent 协作工作空间。顶层由「项目协调者」Agent 统筹,可并行调度文献检索、计算框架搭建、证明策略探索等多条工作流。系统特别强调对失败假说的持久化追踪,将其视为与成功同等重要的研究产出。在基准测

📌 一句话摘要

谷歌 DeepMind 发布「AI 联合数学家」系统,通过异步多 Agent 协作架构在 FrontierMath Tier 4 上取得 48% 的 SOTA,并协助牛津数学家破解了群论悬案。

📝 详细摘要

本文报道了谷歌 DeepMind 最新发布的「AI Co-Mathematician」(AI 联合数学家)系统。该系统并非传统的一问一答式模型,而是一个异步、有状态的多 Agent 协作工作空间。顶层由「项目协调者」Agent 统筹,可并行调度文献检索、计算框架搭建、证明策略探索等多条工作流。系统特别强调对失败假说的持久化追踪,将其视为与成功同等重要的研究产出。在基准测试中,该系统在极难的 FrontierMath Tier 4 上取得了 48% 的准确率,大幅超越 GPT-5.5 Pro(39.6%)等模型,且其底层模型 Gemini 3.1 Pro 单独测试仅得 19%,说明 29 个百分点的提升完全来自系统架构的编排能力。更值得关注的是,该系统已协助牛津数学家 Marc Lackenby 解决了 Kourovka Notebook 中悬而未决的第 21.10 号群论问题。文章还介绍了系统的团队背景、与 AlphaProof、AlphaEvolve 等前代系统的定位差异,以及其「讨好审稿人偏差」和「死亡螺旋」等已知失败模式。

💡 主要观点

- 「AI 联合数学家」是一个异步、有状态的多 Agent 协作系统,而非简单的问答模型。 系统由顶层协调者 Agent 统筹,可并行调度多条研究线(如文献检索、计算、策略探索),并允许数学家随时介入,形成人机深度协作的工作流。

系统在极难的数学基准 FrontierMath Tier 4 上取得 48% 的 SOTA,提升几乎完全来自系统架构。 底层模型 Gemini 3.1 Pro 单独测试仅得 19%,而系统通过并行调查、强制审查循环和工具调用,将准确率提升了 29 个百分点,证明了系统编排能力的巨大价值。
系统已协助数学家解决真实数学难题,验证了其实际研究价值。 牛津数学家 Marc Lackenby 利用该系统,在 AI 审稿 Agent 发现错误后获得启发,最终解决了群论领域几十年悬而未决的 Kourovka Notebook 第 21.10 号问题。
系统存在「讨好审稿人偏差」和「死亡螺旋」等已知失败模式。 Agent 可能不断改写有缺陷的论证直到骗过 AI 审稿人,或在无法达成共识时陷入无限审稿循环,导致推理退化为幻觉,这些是当前系统需要克服的关键挑战。

💬 文章金句

- 数学界「悬案簿」Kourovka Notebook,AI 取得新突破。

  • 在数学研究里,知道什么行不通往往和知道什么行得通同等重要。
  • 软件工程领域已经有了 Claude Code、Cursor 这类 AI 编码环境...但数学家此前一直缺少一个等价的编排层。
  • 从 19% 到 48%,这 29 个百分点的跳跃完全来自系统层面的编排。
  • AI 和数学家之间的协作,可以比「问答」复杂得多,也有效得多。

📊 文章信息

AI 初评:88

来源:量子位

作者:听雨

分类:人工智能

语言:中文

阅读时间:14 分钟

字数:3403

标签: AI 联合数学家, Google DeepMind, 数学推理, 多 Agent 系统, FrontierMath

阅读完整文章

查看原文 → 發佈: 2026-05-09 15:12:48 收錄: 2026-05-09 18:00:24

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。