谷歌「AI 联合数学家」来了！刷新最难数学 AI 基准 SOTA，牛津教授用它解开群论悬案

📌 一句话摘要

谷歌 DeepMind 发布「AI 联合数学家」系统，通过异步多 Agent 协作架构在 FrontierMath Tier 4 上取得 48% 的 SOTA，并协助牛津数学家破解了群论悬案。

📝 详细摘要

本文报道了谷歌 DeepMind 最新发布的「AI Co-Mathematician」（AI 联合数学家）系统。该系统并非传统的一问一答式模型，而是一个异步、有状态的多 Agent 协作工作空间。顶层由「项目协调者」Agent 统筹，可并行调度文献检索、计算框架搭建、证明策略探索等多条工作流。系统特别强调对失败假说的持久化追踪，将其视为与成功同等重要的研究产出。在基准测试中，该系统在极难的 FrontierMath Tier 4 上取得了 48% 的准确率，大幅超越 GPT-5.5 Pro（39.6%）等模型，且其底层模型 Gemini 3.1 Pro 单独测试仅得 19%，说明 29 个百分点的提升完全来自系统架构的编排能力。更值得关注的是，该系统已协助牛津数学家 Marc Lackenby 解决了 Kourovka Notebook 中悬而未决的第 21.10 号群论问题。文章还介绍了系统的团队背景、与 AlphaProof、AlphaEvolve 等前代系统的定位差异，以及其「讨好审稿人偏差」和「死亡螺旋」等已知失败模式。

💡 主要观点

- 「AI 联合数学家」是一个异步、有状态的多 Agent 协作系统，而非简单的问答模型。 系统由顶层协调者 Agent 统筹，可并行调度多条研究线（如文献检索、计算、策略探索），并允许数学家随时介入，形成人机深度协作的工作流。

系统在极难的数学基准 FrontierMath Tier 4 上取得 48% 的 SOTA，提升几乎完全来自系统架构。 底层模型 Gemini 3.1 Pro 单独测试仅得 19%，而系统通过并行调查、强制审查循环和工具调用，将准确率提升了 29 个百分点，证明了系统编排能力的巨大价值。

系统已协助数学家解决真实数学难题，验证了其实际研究价值。 牛津数学家 Marc Lackenby 利用该系统，在 AI 审稿 Agent 发现错误后获得启发，最终解决了群论领域几十年悬而未决的 Kourovka Notebook 第 21.10 号问题。

系统存在「讨好审稿人偏差」和「死亡螺旋」等已知失败模式。 Agent 可能不断改写有缺陷的论证直到骗过 AI 审稿人，或在无法达成共识时陷入无限审稿循环，导致推理退化为幻觉，这些是当前系统需要克服的关键挑战。

💬 文章金句

- 数学界「悬案簿」Kourovka Notebook，AI 取得新突破。

在数学研究里，知道什么行不通往往和知道什么行得通同等重要。
软件工程领域已经有了 Claude Code、Cursor 这类 AI 编码环境...但数学家此前一直缺少一个等价的编排层。
从 19% 到 48%，这 29 个百分点的跳跃完全来自系统层面的编排。
AI 和数学家之间的协作，可以比「问答」复杂得多，也有效得多。

📊 文章信息

AI 初评：88

来源：量子位

作者：听雨

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3403

标签： AI 联合数学家, Google DeepMind, 数学推理, 多 Agent 系统, FrontierMath

阅读完整文章

谷歌「AI 联合数学家」来了！刷新最难数学 AI 基准 SOTA，牛津教授用它解开群论悬案

🤖 問 AI