谷歌 DeepMind 发布「AI 联合数学家」系统,通过异步多 Agent 协作架构在 FrontierMath Tier 4 上取得 48% 的 SOTA,并协助牛津数学家破解了群论悬案。
📝 详细摘要
本文报道了谷歌 DeepMind 最新发布的「AI Co-Mathematician」(AI 联合数学家)系统。该系统并非传统的一问一答式模型,而是一个异步、有状态的多 Agent 协作工作空间。顶层由「项目协调者」Agent 统筹,可并行调度文献检索、计算框架搭建、证明策略探索等多条工作流。系统特别强调对失败假说的持久化追踪,将其视为与成功同等重要的研究产出。在基准测试中,该系统在极难的 FrontierMath Tier 4 上取得了 48% 的准确率,大幅超越 GPT-5.5 Pro(39.6%)等模型,且其底层模型 Gemini 3.1 Pro 单独测试仅得 19%,说明 29 个百分点的提升完全来自系统架构的编排能力。更值得关注的是,该系统已协助牛津数学家 Marc Lackenby 解决了 Kourovka Notebook 中悬而未决的第 21.10 号群论问题。文章还介绍了系统的团队背景、与 AlphaProof、AlphaEvolve 等前代系统的定位差异,以及其「讨好审稿人偏差」和「死亡螺旋」等已知失败模式。
💡 主要观点
- 「AI 联合数学家」是一个异步、有状态的多 Agent 协作系统,而非简单的问答模型。 系统由顶层协调者 Agent 统筹,可并行调度多条研究线(如文献检索、计算、策略探索),并允许数学家随时介入,形成人机深度协作的工作流。
💬 文章金句
- 数学界「悬案簿」Kourovka Notebook,AI 取得新突破。
- 在数学研究里,知道什么行不通往往和知道什么行得通同等重要。
- 软件工程领域已经有了 Claude Code、Cursor 这类 AI 编码环境...但数学家此前一直缺少一个等价的编排层。
- 从 19% 到 48%,这 29 个百分点的跳跃完全来自系统层面的编排。
- AI 和数学家之间的协作,可以比「问答」复杂得多,也有效得多。
📊 文章信息
AI 初评:88
来源:量子位
作者:听雨
分类:人工智能
语言:中文
阅读时间:14 分钟
字数:3403
标签: AI 联合数学家, Google DeepMind, 数学推理, 多 Agent 系统, FrontierMath