Z Tech｜对话 Andrew Dai：14 年 DeepMind 生涯，见证 PaLM 到 Gemini，下一站押注视觉推理

📌 一句话摘要

前 Google DeepMind 研究科学家总监 Andrew Dai 在访谈中回顾了 14 年职业生涯，从 Google Brain 早期到 Gemini 的演进，并阐述了他为何押注视觉推理，认为这是下一代 AI 突破的关键。

📝 详细摘要

本文是 Z Potentials 对前 Google DeepMind 研究科学家总监 Andrew Dai（戴明博）的深度访谈。Andrew 在 Google 工作超过 14 年，深度参与了从 PaLM 到 Gemini 的大模型演进，并共同撰写了语言模型预训练与监督微调、MoE 架构等奠基性论文。访谈中，他回顾了 Google Brain 早期 40 人团队的创新文化，以及 PaLM 2 从研究项目到产品部署的关键转折。他分享了离开 Google 创办 Elorian AI 的决策逻辑：开源模型降低了创业门槛、文本能力已趋成熟、视觉推理是未被充分开发的巨大市场。Andrew 提出了「锯齿状前沿」概念，认为 AI 能力并非线性增长，而是在某些领域远超人类，在另一些基础能力（如计数、空间理解）上却依然脆弱。他批评当前大模型本质上仍是在「文本空间」中推理，缺乏真正的「世界理解」，并认为未来将是「专精化 Frontier Model」的时代，视觉推理与多模态理解是下一代 AI 的核心。

💡 主要观点

- Andrew Dai 认为当前大模型缺乏真正的「世界理解」，其推理仍建立在文本空间之上。 他指出，模型能生成逼真的图像和文字，但无法理解基本的物理关系，如计数或空间感知。真正的推理应基于视觉和多模态，而非纯文本，因为人类和动物在拥有语言前就已具备这些能力。

他提出「锯齿状前沿」概念，认为 AI 能力发展极不均匀，存在巨大安全风险。 AI 在某些领域（如围棋、代码）已远超人类，但在计数等基础能力上仍脆弱。这种不均匀性可能导致在关键任务（如安全驾驶）中因模型在某个关键能力上的缺失而引发灾难，且容易被忽视。

Andrew 认为未来将是「专精化 Frontier Model」的时代，多模态与代码能力存在根本性冲突。 他观察到，加入大量多模态数据会降低模型的 coding 能力，反之亦然。因此，很难用一个模型同时将两者做到极致。他的新公司 Elorian AI 将专注于构建专门针对多模态推理优化的模型。

他选择创业的时机源于开源模型降低了门槛，以及文本能力成熟带来的「黄金机会窗口」。 Andrew 认为，开源模型快速逼近闭源能力，使得新公司无需从零搭建基础设施。同时，文本能力已非常成熟，而视觉推理领域仍有巨大空白，这是创业的最佳时机。

💬 文章金句

- 现在的多模态模型其实也是一样。它们能够生成看起来非常真实的图像和视频。普通用户已经很难分辨真假。但真正的专业人士，比如导演、摄影师、艺术家，一眼就能看出问题。比如：'这个人为什么有六根手指？'所以我们现在的阶段，其实只是'看起来像理解'。

也许未来最危险的，不是 AI 不会思考，而是人类误以为它已经会思考。
我认为：未来会是'专精化 Frontier Model'的时代。我们现在做的事情，就是构建一个专门针对多模态推理优化的模型。
现在的世界模型，大概相当于语言模型二十年前的阶段。那个时候，我们知道自己想构建某种具备高级能力的系统。但没人知道它最终会变成什么。
目前大多数关于 AGI 的讨论都建立在「平滑前沿」的假设上...但现实可能不是这样。我在过去十年的发展中看到的是，这是一个高度锯齿状的前沿。

📊 文章信息

AI 初评：88

来源：Z Potentials

作者：Z Potentials

分类：人工智能

语言：中文

阅读时间：55 分钟

字数：13622

标签： Andrew Dai, 视觉推理, 多模态, Google DeepMind, Gemini

阅读完整文章

Z Tech｜对话 Andrew Dai：14 年 DeepMind 生涯，见证 PaLM 到 Gemini，下一站押注视觉推理

🤖 問 AI