← 回總覽

Z Tech|对话 Andrew Dai:14 年 DeepMind 生涯,见证 PaLM 到 Gemini,下一站押注视觉推理

📅 2026-05-27 13:04 Z Potentials 人工智能 2 分鐘 1919 字 評分: 88
Andrew Dai 视觉推理 多模态 Google DeepMind Gemini
📌 一句话摘要 前 Google DeepMind 研究科学家总监 Andrew Dai 在访谈中回顾了 14 年职业生涯,从 Google Brain 早期到 Gemini 的演进,并阐述了他为何押注视觉推理,认为这是下一代 AI 突破的关键。 📝 详细摘要 本文是 Z Potentials 对前 Google DeepMind 研究科学家总监 Andrew Dai(戴明博)的深度访谈。Andrew 在 Google 工作超过 14 年,深度参与了从 PaLM 到 Gemini 的大模型演进,并共同撰写了语言模型预训练与监督微调、MoE 架构等奠基性论文。访谈中,他回顾了 Google

📌 一句话摘要

前 Google DeepMind 研究科学家总监 Andrew Dai 在访谈中回顾了 14 年职业生涯,从 Google Brain 早期到 Gemini 的演进,并阐述了他为何押注视觉推理,认为这是下一代 AI 突破的关键。

📝 详细摘要

本文是 Z Potentials 对前 Google DeepMind 研究科学家总监 Andrew Dai(戴明博)的深度访谈。Andrew 在 Google 工作超过 14 年,深度参与了从 PaLM 到 Gemini 的大模型演进,并共同撰写了语言模型预训练与监督微调、MoE 架构等奠基性论文。访谈中,他回顾了 Google Brain 早期 40 人团队的创新文化,以及 PaLM 2 从研究项目到产品部署的关键转折。他分享了离开 Google 创办 Elorian AI 的决策逻辑:开源模型降低了创业门槛、文本能力已趋成熟、视觉推理是未被充分开发的巨大市场。Andrew 提出了「锯齿状前沿」概念,认为 AI 能力并非线性增长,而是在某些领域远超人类,在另一些基础能力(如计数、空间理解)上却依然脆弱。他批评当前大模型本质上仍是在「文本空间」中推理,缺乏真正的「世界理解」,并认为未来将是「专精化 Frontier Model」的时代,视觉推理与多模态理解是下一代 AI 的核心。

💡 主要观点

- Andrew Dai 认为当前大模型缺乏真正的「世界理解」,其推理仍建立在文本空间之上。 他指出,模型能生成逼真的图像和文字,但无法理解基本的物理关系,如计数或空间感知。真正的推理应基于视觉和多模态,而非纯文本,因为人类和动物在拥有语言前就已具备这些能力。

他提出「锯齿状前沿」概念,认为 AI 能力发展极不均匀,存在巨大安全风险。 AI 在某些领域(如围棋、代码)已远超人类,但在计数等基础能力上仍脆弱。这种不均匀性可能导致在关键任务(如安全驾驶)中因模型在某个关键能力上的缺失而引发灾难,且容易被忽视。
Andrew 认为未来将是「专精化 Frontier Model」的时代,多模态与代码能力存在根本性冲突。 他观察到,加入大量多模态数据会降低模型的 coding 能力,反之亦然。因此,很难用一个模型同时将两者做到极致。他的新公司 Elorian AI 将专注于构建专门针对多模态推理优化的模型。
他选择创业的时机源于开源模型降低了门槛,以及文本能力成熟带来的「黄金机会窗口」。 Andrew 认为,开源模型快速逼近闭源能力,使得新公司无需从零搭建基础设施。同时,文本能力已非常成熟,而视觉推理领域仍有巨大空白,这是创业的最佳时机。

💬 文章金句

- 现在的多模态模型其实也是一样。它们能够生成看起来非常真实的图像和视频。普通用户已经很难分辨真假。但真正的专业人士,比如导演、摄影师、艺术家,一眼就能看出问题。比如:'这个人为什么有六根手指?'所以我们现在的阶段,其实只是'看起来像理解'。

  • 也许未来最危险的,不是 AI 不会思考,而是人类误以为它已经会思考。
  • 我认为:未来会是'专精化 Frontier Model'的时代。我们现在做的事情,就是构建一个专门针对多模态推理优化的模型。
  • 现在的世界模型,大概相当于语言模型二十年前的阶段。那个时候,我们知道自己想构建某种具备高级能力的系统。但没人知道它最终会变成什么。
  • 目前大多数关于 AGI 的讨论都建立在「平滑前沿」的假设上...但现实可能不是这样。我在过去十年的发展中看到的是,这是一个高度锯齿状的前沿。

📊 文章信息

AI 初评:88

来源:Z Potentials

作者:Z Potentials

分类:人工智能

语言:中文

阅读时间:55 分钟

字数:13622

标签: Andrew Dai, 视觉推理, 多模态, Google DeepMind, Gemini

阅读完整文章

查看原文 → 發佈: 2026-05-27 13:04:00 收錄: 2026-05-27 22:00:37

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。