前 Google DeepMind 研究科学家总监 Andrew Dai 在访谈中回顾了 14 年职业生涯,从 Google Brain 早期到 Gemini 的演进,并阐述了他为何押注视觉推理,认为这是下一代 AI 突破的关键。
📝 详细摘要
本文是 Z Potentials 对前 Google DeepMind 研究科学家总监 Andrew Dai(戴明博)的深度访谈。Andrew 在 Google 工作超过 14 年,深度参与了从 PaLM 到 Gemini 的大模型演进,并共同撰写了语言模型预训练与监督微调、MoE 架构等奠基性论文。访谈中,他回顾了 Google Brain 早期 40 人团队的创新文化,以及 PaLM 2 从研究项目到产品部署的关键转折。他分享了离开 Google 创办 Elorian AI 的决策逻辑:开源模型降低了创业门槛、文本能力已趋成熟、视觉推理是未被充分开发的巨大市场。Andrew 提出了「锯齿状前沿」概念,认为 AI 能力并非线性增长,而是在某些领域远超人类,在另一些基础能力(如计数、空间理解)上却依然脆弱。他批评当前大模型本质上仍是在「文本空间」中推理,缺乏真正的「世界理解」,并认为未来将是「专精化 Frontier Model」的时代,视觉推理与多模态理解是下一代 AI 的核心。
💡 主要观点
- Andrew Dai 认为当前大模型缺乏真正的「世界理解」,其推理仍建立在文本空间之上。 他指出,模型能生成逼真的图像和文字,但无法理解基本的物理关系,如计数或空间感知。真正的推理应基于视觉和多模态,而非纯文本,因为人类和动物在拥有语言前就已具备这些能力。
💬 文章金句
- 现在的多模态模型其实也是一样。它们能够生成看起来非常真实的图像和视频。普通用户已经很难分辨真假。但真正的专业人士,比如导演、摄影师、艺术家,一眼就能看出问题。比如:'这个人为什么有六根手指?'所以我们现在的阶段,其实只是'看起来像理解'。
- 也许未来最危险的,不是 AI 不会思考,而是人类误以为它已经会思考。
- 我认为:未来会是'专精化 Frontier Model'的时代。我们现在做的事情,就是构建一个专门针对多模态推理优化的模型。
- 现在的世界模型,大概相当于语言模型二十年前的阶段。那个时候,我们知道自己想构建某种具备高级能力的系统。但没人知道它最终会变成什么。
- 目前大多数关于 AGI 的讨论都建立在「平滑前沿」的假设上...但现实可能不是这样。我在过去十年的发展中看到的是,这是一个高度锯齿状的前沿。
📊 文章信息
AI 初评:88
来源:Z Potentials
作者:Z Potentials
分类:人工智能
语言:中文
阅读时间:55 分钟
字数:13622
标签: Andrew Dai, 视觉推理, 多模态, Google DeepMind, Gemini