← 回總覽

谷歌 AI 的 14 年、Gemini 翻身之战,与视觉理解模型:专访 DeepMind 前核心科学家 Andrew Dai|Neolabs 特辑

📅 2026-05-20 15:14 硅谷101 人工智能 2 分鐘 1723 字 評分: 88
谷歌 AI Gemini DeepMind Andrew Dai 视觉推理
📌 一句话摘要 DeepMind 前核心科学家 Andrew Dai 深度访谈,回顾谷歌 AI 14 年发展史,从错失 GPT 时刻到 Gemini 翻身,并阐述其创立 Elorian AI 探索视觉推理路线的愿景。 📝 详细摘要 本文是硅谷 101 对 DeepMind 前核心科学家 Andrew Dai 的深度视频访谈的文字整理。Andrew 在谷歌 AI 领域工作了 14 年,亲历了从 Google Brain 到 DeepMind 整合的全过程。访谈中,他详细回顾了谷歌错失 GPT 时刻的关键节点:其主导的《半监督序列学习》论文启发了 OpenAI 的 GPT 系列,但谷歌内部因组

📌 一句话摘要

DeepMind 前核心科学家 Andrew Dai 深度访谈,回顾谷歌 AI 14 年发展史,从错失 GPT 时刻到 Gemini 翻身,并阐述其创立 Elorian AI 探索视觉推理路线的愿景。

📝 详细摘要

本文是硅谷 101 对 DeepMind 前核心科学家 Andrew Dai 的深度视频访谈的文字整理。Andrew 在谷歌 AI 领域工作了 14 年,亲历了从 Google Brain 到 DeepMind 整合的全过程。访谈中,他详细回顾了谷歌错失 GPT 时刻的关键节点:其主导的《半监督序列学习》论文启发了 OpenAI 的 GPT 系列,但谷歌内部因组织架构、资源分配和战略重心(如转向医疗健康)等原因未能及时跟进。他分享了 PaLM 2、FLAN、MoE 等关键技术突破背后的故事,以及 DeepMind 与 Google Brain 整合过程中的摩擦与挑战。Andrew 认为,大模型最大的差异点在于数据,而谷歌在 Gemini 3.0 后因组织庞大、决策保守,难以进行更激进的创新。因此,他选择离职创立 Elorian AI,专注于语言与视觉推理相结合的专用模型,认为这是通往 AGI 的关键路径。访谈还涉及他对研究品味、人才招聘以及当前 Neolab 浪潮的深刻见解。

💡 主要观点

- 谷歌错失 GPT 时刻源于组织惯性而非技术落后。 Andrew 的《半监督序列学习》论文启发了 GPT,但谷歌内部因资源分散、战略重心转移(如医疗健康)以及缺乏强力推动者,未能将预训练与 Transformer 结合,错失了先机。

DeepMind 与 Google Brain 的整合充满摩擦,拖慢了研发速度。 两个拥有不同文化和独立体系的团队合并,导致所有权争议、资源划分复杂,虽然最终催生了 Gemini,但初期磨合过程浪费了大量时间,并导致部分人才流失。
数据质量是大模型竞争的核心差异点。 Andrew 强调,在架构和算力趋同的背景下,如何筛选、优化和生成高质量数据(包括合成数据)是决定模型能力的关键,这也是他在 Gemini 2.0 上取得突破的核心。
视觉推理是通往 AGI 的关键路径,但被主流大模型公司忽视。 Andrew 认为,纯语言模型和世界模型都有局限,将语言推理与视觉理解结合才能实现更接近人类的智能。他创立 Elorian AI,正是为了在巨头专注于编程模型时,抢占视觉推理这一蓝海。

💬 文章金句

- 我们的核心想法是:把语言模型和 fine-tuning(微调)结合到一起,就可以做出一个很好的模型。所以我们是第一个把这两部分放在一起的团队。

  • 我觉得最大的差异就是数据。
  • 我能感觉到我们用的方法和取得的进展都比较保守,因为有几千个人在这个项目上,用那么多 GPU 做预训练,就不能用太激进、太有风险的新想法。
  • 如果你做一个 specialist model(专用模型),generalist model(通用模型)就很难超越它。
  • 我觉得最重要的资源是时间。如果你跑了一个错误的实验或者走了一条错误的路,时间不会回来。

📊 文章信息

AI 初评:88

来源:硅谷101

作者:硅谷101

分类:人工智能

语言:中文

阅读时间:78 分钟

字数:19282

标签: 谷歌 AI, Gemini, DeepMind, Andrew Dai, 视觉推理

阅读完整文章

查看原文 → 發佈: 2026-05-20 15:14:00 收錄: 2026-05-20 20:00:58

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。