谷歌 AI 的 14 年、Gemini 翻身之战，与视觉理解模型：专访 DeepMind 前核心科学家 Andrew Dai｜Neolabs 特辑

📌 一句话摘要

DeepMind 前核心科学家 Andrew Dai 深度访谈，回顾谷歌 AI 14 年发展史，从错失 GPT 时刻到 Gemini 翻身，并阐述其创立 Elorian AI 探索视觉推理路线的愿景。

📝 详细摘要

本文是硅谷 101 对 DeepMind 前核心科学家 Andrew Dai 的深度视频访谈的文字整理。Andrew 在谷歌 AI 领域工作了 14 年，亲历了从 Google Brain 到 DeepMind 整合的全过程。访谈中，他详细回顾了谷歌错失 GPT 时刻的关键节点：其主导的《半监督序列学习》论文启发了 OpenAI 的 GPT 系列，但谷歌内部因组织架构、资源分配和战略重心（如转向医疗健康）等原因未能及时跟进。他分享了 PaLM 2、FLAN、MoE 等关键技术突破背后的故事，以及 DeepMind 与 Google Brain 整合过程中的摩擦与挑战。Andrew 认为，大模型最大的差异点在于数据，而谷歌在 Gemini 3.0 后因组织庞大、决策保守，难以进行更激进的创新。因此，他选择离职创立 Elorian AI，专注于语言与视觉推理相结合的专用模型，认为这是通往 AGI 的关键路径。访谈还涉及他对研究品味、人才招聘以及当前 Neolab 浪潮的深刻见解。

💡 主要观点

- 谷歌错失 GPT 时刻源于组织惯性而非技术落后。 Andrew 的《半监督序列学习》论文启发了 GPT，但谷歌内部因资源分散、战略重心转移（如医疗健康）以及缺乏强力推动者，未能将预训练与 Transformer 结合，错失了先机。

DeepMind 与 Google Brain 的整合充满摩擦，拖慢了研发速度。 两个拥有不同文化和独立体系的团队合并，导致所有权争议、资源划分复杂，虽然最终催生了 Gemini，但初期磨合过程浪费了大量时间，并导致部分人才流失。

数据质量是大模型竞争的核心差异点。 Andrew 强调，在架构和算力趋同的背景下，如何筛选、优化和生成高质量数据（包括合成数据）是决定模型能力的关键，这也是他在 Gemini 2.0 上取得突破的核心。

视觉推理是通往 AGI 的关键路径，但被主流大模型公司忽视。 Andrew 认为，纯语言模型和世界模型都有局限，将语言推理与视觉理解结合才能实现更接近人类的智能。他创立 Elorian AI，正是为了在巨头专注于编程模型时，抢占视觉推理这一蓝海。

💬 文章金句

- 我们的核心想法是：把语言模型和 fine-tuning（微调）结合到一起，就可以做出一个很好的模型。所以我们是第一个把这两部分放在一起的团队。

我觉得最大的差异就是数据。
我能感觉到我们用的方法和取得的进展都比较保守，因为有几千个人在这个项目上，用那么多 GPU 做预训练，就不能用太激进、太有风险的新想法。
如果你做一个 specialist model（专用模型），generalist model（通用模型）就很难超越它。
我觉得最重要的资源是时间。如果你跑了一个错误的实验或者走了一条错误的路，时间不会回来。

📊 文章信息

AI 初评：88

来源：硅谷101

作者：硅谷101

分类：人工智能

语言：中文

阅读时间：78 分钟

字数：19282

标签：谷歌 AI, Gemini, DeepMind, Andrew Dai, 视觉推理

阅读完整文章

谷歌 AI 的 14 年、Gemini 翻身之战，与视觉理解模型：专访 DeepMind 前核心科学家 Andrew Dai｜Neolabs 特辑

🤖 問 AI