DeepMind 前核心科学家 Andrew Dai 深度访谈,回顾谷歌 AI 14 年发展史,从错失 GPT 时刻到 Gemini 翻身,并阐述其创立 Elorian AI 探索视觉推理路线的愿景。
📝 详细摘要
本文是硅谷 101 对 DeepMind 前核心科学家 Andrew Dai 的深度视频访谈的文字整理。Andrew 在谷歌 AI 领域工作了 14 年,亲历了从 Google Brain 到 DeepMind 整合的全过程。访谈中,他详细回顾了谷歌错失 GPT 时刻的关键节点:其主导的《半监督序列学习》论文启发了 OpenAI 的 GPT 系列,但谷歌内部因组织架构、资源分配和战略重心(如转向医疗健康)等原因未能及时跟进。他分享了 PaLM 2、FLAN、MoE 等关键技术突破背后的故事,以及 DeepMind 与 Google Brain 整合过程中的摩擦与挑战。Andrew 认为,大模型最大的差异点在于数据,而谷歌在 Gemini 3.0 后因组织庞大、决策保守,难以进行更激进的创新。因此,他选择离职创立 Elorian AI,专注于语言与视觉推理相结合的专用模型,认为这是通往 AGI 的关键路径。访谈还涉及他对研究品味、人才招聘以及当前 Neolab 浪潮的深刻见解。
💡 主要观点
- 谷歌错失 GPT 时刻源于组织惯性而非技术落后。 Andrew 的《半监督序列学习》论文启发了 GPT,但谷歌内部因资源分散、战略重心转移(如医疗健康)以及缺乏强力推动者,未能将预训练与 Transformer 结合,错失了先机。
💬 文章金句
- 我们的核心想法是:把语言模型和 fine-tuning(微调)结合到一起,就可以做出一个很好的模型。所以我们是第一个把这两部分放在一起的团队。
- 我觉得最大的差异就是数据。
- 我能感觉到我们用的方法和取得的进展都比较保守,因为有几千个人在这个项目上,用那么多 GPU 做预训练,就不能用太激进、太有风险的新想法。
- 如果你做一个 specialist model(专用模型),generalist model(通用模型)就很难超越它。
- 我觉得最重要的资源是时间。如果你跑了一个错误的实验或者走了一条错误的路,时间不会回来。
📊 文章信息
AI 初评:88
来源:硅谷101
作者:硅谷101
分类:人工智能
语言:中文
阅读时间:78 分钟
字数:19282
标签: 谷歌 AI, Gemini, DeepMind, Andrew Dai, 视觉推理