“英伟达也缺算力！”顶尖 AI 研究员转投 xAI 内幕：谁 GPU 管够，就去哪里

📌 一句话摘要

前英伟达研究员 Ethan He 在访谈中透露，离开英伟达转投 xAI 的核心原因是算力不足，并深入探讨了视频模型训练的真实成本、视频智能体的未来方向，以及视觉智能正越来越多地由语言模型驱动这一关键洞察。

📝 详细摘要

本文是 InfoQ 对前英伟达研究员 Ethan He 的访谈整理。Ethan 曾参与英伟达 Cosmos 世界模型项目，后加入 xAI 参与打造 Grok Imagine。访谈中他详细解释了离开英伟达的原因：在意识到视频模型同样存在缩放规律后，算力成为研究的上限，即便是英伟达也无法完全满足前沿视频模型对算力的需求。他分享了在 xAI 从零搭建视频和多模态团队的经历，并提出了一个核心判断：视频生成的下一次跃迁可能不是更强的扩散模型，而是视频智能体。文章深入拆解了视频模型训练的真实成本，指出除了 GPU，数据标注、VAE 压缩、PB 级存储和云端带宽等隐性成本被严重低估。Ethan 还强调，当前视频模型的关键进步越来越多地来自语言模型而非视频模型本身，视觉智能很大程度上由语言智能驱动。此外，他阐述了自己对世界模型的定义（实时、交互、长时程），并预测视频智能体达到生产级质量将成为行业爆发的拐点。

💡 主要观点

- 算力成为前沿视频模型研究的上限，顶尖人才流向算力更充裕的公司。 Ethan 离开英伟达转投 xAI 的核心原因是，在确认视频模型存在缩放规律后，需要持续扩大训练规模，而算力成为研究本身的上限。这揭示了当前 AI 人才流动的新逻辑：谁能提供更多 GPU，谁就更有可能吸引前沿人才。

视频模型的真实成本被严重低估，GPU 只是冰山一角。 除了 GPU 租赁费用，视频模型训练还涉及 PB 级视频存储、VAE 压缩后的特征存储、互联网数据传输（出口流量）、数据标注和音视频时间戳对齐等大量隐性成本，这些成本每月可达数百万美元。

视频生成的下一次跃迁是视频智能体，而非更强的扩散模型。 Ethan 认为，视频生成正走向类似 AI 编程的路径，从一次性生成视频，转向能够规划创意任务、调用扩散模型和传统编辑工具、并交付生产级内容的视频智能体。

视觉智能正越来越多地由语言模型驱动。 当前视频模型的关键进步，如提示词重写、智能体式工具调用和迭代优化，主要来自语言模型的提升。视频模型本身相对“笨拙”，其能力的上限很大程度上取决于与之配合的语言模型的智能水平。

世界模型的最终形态是实时、交互、长时程的视频生成。 Ethan 将世界模型定义为实时、交互式、长时程视频。实现这一目标需要解决上下文长度爆炸、时间一致性、实时响应等核心挑战，而视频延展和参考生视频是通往这一目标的中间步骤。

💬 文章金句

- 视频模型的真实成本被严重低估。除了 GPU，数据标注、VAE 压缩、PB 级存储、云端带宽、音视频时间戳级对齐，都会成为隐性吞金兽。

视觉智能（visual intelligence）主要来自语言。现在这些视频模型，尤其是在扩散模型技术已经更加成熟之后，每次看到这些模型有所提升，我就会说，这些增益大多来自语言模型，而不是来自视频模型本身。
对我来说，世界模型就是实时、交互式、长时程视频。

📊 文章信息

AI 初评：86

来源：InfoQ 中文

作者：InfoQ 中文

分类：人工智能

语言：中文

阅读时间：66 分钟

字数：16400

标签： AI Agent, 视频生成, 世界模型, LLM, AI 编程

阅读完整文章

“英伟达也缺算力！”顶尖 AI 研究员转投 xAI 内幕：谁 GPU 管够，就去哪里

🤖 問 AI