马斯克的 GPU 也在摸鱼？狂囤几十万张显卡，只有 11%在干活

📌 一句话摘要

xAI 囤积数十万张 GPU，但有效训练算力利用率（MFU）仅约 11%，暴露了 AI 竞赛从「囤卡」到「把卡跑满」的 KPI 切换。

📝 详细摘要

文章基于 The Information 和 Business Insider 的报道，披露了 xAI 内部备忘录中一个「低得尴尬」的数字：其数十万张 GPU 的模型浮点运算利用率（MFU）仅约 11%。文章详细解释了 MFU 这一关键指标，它衡量的是 GPU 理论算力中真正转化为有效训练吞吐的比例，而非简单的占用率。通过对比英伟达 Megatron-LM（47%）和谷歌 PaLM 等公开数据，11% 远低于行业正常水平（35%-45%），甚至低于 GPT-3 等早期模型。文章指出，低 MFU 并非 xAI 独有问题，而是全行业面临的系统级挑战，根源在于显存压力、通信开销、并行策略等训练栈问题。xAI 在硬件部署上是「模范生」，却仍只有 11%，说明瓶颈在更上层的软件和工程层面。与此同时，xAI 开始将 Colossus 集群的算力出租给 Cursor 等公司，并经历了基础设施团队的人事调整，暗示其正在从「世界最大超算」向「半成品云厂商」转型。文章最终指出，AI 竞赛的 KPI 正从比拼硬件采购能力，转向比拼训练栈优化和工程效率。

💡 主要观点

- xAI 的 GPU 有效训练算力利用率（MFU）仅约 11%，远低于行业正常水平。 内部备忘录显示，xAI 总裁 Michael Nicolls 称这一数字「低得尴尬」，并设定了未来几个月内提升至 50% 的目标。这暴露了其大规模算力集群在训练效率上的严重问题。

低 MFU 是全行业面临的系统级挑战，而非 xAI 的个案。 MFU 衡量的是 GPU 理论算力转化为有效训练吞吐的比例。11% 意味着大量算力消耗在通信、等待、数据搬运等无效环节。即使是硬件部署的「模范生」xAI，也受困于训练栈、并行策略等上层软件问题。

AI 竞赛的 KPI 正从「囤卡」转向「把卡跑满」。 过去比拼的是谁能更快买到更多 GPU，现在比拼的是谁的工程团队能更高效地利用这些算力。xAI 在自训效率不足时，选择将部分算力出租，标志着其从「超算」向「云厂商」的转型。

💬 文章金句

- xAI 手里约有 50 万张英伟达 GPU...实际只跑出了约 11% 的有效训练算力。

11% 不是单点故障，是系统级问题。
买卡和用卡是两回事。
GPU 是入场券，但 MFU 才是真正的考验。
AI 竞赛的 KPI 正在切换...过去比的是仓库...现在比的是工程师。

📊 文章信息

AI 初评：87

来源：新智元

作者：新智元

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3138

标签： xAI, GPU, MFU, 算力利用率, AI 基础设施

阅读完整文章

马斯克的 GPU 也在摸鱼？狂囤几十万张显卡，只有 11%在干活

🤖 問 AI