← 回總覽

马斯克的 GPU 也在摸鱼?狂囤几十万张显卡,只有 11%在干活

📅 2026-05-02 14:10 新智元 人工智能 2 分鐘 1484 字 評分: 87
xAI GPU MFU 算力利用率 AI 基础设施
📌 一句话摘要 xAI 囤积数十万张 GPU,但有效训练算力利用率(MFU)仅约 11%,暴露了 AI 竞赛从「囤卡」到「把卡跑满」的 KPI 切换。 📝 详细摘要 文章基于 The Information 和 Business Insider 的报道,披露了 xAI 内部备忘录中一个「低得尴尬」的数字:其数十万张 GPU 的模型浮点运算利用率(MFU)仅约 11%。文章详细解释了 MFU 这一关键指标,它衡量的是 GPU 理论算力中真正转化为有效训练吞吐的比例,而非简单的占用率。通过对比英伟达 Megatron-LM(47%)和谷歌 PaLM 等公开数据,11% 远低于行业正常水平(35

📌 一句话摘要

xAI 囤积数十万张 GPU,但有效训练算力利用率(MFU)仅约 11%,暴露了 AI 竞赛从「囤卡」到「把卡跑满」的 KPI 切换。

📝 详细摘要

文章基于 The Information 和 Business Insider 的报道,披露了 xAI 内部备忘录中一个「低得尴尬」的数字:其数十万张 GPU 的模型浮点运算利用率(MFU)仅约 11%。文章详细解释了 MFU 这一关键指标,它衡量的是 GPU 理论算力中真正转化为有效训练吞吐的比例,而非简单的占用率。通过对比英伟达 Megatron-LM(47%)和谷歌 PaLM 等公开数据,11% 远低于行业正常水平(35%-45%),甚至低于 GPT-3 等早期模型。文章指出,低 MFU 并非 xAI 独有问题,而是全行业面临的系统级挑战,根源在于显存压力、通信开销、并行策略等训练栈问题。xAI 在硬件部署上是「模范生」,却仍只有 11%,说明瓶颈在更上层的软件和工程层面。与此同时,xAI 开始将 Colossus 集群的算力出租给 Cursor 等公司,并经历了基础设施团队的人事调整,暗示其正在从「世界最大超算」向「半成品云厂商」转型。文章最终指出,AI 竞赛的 KPI 正从比拼硬件采购能力,转向比拼训练栈优化和工程效率。

💡 主要观点

- xAI 的 GPU 有效训练算力利用率(MFU)仅约 11%,远低于行业正常水平。 内部备忘录显示,xAI 总裁 Michael Nicolls 称这一数字「低得尴尬」,并设定了未来几个月内提升至 50% 的目标。这暴露了其大规模算力集群在训练效率上的严重问题。

低 MFU 是全行业面临的系统级挑战,而非 xAI 的个案。 MFU 衡量的是 GPU 理论算力转化为有效训练吞吐的比例。11% 意味着大量算力消耗在通信、等待、数据搬运等无效环节。即使是硬件部署的「模范生」xAI,也受困于训练栈、并行策略等上层软件问题。
AI 竞赛的 KPI 正从「囤卡」转向「把卡跑满」。 过去比拼的是谁能更快买到更多 GPU,现在比拼的是谁的工程团队能更高效地利用这些算力。xAI 在自训效率不足时,选择将部分算力出租,标志着其从「超算」向「云厂商」的转型。

💬 文章金句

- xAI 手里约有 50 万张英伟达 GPU...实际只跑出了约 11% 的有效训练算力。

  • 11% 不是单点故障,是系统级问题。
  • 买卡和用卡是两回事。
  • GPU 是入场券,但 MFU 才是真正的考验。
  • AI 竞赛的 KPI 正在切换...过去比的是仓库...现在比的是工程师。

📊 文章信息

AI 初评:87

来源:新智元

作者:新智元

分类:人工智能

语言:中文

阅读时间:13 分钟

字数:3138

标签: xAI, GPU, MFU, 算力利用率, AI 基础设施

阅读完整文章

查看原文 → 發佈: 2026-05-02 14:10:00 收錄: 2026-05-02 20:00:04

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。