← 回總覽

英伟达重新思考 AI TCO:为何每 Token 成本才是唯一重要的指标

📅 2026-05-07 12:36 梦晨 人工智能 2 分鐘 1519 字 評分: 85
AI 推理 TCO 每 Token 成本 NVIDIA Blackwell
📌 一句话摘要 本文论证了在生成式 AI 时代,评估 AI 基础设施应聚焦于每 Token 成本而非传统的每美元 FLOPS,并介绍了 NVIDIA 如何通过全栈优化实现最低的每 Token 成本。 📝 详细摘要 文章指出,随着 AI 推理成为数据中心的核心工作负载,传统的 TCO 评估指标如芯片峰值算力和每美元 FLOPS 已无法反映真实商业价值。作者提出「每 Token 成本」才是衡量 AI 基础设施盈利能力的唯一关键指标,并详细拆解了其计算公式。文章强调,分母(Token 产出)是决定成本的关键,而它受制于硬件性能、软件优化、生态系统支持等多重因素,如同「推理冰山」的水下部分。通过对

📌 一句话摘要

本文论证了在生成式 AI 时代,评估 AI 基础设施应聚焦于每 Token 成本而非传统的每美元 FLOPS,并介绍了 NVIDIA 如何通过全栈优化实现最低的每 Token 成本。

📝 详细摘要

文章指出,随着 AI 推理成为数据中心的核心工作负载,传统的 TCO 评估指标如芯片峰值算力和每美元 FLOPS 已无法反映真实商业价值。作者提出「每 Token 成本」才是衡量 AI 基础设施盈利能力的唯一关键指标,并详细拆解了其计算公式。文章强调,分母(Token 产出)是决定成本的关键,而它受制于硬件性能、软件优化、生态系统支持等多重因素,如同「推理冰山」的水下部分。通过对比 NVIDIA Blackwell 与 Hopper 平台在 DeepSeek-R1 模型上的表现,文章展示了理论指标(每美元 FLOPS 仅 2 倍优势)与实际商业结果(每 Token 成本降低至 1/35)之间的巨大差距,论证了全栈协同设计的重要性。最后,文章介绍了 NVIDIA 及其合作伙伴如何通过硬件、软件和生态系统的协同优化,实现行业最低的每 Token 成本。

💡 主要观点

- 评估 AI 基础设施应聚焦于每 Token 成本,而非传统的每美元 FLOPS。 每美元 FLOPS 衡量的是投入的原始算力,而每 Token 成本衡量的是实际的商业产出。在 AI 推理时代,业务围绕产出运转,只优化投入指标是根本性的错配。

降低每 Token 成本的关键在于最大化实际交付的 Token 产出。 每 Token 成本的计算公式中,分子(每 GPU 小时成本)易于比较,但分母(Token 产出)才是决定成本的核心。它受硬件、软件、算法等多重因素影响,如同冰山的水下部分。
NVIDIA 通过全栈协同设计实现了数量级的性能提升。 以 DeepSeek-R1 模型为例,Blackwell 平台相比 Hopper,每美元 FLOPS 仅有 2 倍优势,但每 Token 成本降低至 1/35,每瓦 Token 产出提升 50 倍以上,证明了全栈优化远超单一硬件升级的价值。

💬 文章金句

- 传统数据中心过去主要用于数据的存储、检索与处理。但在生成式 AI 与代理式 AI 时代,这些设施已演变为 AI Token 工厂。

  • 前两者(算力成本和每美元 FLOPS)仅是投入指标。但当业务围绕产出运转时,只针对投入优化,本质上是一种根本性的错配。
  • 每 Token 成本决定了企业能否实现 AI 的规模化盈利。
  • 一块看似「更便宜」的 GPU,如果其每秒 Token 产出数量明显更低,反而会导致更高的每 Token 成本。

📊 文章信息

AI 初评:85

来源:量子位

作者:梦晨

分类:人工智能

语言:中文

阅读时间:9 分钟

字数:2025

标签: AI 推理, TCO, 每 Token 成本, NVIDIA, Blackwell

阅读完整文章

查看原文 → 發佈: 2026-05-07 12:36:41 收錄: 2026-05-07 14:00:37

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。