英伟达重新思考 AI TCO：为何每 Token 成本才是唯一重要的指标

📌 一句话摘要

本文论证了在生成式 AI 时代，评估 AI 基础设施应聚焦于每 Token 成本而非传统的每美元 FLOPS，并介绍了 NVIDIA 如何通过全栈优化实现最低的每 Token 成本。

📝 详细摘要

文章指出，随着 AI 推理成为数据中心的核心工作负载，传统的 TCO 评估指标如芯片峰值算力和每美元 FLOPS 已无法反映真实商业价值。作者提出「每 Token 成本」才是衡量 AI 基础设施盈利能力的唯一关键指标，并详细拆解了其计算公式。文章强调，分母（Token 产出）是决定成本的关键，而它受制于硬件性能、软件优化、生态系统支持等多重因素，如同「推理冰山」的水下部分。通过对比 NVIDIA Blackwell 与 Hopper 平台在 DeepSeek-R1 模型上的表现，文章展示了理论指标（每美元 FLOPS 仅 2 倍优势）与实际商业结果（每 Token 成本降低至 1/35）之间的巨大差距，论证了全栈协同设计的重要性。最后，文章介绍了 NVIDIA 及其合作伙伴如何通过硬件、软件和生态系统的协同优化，实现行业最低的每 Token 成本。

💡 主要观点

- 评估 AI 基础设施应聚焦于每 Token 成本，而非传统的每美元 FLOPS。 每美元 FLOPS 衡量的是投入的原始算力，而每 Token 成本衡量的是实际的商业产出。在 AI 推理时代，业务围绕产出运转，只优化投入指标是根本性的错配。

降低每 Token 成本的关键在于最大化实际交付的 Token 产出。 每 Token 成本的计算公式中，分子（每 GPU 小时成本）易于比较，但分母（Token 产出）才是决定成本的核心。它受硬件、软件、算法等多重因素影响，如同冰山的水下部分。

NVIDIA 通过全栈协同设计实现了数量级的性能提升。 以 DeepSeek-R1 模型为例，Blackwell 平台相比 Hopper，每美元 FLOPS 仅有 2 倍优势，但每 Token 成本降低至 1/35，每瓦 Token 产出提升 50 倍以上，证明了全栈优化远超单一硬件升级的价值。

💬 文章金句

- 传统数据中心过去主要用于数据的存储、检索与处理。但在生成式 AI 与代理式 AI 时代，这些设施已演变为 AI Token 工厂。

前两者（算力成本和每美元 FLOPS）仅是投入指标。但当业务围绕产出运转时，只针对投入优化，本质上是一种根本性的错配。
每 Token 成本决定了企业能否实现 AI 的规模化盈利。
一块看似「更便宜」的 GPU，如果其每秒 Token 产出数量明显更低，反而会导致更高的每 Token 成本。

📊 文章信息

AI 初评：85

来源：量子位

作者：梦晨

分类：人工智能

语言：中文

阅读时间：9 分钟

字数：2025

标签： AI 推理, TCO, 每 Token 成本, NVIDIA, Blackwell

阅读完整文章

英伟达重新思考 AI TCO：为何每 Token 成本才是唯一重要的指标

🤖 問 AI