本文论证了在生成式 AI 时代,评估 AI 基础设施应聚焦于每 Token 成本而非传统的每美元 FLOPS,并介绍了 NVIDIA 如何通过全栈优化实现最低的每 Token 成本。
📝 详细摘要
文章指出,随着 AI 推理成为数据中心的核心工作负载,传统的 TCO 评估指标如芯片峰值算力和每美元 FLOPS 已无法反映真实商业价值。作者提出「每 Token 成本」才是衡量 AI 基础设施盈利能力的唯一关键指标,并详细拆解了其计算公式。文章强调,分母(Token 产出)是决定成本的关键,而它受制于硬件性能、软件优化、生态系统支持等多重因素,如同「推理冰山」的水下部分。通过对比 NVIDIA Blackwell 与 Hopper 平台在 DeepSeek-R1 模型上的表现,文章展示了理论指标(每美元 FLOPS 仅 2 倍优势)与实际商业结果(每 Token 成本降低至 1/35)之间的巨大差距,论证了全栈协同设计的重要性。最后,文章介绍了 NVIDIA 及其合作伙伴如何通过硬件、软件和生态系统的协同优化,实现行业最低的每 Token 成本。
💡 主要观点
- 评估 AI 基础设施应聚焦于每 Token 成本,而非传统的每美元 FLOPS。 每美元 FLOPS 衡量的是投入的原始算力,而每 Token 成本衡量的是实际的商业产出。在 AI 推理时代,业务围绕产出运转,只优化投入指标是根本性的错配。
💬 文章金句
- 传统数据中心过去主要用于数据的存储、检索与处理。但在生成式 AI 与代理式 AI 时代,这些设施已演变为 AI Token 工厂。
- 前两者(算力成本和每美元 FLOPS)仅是投入指标。但当业务围绕产出运转时,只针对投入优化,本质上是一种根本性的错配。
- 每 Token 成本决定了企业能否实现 AI 的规模化盈利。
- 一块看似「更便宜」的 GPU,如果其每秒 Token 产出数量明显更低,反而会导致更高的每 Token 成本。
📊 文章信息
AI 初评:85
来源:量子位
作者:梦晨
分类:人工智能
语言:中文
阅读时间:9 分钟
字数:2025
标签: AI 推理, TCO, 每 Token 成本, NVIDIA, Blackwell