NVIDIA 平台通过极致协同设计实现最低 Token 成本

📌 一句话摘要

NVIDIA 在 MLPerf Inference v6.0 基准测试中的表现证明了全栈协同设计的有效性，TensorRT-LLM 和 Dynamo 中的软件优化在现有的 Blackwell Ultra 硬件上实现了显著的吞吐量提升。

📝 详细摘要

本文详细介绍了 NVIDIA 在 MLPerf Inference v6.0 基准测试中的主导表现，强调了软硬件协同设计的关键作用。通过利用持续的软件优化（例如 TensorRT-LLM 和 Dynamo 框架中的内核融合、解耦服务和多 Token 预测 (MTP)），NVIDIA 在现有的 GB300 NVL72 硬件上实现了高达 2.7 倍的性能提升。文章还涵盖了 NVIDIA 在多模态模型和生成式推荐系统等新基准测试类别中的领先地位，并强调了利用 Quantum-X800 InfiniBand 进行横向扩展网络对于实现创纪录 Token 吞吐量的重要性。

💡 主要观点

- 全栈协同设计对于 AI 工厂的效率至关重要。 性能不仅仅取决于芯片的峰值规格；它需要硬件、软件和模型架构的深度集成，以最大化吞吐量并最小化 Token 成本。

软件优化推动了现有硬件性能的大幅提升。 NVIDIA 的 TensorRT-LLM 和 Dynamo 框架更新（包括内核融合和解耦服务）在之前部署的 GB300 NVL72 系统上解锁了高达 2.7 倍的吞吐量提升，延长了基础设施的生产生命周期。

在多样化的新型基准测试工作负载中保持领先。 NVIDIA 是唯一一个在所有新加入的 MLPerf v6.0 场景中提交结果的平台，包括像 Qwen3-VL 这样的复杂多模态模型和像 DLRMv3 这样的生成式推荐系统，展示了平台的通用性。

💬 文章金句

- 协同设计的硬件、软件和模型是实现最高 AI 工厂吞吐量和最低 Token 成本的关键。

这一轮中，去年推出的 NVIDIA GB300 NVL72 相比六个月前的首次提交，Token 吞吐量提升了高达 2.7 倍。
当 DeepSeek-R1 基准测试去年首次亮相时，NVIDIA 是第一个也是唯一一个提交其 MLPerf Inference 结果的平台。

📊 文章信息

AI 评分：91

来源：NVIDIA Technical Blog

作者：Ashraf Eassa

分类：人工智能

语言：英文

阅读时间：8 分钟

字数：1907

标签： NVIDIA, MLPerf, 推理, TensorRT-LLM, Blackwell

阅读完整文章

NVIDIA 平台通过极致协同设计实现最低 Token 成本

🤖 問 AI