NVIDIA 极致协同设计刷新 MLPerf 推理记录

📌 一句话摘要

NVIDIA 最新的 MLPerf Inference v6.0 测试结果显示，得益于 TensorRT-LLM 和 NVIDIA Dynamo 等全栈软件优化，Blackwell Ultra GPU 的吞吐量实现了显著提升。

📝 详细摘要

本文详细介绍了 NVIDIA 在 MLPerf Inference v6.0 基准测试中的性能优势，重点强调了现有 Blackwell Ultra 硬件上 2.7 倍的吞吐量提升。这些收益归功于硬件和软件的严谨协同设计，特别是利用了 TensorRT-LLM 堆栈和 NVIDIA Dynamo 框架的进步。关键技术优化包括解耦服务（Disaggregated Serving）、宽专家并行（Wide Expert Parallel， WideEP）、多 Token 预测（Multi-Token Prediction， MTP）以及 KV 感知路由（KV-aware routing）。文章还涵盖了 DeepSeek-R1、Qwen3-VL 和生成式推荐模型等新基准测试的性能表现，并强调了 Quantum-X800 InfiniBand 在横向扩展网络中的影响。

💡 主要观点

- 软件优化对于推理吞吐量而言与硬件同样关键。 通过 TensorRT-LLM 和 NVIDIA Dynamo 的进步，NVIDIA 在现有硬件上实现了高达 2.7 倍的性能提升，证明了软件层面的算子融合（kernel fusion）和架构感知路由对于最大化 AI 工厂收益至关重要。

先进的推理技术能提升复杂模型上的性能表现。 解耦服务（Disaggregated Serving）、宽专家并行（WideEP）和多 Token 预测（MTP）等技术解决了 MoE 和交互式 LLM 场景中的特定瓶颈，从而实现了更高的吞吐量和更低的延迟。

横向扩展网络对于大规模推理工作负载至关重要。 通过使用 Quantum-X800 InfiniBand 将多个 GB300 NVL72 系统互联，NVIDIA 展示了每秒处理数百万 Token 的能力，刷新了系统级吞吐量的新纪录。

💬 文章金句

- 协同设计的硬件、软件和模型是实现最高 AI 工厂吞吐量和最低 Token 成本的关键。

这种加速……展示了 NVIDIA 平台的核心优势：一个开放、广阔的生态系统，客户和合作伙伴可以在我们的软件堆栈之上进行独特的优化和创新。
通过利用原本闲置的计算资源并行预测和验证额外的 Token……在高交互性场景下的吞吐量得以提升。

📊 文章信息

AI 评分：90

来源：NVIDIA Technical Blog

作者：Ashraf Eassa

分类：人工智能

语言：英文

阅读时间：8 分钟

字数：1881

标签： NVIDIA, MLPerf, 推理, TensorRT-LLM, Blackwell

阅读完整文章

NVIDIA 极致协同设计刷新 MLPerf 推理记录

🤖 問 AI