← 回總覽

NVIDIA 极致协同设计刷新 MLPerf 推理记录

📅 2026-04-01 23:00 Ashraf Eassa 人工智能 2 分鐘 1423 字 評分: 90
NVIDIA MLPerf 推理 TensorRT-LLM Blackwell
📌 一句话摘要 NVIDIA 最新的 MLPerf Inference v6.0 测试结果显示,得益于 TensorRT-LLM 和 NVIDIA Dynamo 等全栈软件优化,Blackwell Ultra GPU 的吞吐量实现了显著提升。 📝 详细摘要 本文详细介绍了 NVIDIA 在 MLPerf Inference v6.0 基准测试中的性能优势,重点强调了现有 Blackwell Ultra 硬件上 2.7 倍的吞吐量提升。这些收益归功于硬件和软件的严谨协同设计,特别是利用了 TensorRT-LLM 堆栈和 NVIDIA Dynamo 框架的进步。关键技术优化包括解耦服务(Di

📌 一句话摘要

NVIDIA 最新的 MLPerf Inference v6.0 测试结果显示,得益于 TensorRT-LLM 和 NVIDIA Dynamo 等全栈软件优化,Blackwell Ultra GPU 的吞吐量实现了显著提升。

📝 详细摘要

本文详细介绍了 NVIDIA 在 MLPerf Inference v6.0 基准测试中的性能优势,重点强调了现有 Blackwell Ultra 硬件上 2.7 倍的吞吐量提升。这些收益归功于硬件和软件的严谨协同设计,特别是利用了 TensorRT-LLM 堆栈和 NVIDIA Dynamo 框架的进步。关键技术优化包括解耦服务(Disaggregated Serving)、宽专家并行(Wide Expert Parallel, WideEP)、多 Token 预测(Multi-Token Prediction, MTP)以及 KV 感知路由(KV-aware routing)。文章还涵盖了 DeepSeek-R1、Qwen3-VL 和生成式推荐模型等新基准测试的性能表现,并强调了 Quantum-X800 InfiniBand 在横向扩展网络中的影响。

💡 主要观点

- 软件优化对于推理吞吐量而言与硬件同样关键。 通过 TensorRT-LLM 和 NVIDIA Dynamo 的进步,NVIDIA 在现有硬件上实现了高达 2.7 倍的性能提升,证明了软件层面的算子融合(kernel fusion)和架构感知路由对于最大化 AI 工厂收益至关重要。

先进的推理技术能提升复杂模型上的性能表现。 解耦服务(Disaggregated Serving)、宽专家并行(WideEP)和多 Token 预测(MTP)等技术解决了 MoE 和交互式 LLM 场景中的特定瓶颈,从而实现了更高的吞吐量和更低的延迟。
横向扩展网络对于大规模推理工作负载至关重要。 通过使用 Quantum-X800 InfiniBand 将多个 GB300 NVL72 系统互联,NVIDIA 展示了每秒处理数百万 Token 的能力,刷新了系统级吞吐量的新纪录。

💬 文章金句

- 协同设计的硬件、软件和模型是实现最高 AI 工厂吞吐量和最低 Token 成本的关键。

  • 这种加速……展示了 NVIDIA 平台的核心优势:一个开放、广阔的生态系统,客户和合作伙伴可以在我们的软件堆栈之上进行独特的优化和创新。
  • 通过利用原本闲置的计算资源并行预测和验证额外的 Token……在高交互性场景下的吞吐量得以提升。

📊 文章信息

AI 评分:90

来源:NVIDIA Technical Blog

作者:Ashraf Eassa

分类:人工智能

语言:英文

阅读时间:8 分钟

字数:1881

标签: NVIDIA, MLPerf, 推理, TensorRT-LLM, Blackwell

阅读完整文章

查看原文 → 發佈: 2026-04-01 23:00:51 收錄: 2026-04-02 00:00:34

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。