NVIDIA 最新的 MLPerf Inference v6.0 测试结果显示,得益于 TensorRT-LLM 和 NVIDIA Dynamo 等全栈软件优化,Blackwell Ultra GPU 的吞吐量实现了显著提升。
📝 详细摘要
本文详细介绍了 NVIDIA 在 MLPerf Inference v6.0 基准测试中的性能优势,重点强调了现有 Blackwell Ultra 硬件上 2.7 倍的吞吐量提升。这些收益归功于硬件和软件的严谨协同设计,特别是利用了 TensorRT-LLM 堆栈和 NVIDIA Dynamo 框架的进步。关键技术优化包括解耦服务(Disaggregated Serving)、宽专家并行(Wide Expert Parallel, WideEP)、多 Token 预测(Multi-Token Prediction, MTP)以及 KV 感知路由(KV-aware routing)。文章还涵盖了 DeepSeek-R1、Qwen3-VL 和生成式推荐模型等新基准测试的性能表现,并强调了 Quantum-X800 InfiniBand 在横向扩展网络中的影响。
💡 主要观点
- 软件优化对于推理吞吐量而言与硬件同样关键。 通过 TensorRT-LLM 和 NVIDIA Dynamo 的进步,NVIDIA 在现有硬件上实现了高达 2.7 倍的性能提升,证明了软件层面的算子融合(kernel fusion)和架构感知路由对于最大化 AI 工厂收益至关重要。
💬 文章金句
- 协同设计的硬件、软件和模型是实现最高 AI 工厂吞吐量和最低 Token 成本的关键。
- 这种加速……展示了 NVIDIA 平台的核心优势:一个开放、广阔的生态系统,客户和合作伙伴可以在我们的软件堆栈之上进行独特的优化和创新。
- 通过利用原本闲置的计算资源并行预测和验证额外的 Token……在高交互性场景下的吞吐量得以提升。
📊 文章信息
AI 评分:90
来源:NVIDIA Technical Blog
作者:Ashraf Eassa
分类:人工智能
语言:英文
阅读时间:8 分钟
字数:1881
标签: NVIDIA, MLPerf, 推理, TensorRT-LLM, Blackwell