← 回總覽

NVIDIA 平台通过极致协同设计实现最低 Token 成本

📅 2026-04-04 04:46 Ashraf Eassa 人工智能 2 分鐘 1284 字 評分: 91
NVIDIA MLPerf 推理 TensorRT-LLM Blackwell
📌 一句话摘要 NVIDIA 在 MLPerf Inference v6.0 基准测试中的表现证明了全栈协同设计的有效性,TensorRT-LLM 和 Dynamo 中的软件优化在现有的 Blackwell Ultra 硬件上实现了显著的吞吐量提升。 📝 详细摘要 本文详细介绍了 NVIDIA 在 MLPerf Inference v6.0 基准测试中的主导表现,强调了软硬件协同设计的关键作用。通过利用持续的软件优化(例如 TensorRT-LLM 和 Dynamo 框架中的内核融合、解耦服务和多 Token 预测 (MTP)),NVIDIA 在现有的 GB300 NVL72 硬件上实现了

📌 一句话摘要

NVIDIA 在 MLPerf Inference v6.0 基准测试中的表现证明了全栈协同设计的有效性,TensorRT-LLM 和 Dynamo 中的软件优化在现有的 Blackwell Ultra 硬件上实现了显著的吞吐量提升。

📝 详细摘要

本文详细介绍了 NVIDIA 在 MLPerf Inference v6.0 基准测试中的主导表现,强调了软硬件协同设计的关键作用。通过利用持续的软件优化(例如 TensorRT-LLM 和 Dynamo 框架中的内核融合、解耦服务和多 Token 预测 (MTP)),NVIDIA 在现有的 GB300 NVL72 硬件上实现了高达 2.7 倍的性能提升。文章还涵盖了 NVIDIA 在多模态模型和生成式推荐系统等新基准测试类别中的领先地位,并强调了利用 Quantum-X800 InfiniBand 进行横向扩展网络对于实现创纪录 Token 吞吐量的重要性。

💡 主要观点

- 全栈协同设计对于 AI 工厂的效率至关重要。 性能不仅仅取决于芯片的峰值规格;它需要硬件、软件和模型架构的深度集成,以最大化吞吐量并最小化 Token 成本。

软件优化推动了现有硬件性能的大幅提升。 NVIDIA 的 TensorRT-LLM 和 Dynamo 框架更新(包括内核融合和解耦服务)在之前部署的 GB300 NVL72 系统上解锁了高达 2.7 倍的吞吐量提升,延长了基础设施的生产生命周期。
在多样化的新型基准测试工作负载中保持领先。 NVIDIA 是唯一一个在所有新加入的 MLPerf v6.0 场景中提交结果的平台,包括像 Qwen3-VL 这样的复杂多模态模型和像 DLRMv3 这样的生成式推荐系统,展示了平台的通用性。

💬 文章金句

- 协同设计的硬件、软件和模型是实现最高 AI 工厂吞吐量和最低 Token 成本的关键。

  • 这一轮中,去年推出的 NVIDIA GB300 NVL72 相比六个月前的首次提交,Token 吞吐量提升了高达 2.7 倍。
  • 当 DeepSeek-R1 基准测试去年首次亮相时,NVIDIA 是第一个也是唯一一个提交其 MLPerf Inference 结果的平台。

📊 文章信息

AI 评分:91

来源:NVIDIA Technical Blog

作者:Ashraf Eassa

分类:人工智能

语言:英文

阅读时间:8 分钟

字数:1907

标签: NVIDIA, MLPerf, 推理, TensorRT-LLM, Blackwell

阅读完整文章

查看原文 → 發佈: 2026-04-04 04:46:41 收錄: 2026-04-04 06:00:39

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。