← 回總覽

全面解析 NVIDIA 最新硬件:Vera/Rubin/Rubin Ultra/NVL72/NVL144/LPX 等

📅 2026-03-21 20:01 AI闲谈 人工智能 2 分鐘 2139 字 評分: 82
NVIDIA Rubin GTC 2026 GPU 硬件架构
📌 一句话摘要 本文详细总结了 NVIDIA GTC 2026 大会上发布的 Rubin 平台全系列硬件产品,涵盖 Vera CPU、Rubin/Rubin Ultra GPU、NVLink-6 Switch、ConnectX-9 网卡、CPO 交换机、BlueField-4 DPU 及服务器机架方案,并分析了针对 Agentic 场景的异构计算方案。 📝 详细摘要 本文是 NVIDIA GTC 2026 硬件产品的全面解析,涵盖了从芯片到系统的完整产品线。核心内容包括:Vera CPU(88 核 Arm,1.5TB LPDDR5X 内存)、Rubin GPU(FP8 算力 17.5P,2

📌 一句话摘要

本文详细总结了 NVIDIA GTC 2026 大会上发布的 Rubin 平台全系列硬件产品,涵盖 Vera CPU、Rubin/Rubin Ultra GPU、NVLink-6 Switch、ConnectX-9 网卡、CPO 交换机、BlueField-4 DPU 及服务器机架方案,并分析了针对 Agentic 场景的异构计算方案。

📝 详细摘要

本文是 NVIDIA GTC 2026 硬件产品的全面解析,涵盖了从芯片到系统的完整产品线。核心内容包括:Vera CPU(88 核 Arm,1.5TB LPDDR5X 内存)、Rubin GPU(FP8 算力 17.5P,288GB HBM4)、Rubin Ultra GPU(FP8 算力 35P,1TB HBM4e)、Groq-3 LPU(500MB SRAM,150TB/s 带宽)、NVLink-6 Switch、ConnectX-9 SuperNIC、CPO 交换机、BlueField-4 DPU 等关键组件。服务器产品包括 DGX Rubin NVL8、Vera Rubin NVL72、Rubin Ultra NVL144 等机架方案。文章还重点介绍了 Vera Rubin NVL72 + Groq-3 LPX 的异构 AFD 方案,针对 Agentic 场景的高 TPS 需求进行了优化分析,可获得相比 Blackwell NVL72 达 35 倍的 TPS/WM 提升。

💡 主要观点

- Rubin GPU 相比 Blackwell B300 在 FP8 算力提升 3.5 倍,显存带宽提升 2.75 倍 Rubin GPU 采用 224 个 SM、896 Tensor Core 配置,FP8 稠密算力达 17.5P,HBM4 显存 288GB 带宽 22TB/s,NVLink-6 带宽 3.6TB/s,全面超越前代 Blackwell 架构。

NVIDIA 推出 Groq-3 LPU 弥补 GPU 在细粒度 MoE 模型 Agentic 场景的效率问题 Groq-3 LPU 具备 500MB SRAM 和 150TB/s 超高带宽,是 Rubin GPU HBM 的 7 倍,专门针对 Memory Bound 的 LLM Decoding 场景优化,与 Rubin GPU 形成异构计算方案。
Rubin Ultra NVL144 采用全新 Kyber 垂直机架设计实现 144 GPU NVLink 全互联 Kyber Rack 采用垂直插拔设计,通过 Midplane 中板连接,实现无需铜缆的 144 GPU 全互联,NVLink-7 带宽达 10.8TB/s per GPU。
Vera Rubin NVL72 + LPX 异构方案可获得 35 倍于 Blackwell NVL72 的 TPS/WM 针对高 TPS/User 的 Agentic 场景,通过将 Decoding 的 FFN 部分卸载到 Groq-3 LPU,可有效解决 Memory Bound 问题,在 200+ TPS/User 需求下性能优势显著。
CPO 交换机通过去除 DSP 实现功耗降低 50%,延迟近乎为零 光电共封装技术将硅光芯片与 ASIC Switch 集成,在 800G/1.6T 时代可显著降低光模块功耗,Spectrum-6 支持 128 个 800Gb/s 端口,2-Tier 可支持 10 万卡集群。

💬 文章金句

- Rubin GPU FP8 稠密:17.5P,是 Blackwell 200/300 的 5P 的 3.5x

  • Groq-3 LPU 的 SRAM 具备 150 TB/s 超高带宽,是 Rubin GPU HBM4 的 7x,非常适合 Memory Bound 明显的 LLM Decoding
  • Rubin + LPX 的方案相比 Blackwell NVL72 方案可以获得 35x 的 TPS/WM
  • NVLink-6 Switch Rack:9 个 NVLink-6 Switch Tray 可以实现 260Tb/s 的带宽,支持 Vera Rubin NVL72 的 NVLink 全互联
  • CPO 可以直接去掉 DSP,功耗降低约 50%,且传输延迟近乎为零

📊 文章信息

AI 评分:82

来源:AI闲谈

作者:AI闲谈

分类:人工智能

语言:中文

阅读时间:16 分钟

字数:3984

标签: NVIDIA, Rubin, GTC 2026, GPU, 硬件架构

阅读完整文章

查看原文 → 發佈: 2026-03-21 20:01:00 收錄: 2026-03-22 00:00:28

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。