本文详细总结了 NVIDIA GTC 2026 大会上发布的 Rubin 平台全系列硬件产品,涵盖 Vera CPU、Rubin/Rubin Ultra GPU、NVLink-6 Switch、ConnectX-9 网卡、CPO 交换机、BlueField-4 DPU 及服务器机架方案,并分析了针对 Agentic 场景的异构计算方案。
📝 详细摘要
本文是 NVIDIA GTC 2026 硬件产品的全面解析,涵盖了从芯片到系统的完整产品线。核心内容包括:Vera CPU(88 核 Arm,1.5TB LPDDR5X 内存)、Rubin GPU(FP8 算力 17.5P,288GB HBM4)、Rubin Ultra GPU(FP8 算力 35P,1TB HBM4e)、Groq-3 LPU(500MB SRAM,150TB/s 带宽)、NVLink-6 Switch、ConnectX-9 SuperNIC、CPO 交换机、BlueField-4 DPU 等关键组件。服务器产品包括 DGX Rubin NVL8、Vera Rubin NVL72、Rubin Ultra NVL144 等机架方案。文章还重点介绍了 Vera Rubin NVL72 + Groq-3 LPX 的异构 AFD 方案,针对 Agentic 场景的高 TPS 需求进行了优化分析,可获得相比 Blackwell NVL72 达 35 倍的 TPS/WM 提升。
💡 主要观点
- Rubin GPU 相比 Blackwell B300 在 FP8 算力提升 3.5 倍,显存带宽提升 2.75 倍 Rubin GPU 采用 224 个 SM、896 Tensor Core 配置,FP8 稠密算力达 17.5P,HBM4 显存 288GB 带宽 22TB/s,NVLink-6 带宽 3.6TB/s,全面超越前代 Blackwell 架构。
💬 文章金句
- Rubin GPU FP8 稠密:17.5P,是 Blackwell 200/300 的 5P 的 3.5x
- Groq-3 LPU 的 SRAM 具备 150 TB/s 超高带宽,是 Rubin GPU HBM4 的 7x,非常适合 Memory Bound 明显的 LLM Decoding
- Rubin + LPX 的方案相比 Blackwell NVL72 方案可以获得 35x 的 TPS/WM
- NVLink-6 Switch Rack:9 个 NVLink-6 Switch Tray 可以实现 260Tb/s 的带宽,支持 Vera Rubin NVL72 的 NVLink 全互联
- CPO 可以直接去掉 DSP,功耗降低约 50%,且传输延迟近乎为零
📊 文章信息
AI 评分:82
来源:AI闲谈
作者:AI闲谈
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3984
标签: NVIDIA, Rubin, GTC 2026, GPU, 硬件架构