← 回總覽

全球 AI 算力大战变天!十万卡算力集群爆表,国产 IB 真香?

📅 2026-03-12 16:30 新智元 人工智能 2 分鐘 1296 字 評分: 78
InfiniBand RoCE RDMA AI 算力集群 scaleFabric
📌 一句话摘要 文章探讨了 AI 训练进入十万卡时代后,网络通信如何取代算力成为核心瓶颈,并深度对比了 InfiniBand 与 RoCE 架构的优劣及国产 IB 方案的突破。 📝 详细摘要 随着 GPT-4 等大模型规模突破万亿参数,AI 集群训练中的通信耗时占比已超过 30%,网络架构成为决定算力效率的关键。文章详细分析了 RoCE 架构在万卡规模下因 PFC 流控机制导致的“PFC 风暴”及运维调优困境。相比之下,InfiniBand (IB) 凭借基于信用的精细化流控、毫秒级故障恢复和更低的交换时延,在超大规模集群中展现出显著的稳定性与 TCO 优势。此外,文章重点介绍了国产原生无

📌 一句话摘要

文章探讨了 AI 训练进入十万卡时代后,网络通信如何取代算力成为核心瓶颈,并深度对比了 InfiniBand 与 RoCE 架构的优劣及国产 IB 方案的突破。

📝 详细摘要

随着 GPT-4 等大模型规模突破万亿参数,AI 集群训练中的通信耗时占比已超过 30%,网络架构成为决定算力效率的关键。文章详细分析了 RoCE 架构在万卡规模下因 PFC 流控机制导致的“PFC 风暴”及运维调优困境。相比之下,InfiniBand (IB) 凭借基于信用的精细化流控、毫秒级故障恢复和更低的交换时延,在超大规模集群中展现出显著的稳定性与 TCO 优势。此外,文章重点介绍了国产原生无损 RDMA 网络 scaleFabric 的技术突破,其在时延和扩展性上已能对标国际顶尖水平,为国产智算中心提供了高性能、自主可控的组网新选项。

💡 主要观点

- 网络通信已取代单卡算力,成为万卡及十万卡级别 AI 训练集群的新瓶颈。 在大规模训练中,通信时间占比可达 30% 以上,且随规模扩大而增加,网络性能直接决定了整体算力的利用率。

RoCE 架构在超大规模应用中面临严重的流控风险和极高的运维调优门槛。 RoCE 依赖的 PFC 机制易引发连锁反应导致网络瘫痪,且高度依赖人工经验进行水线调优,难以应对十万卡级别的复杂流量。
InfiniBand 凭借原生 RDMA 设计,在无损传输和故障恢复方面具有物理层代差。 IB 采用基于信用的流控和毫秒级快速容错路由,从根源杜绝丢包,且交换时延控制在 300ns 以内,远优于以太网方案。
国产原生 IB 方案 scaleFabric 的出现,打破了高性能网络对海外技术的依赖。 该方案实现全栈自研,单子网支持超 11 万卡扩展,并在 3 万卡真实负载下完成验证,兼顾了高性能与自主可控。

💬 文章金句

- 算力竞赛已进入网络决胜期。

  • IB 是唯一从设计之初就为此场景优化的原生方案。RoCE 本质是用通用网络跑专用负载,能跑和跑好是两回事。
  • 当训练任务动辄跑几十天,一次网络抖动带来的损失就足以覆盖 IB 的差价。这时候,原生架构的稳定性就变成了硬通货。
  • scaleFabric 实现了从 112G SerDes IP、交换芯片、网卡到软件平台的 100% 全栈自研。

📊 文章信息

AI 评分:78

来源:新智元

作者:新智元

分类:人工智能

语言:中文

阅读时间:14 分钟

字数:3385

标签: InfiniBand, RoCE, RDMA, AI 算力集群, scaleFabric

阅读完整文章

查看原文 → 發佈: 2026-03-12 16:30:00 收錄: 2026-03-12 20:00:42

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。