全球 AI 算力大战变天！十万卡算力集群爆表，国产 IB 真香？

📌 一句话摘要

文章探讨了 AI 训练进入十万卡时代后，网络通信如何取代算力成为核心瓶颈，并深度对比了 InfiniBand 与 RoCE 架构的优劣及国产 IB 方案的突破。

📝 详细摘要

随着 GPT-4 等大模型规模突破万亿参数，AI 集群训练中的通信耗时占比已超过 30%，网络架构成为决定算力效率的关键。文章详细分析了 RoCE 架构在万卡规模下因 PFC 流控机制导致的“PFC 风暴”及运维调优困境。相比之下，InfiniBand (IB) 凭借基于信用的精细化流控、毫秒级故障恢复和更低的交换时延，在超大规模集群中展现出显著的稳定性与 TCO 优势。此外，文章重点介绍了国产原生无损 RDMA 网络 scaleFabric 的技术突破，其在时延和扩展性上已能对标国际顶尖水平，为国产智算中心提供了高性能、自主可控的组网新选项。

💡 主要观点

- 网络通信已取代单卡算力，成为万卡及十万卡级别 AI 训练集群的新瓶颈。 在大规模训练中，通信时间占比可达 30% 以上，且随规模扩大而增加，网络性能直接决定了整体算力的利用率。

RoCE 架构在超大规模应用中面临严重的流控风险和极高的运维调优门槛。 RoCE 依赖的 PFC 机制易引发连锁反应导致网络瘫痪，且高度依赖人工经验进行水线调优，难以应对十万卡级别的复杂流量。

InfiniBand 凭借原生 RDMA 设计，在无损传输和故障恢复方面具有物理层代差。 IB 采用基于信用的流控和毫秒级快速容错路由，从根源杜绝丢包，且交换时延控制在 300ns 以内，远优于以太网方案。

国产原生 IB 方案 scaleFabric 的出现，打破了高性能网络对海外技术的依赖。 该方案实现全栈自研，单子网支持超 11 万卡扩展，并在 3 万卡真实负载下完成验证，兼顾了高性能与自主可控。

💬 文章金句

- 算力竞赛已进入网络决胜期。

IB 是唯一从设计之初就为此场景优化的原生方案。RoCE 本质是用通用网络跑专用负载，能跑和跑好是两回事。
当训练任务动辄跑几十天，一次网络抖动带来的损失就足以覆盖 IB 的差价。这时候，原生架构的稳定性就变成了硬通货。
scaleFabric 实现了从 112G SerDes IP、交换芯片、网卡到软件平台的 100% 全栈自研。

📊 文章信息

AI 评分：78

来源：新智元

作者：新智元

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3385

标签： InfiniBand, RoCE, RDMA, AI 算力集群, scaleFabric

阅读完整文章

全球 AI 算力大战变天！十万卡算力集群爆表，国产 IB 真香？

🤖 問 AI