OpenAI 联合 AMD、博通、英特尔、微软、英伟达开源 MRC 多路径可靠连接协议,通过将数据包分散到数百条路径传输,实现微秒级故障恢复,大幅提升大规模 AI 训练集群的网络可靠性和效率。
📝 详细摘要
OpenAI 正式开源 MRC(Multipath Reliable Connection)网络协议,该协议由 OpenAI 联合 AMD、博通、英特尔、微软、英伟达共同开发,并通过 OCP 开放给全行业。MRC 的核心创新在于将传统单路径数据传输改为多路径并行传输:数据包被拆散后同时通过数百条路径发送,目的地按内存地址重组。这使得链路故障恢复时间从秒级降至微秒级,无需交换机重新计算路由表。同时,MRC 砍掉了 BGP 动态路由协议,改用 SRv6 源路由,让发送方直接指定每个包的路径,交换机退化为无脑转发器,大幅缩小故障面。网络结构也从 3-4 层交换机简化为 2 层,降低了功耗、成本和故障点。MRC 已部署在 OpenAI 所有最大的英伟达 GB200 超算上,包括 Stargate 在德州 Abilene 与甲骨文合建的站点以及微软 Fairwater 数据中心。一个直观的例子是:在一次前沿模型训练期间,团队重启了 4 台核心交换机,无需与训练团队协调,且每分钟多次链路抖动对训练任务没有可测量的影响。
📊 文章信息
AI 初评:90
来源:宝玉(@dotey)
作者:宝玉
分类:人工智能
语言:中文
阅读时间:4 分钟
字数:835
标签: MRC, OpenAI, 网络协议, AI基础设施, 多路径传输