← 回總覽

OpenAI 开源 MRC 网络协议,解决大规模 GPU 训练网络瓶颈

📅 2026-05-07 00:02 宝玉 人工智能 1 分鐘 906 字 評分: 90
MRC OpenAI 网络协议 AI基础设施 多路径传输
📌 一句话摘要 OpenAI 联合 AMD、博通、英特尔、微软、英伟达开源 MRC 多路径可靠连接协议,通过将数据包分散到数百条路径传输,实现微秒级故障恢复,大幅提升大规模 AI 训练集群的网络可靠性和效率。 📝 详细摘要 OpenAI 正式开源 MRC(Multipath Reliable Connection)网络协议,该协议由 OpenAI 联合 AMD、博通、英特尔、微软、英伟达共同开发,并通过 OCP 开放给全行业。MRC 的核心创新在于将传统单路径数据传输改为多路径并行传输:数据包被拆散后同时通过数百条路径发送,目的地按内存地址重组。这使得链路故障恢复时间从秒级降至微秒级,无需

📌 一句话摘要

OpenAI 联合 AMD、博通、英特尔、微软、英伟达开源 MRC 多路径可靠连接协议,通过将数据包分散到数百条路径传输,实现微秒级故障恢复,大幅提升大规模 AI 训练集群的网络可靠性和效率。

📝 详细摘要

OpenAI 正式开源 MRC(Multipath Reliable Connection)网络协议,该协议由 OpenAI 联合 AMD、博通、英特尔、微软、英伟达共同开发,并通过 OCP 开放给全行业。MRC 的核心创新在于将传统单路径数据传输改为多路径并行传输:数据包被拆散后同时通过数百条路径发送,目的地按内存地址重组。这使得链路故障恢复时间从秒级降至微秒级,无需交换机重新计算路由表。同时,MRC 砍掉了 BGP 动态路由协议,改用 SRv6 源路由,让发送方直接指定每个包的路径,交换机退化为无脑转发器,大幅缩小故障面。网络结构也从 3-4 层交换机简化为 2 层,降低了功耗、成本和故障点。MRC 已部署在 OpenAI 所有最大的英伟达 GB200 超算上,包括 Stargate 在德州 Abilene 与甲骨文合建的站点以及微软 Fairwater 数据中心。一个直观的例子是:在一次前沿模型训练期间,团队重启了 4 台核心交换机,无需与训练团队协调,且每分钟多次链路抖动对训练任务没有可测量的影响。

📊 文章信息

AI 初评:90

来源:宝玉(@dotey)

作者:宝玉

分类:人工智能

语言:中文

阅读时间:4 分钟

字数:835

标签: MRC, OpenAI, 网络协议, AI基础设施, 多路径传输

阅读推文

查看原文 → 發佈: 2026-05-07 00:02:36 收錄: 2026-05-07 02:00:49

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。