智谱、驭驯网络与清华大学联合提出 ZCube 组网架构,通过扁平化拓扑和单/多轨混合接入,在千卡推理集群中实现成本降低 33%、吞吐提升 15%、TTFT P99 降低 40.6%,有效破解 PD 分离推理中的结构性网络拥塞难题。
📝 详细摘要
本文详细介绍了智谱、驭驯网络与清华大学联合提出的 ZCube 网络架构,旨在解决大模型 PD 分离推理场景中日益严峻的结构性网络拥塞问题。文章首先通过控制变量实验证明网络带宽对推理吞吐和时延的关键影响,随后分析了传统 ROFT 架构在 PD 分离推理中因 KV Cache 传输的源-目的不对称性而导致的负载热点和 PFC 反压问题。ZCube 架构的核心创新在于:取消 Spine 层交换机,采用全网扁平化拓扑,将 Leaf 交换机分为奇偶两组并实现完全二部图互联,同时 GPU 网卡的两个端口分别以单轨和多轨方式接入两组交换机。这种设计确保了任意 GPU 对之间只有一条最优路径,从根本上避免了多路径选路冲突,并在全网交换机之间实现理想的负载均衡。在千卡 GLM-5.1 coding 生产集群的实测中,ZCube 相比 ROFT 架构,在节省 1/3 交换机与光模块成本的同时,将 GPU 平均推理吞吐提升 15% 以上,TTFT P99 降低 40.6%。该架构已稳定运行两周多,证明了架构层创新是释放硬件潜能的有效路径。
💡 主要观点
- 网络带宽已成为制约大模型推理性能的核心因素之一。 控制变量实验表明,将网卡带宽从 100Gbps 提升至 200Gbps,推理总吞吐提升约 19%,TTFT 下降约 22%,证明网络已从支撑性设施演变为决定系统性能的关键变量。
💬 文章金句
- 网络,已不再是过去的支撑性基础设施,而是演变为决定大模型推理系统吞吐、尾时延与 MaaS 综合成本的关键变量。
- ZCube 的破局之道在于'以动制动',采用全网扁平化拓扑,结合单/多轨混合接入机制,在结构层面对 PD 流量进行全局解耦与离散化路由。
- 架构层的系统创新,是释放硬件潜能最经济、最优雅的路径。
- 对相同规模和配置的 GPU 及服务器硬件,在不修改任何应用的前提下,组网架构升级为 ZCube 之后,我们不但节省了 1/3 的光模块和交换机硬件,而且集群每秒能多服务 15%的推理请求。
📊 文章信息
AI 初评:92
来源:智谱
作者:智谱
分类:人工智能
语言:中文
阅读时间:19 分钟
字数:4702
标签: ZCube, 网络架构, PD 分离, 大模型推理, 智算集群