月之暗面与清华大学联合提出 Prefill-as-a-Service 架构,通过混合注意力模型压缩 KV Cache,使其能通过普通以太网跨数据中心传输,实现 Prefill 与 Decode 的异地异构调度,显著提升长上下文推理性能。
📝 详细摘要
本文报道了月之暗面与清华大学联合发布的一项新研究 PrFaaS。该研究旨在解决大模型推理中 Prefill 与 Decode 阶段因 KV Cache 传输带宽要求高而被强制绑定在同一 RDMA 集群的问题。核心创新在于结合了新一代混合注意力模型(如 Kimi Linear)和一套新的系统架构。混合模型大幅降低了 KV Cache 的生成速率,使其能够通过普通商用以太网进行跨数据中心传输。PrFaaS 架构则动态地将长上下文的 Prefill 计算卸载到专门的算力密集型集群(如使用 H200),生成的 KV Cache 再通过网络传回本地带宽优化集群(如使用 H20)进行 Decode。实验表明,该架构相比传统同构部署,吞吐量提升 54%,P90 延迟降低 64%,且跨数据中心传输仅需 13Gbps 带宽,极具工程可行性。
💡 主要观点
- 混合注意力模型是跨数据中心调度 KV Cache 的技术前提。 线性注意力与全注意力混合的架构(如 Kimi Linear)能极大压缩 KV Cache 的生成速率,将其从 RDMA 级别(数十 Gbps)降至以太网级别(数 Gbps),为跨域传输创造了可能。
💬 文章金句
- Prefill-as-a-Service 是一种跨数据中心的大模型推理服务架构,核心是将长上下文请求的 Prefill 计算,选择性卸载到独立的、算力密集型的专用集群完成,再把生成的 KV Cache 通过普通以太网传输到本地 PD 集群执行 Decode。
- 线性注意力+全注意力混合架构把 KV 吞吐量从 RDMA 级别降到了以太网级别。跨数据中心做 PD 分离,终于从不可能变成了可能。
- 相比传统同构 PD 部署,吞吐量提升 54%,P90 延迟大幅降低 64%;即便对比未做智能调度的朴素异构方案,吞吐量依然提升 32%。
- PrFaaS 集群的平均出口带宽仅 13Gbps,在 100Gbps 的跨集群链路中占比仅 13%,留有充足的带宽冗余,完全不会出现拥塞与链路抢占。
📊 文章信息
AI 初评:91
来源:量子位
作者:衡宇
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3812
标签: 大模型推理, KV Cache, Prefill-as-a-Service, 混合注意力, 分布式系统