本文深度解读了月之暗面(Kimi)团队提出的 PrfaaS 架构,该架构通过算法与系统协同创新,利用混合注意力模型大幅降低 KVCache 传输需求,实现了万亿参数大模型在普通以太网上的跨数据中心高效推理,实测吞吐量提升 54%,延迟降低 64%。
📝 详细摘要
文章详细介绍了月之暗面(Kimi)团队在 arXiv 上发布的 PrfaaS(Prefill-as-a-Service)架构论文。该研究旨在解决大规模 LLM 推理中,因 KVCache 传输带宽限制而导致的算力“孤岛”问题。核心创新在于结合了混合注意力模型(如 Kimi Linear、SWA+GQA)和新型系统架构。混合注意力模型将 KVCache 生成量降至稠密模型的 1/4 甚至 1/36,为跨普通以太网传输创造了可能。PrfaaS 架构将计算密集的 Prefill 任务卸载到专用的高算力集群(如 H200),并通过普通以太网将生成的 KVCache 流式传输到靠近用户的本地 Decode 集群(如 H20)。文章还介绍了混合前缀缓存池、双尺度智能调度等关键技术,并展示了在 1 万亿参数模型上的实测结果:相比传统部署,吞吐量提升 54%,P90 首字延迟降低 64%,跨中心带宽占用仅需 13 Gbps。文章认为,这标志着大模型推理从“单体机房”向“分布式算力云”的转变,为“东数西算”、异构硬件协同和降低推理成本开辟了新路径。
💡 主要观点
- 混合注意力模型是跨数据中心推理可行的算法基础。 Kimi Linear 等混合注意力模型大幅减少了随序列长度线性增长的 KVCache 量(最低可达稠密模型的 1/36),使得 KVCache 能够通过普通以太网进行跨数据中心传输,突破了传统架构的带宽瓶颈。
💬 文章金句
- KVCache(键值缓存)太重了。 只要跨出机房、跨过普通网线,传输延迟就会瞬间拖垮系统,让推理变成‘慢动作’。
- KV Throughput(单位时间产生的 KVCache 大小)仅仅是稠密模型 1/4,甚至最低可以达到 1/36 。
- 专用的 PrfaaS 集群:在高吞吐、成本更优的加速器上执行计算密集型长上下文 prefill(未命中前缀的缓存),并通过通用以太网将生成的 KVCache 流式传输到本地 PD 集群;
- PrfaaS 系统吞吐量提升了 54% 。比无调度的异构 PD 提升 32% 。... P90 首字延迟(TTFT)大幅降低 64% 。
- PrfaaS 处理万亿模型时,跨中心带宽占用仅为 13 Gbps(占 100 Gbps 的 13%),远低于稠密模型的需求 。
📊 文章信息
AI 初评:88
来源:51CTO技术栈
作者:51CTO技术栈
分类:人工智能
语言:中文
阅读时间:14 分钟
字数:3304
标签: 大模型推理, KVCache, 分布式系统, 月之暗面, PrfaaS