Kimi 新论文：把 KVCache 玩成新商业模式了

📌 一句话摘要

月之暗面与清华大学联合提出 Prefill-as-a-Service 架构，通过混合注意力模型压缩 KV Cache，使其能通过普通以太网跨数据中心传输，实现 Prefill 与 Decode 的异地异构调度，显著提升长上下文推理性能。

📝 详细摘要

本文报道了月之暗面与清华大学联合发布的一项新研究 PrFaaS。该研究旨在解决大模型推理中 Prefill 与 Decode 阶段因 KV Cache 传输带宽要求高而被强制绑定在同一 RDMA 集群的问题。核心创新在于结合了新一代混合注意力模型（如 Kimi Linear）和一套新的系统架构。混合模型大幅降低了 KV Cache 的生成速率，使其能够通过普通商用以太网进行跨数据中心传输。PrFaaS 架构则动态地将长上下文的 Prefill 计算卸载到专门的算力密集型集群（如使用 H200），生成的 KV Cache 再通过网络传回本地带宽优化集群（如使用 H20）进行 Decode。实验表明，该架构相比传统同构部署，吞吐量提升 54%，P90 延迟降低 64%，且跨数据中心传输仅需 13Gbps 带宽，极具工程可行性。

💡 主要观点

- 混合注意力模型是跨数据中心调度 KV Cache 的技术前提。 线性注意力与全注意力混合的架构（如 Kimi Linear）能极大压缩 KV Cache 的生成速率，将其从 RDMA 级别（数十 Gbps）降至以太网级别（数 Gbps），为跨域传输创造了可能。

PrFaaS 架构实现了 Prefill 与 Decode 的彻底解耦与异地异构调度。 该架构设立动态长度阈值，将长上下文的 Prefill 计算卸载到远程专用算力集群，生成的 KV Cache 通过以太网传回本地进行 Decode，使得 H200（算力型）和 H20（带宽型）等异构硬件可以独立部署和扩容。

系统通过混合缓存池与双时间尺度调度算法保障生产环境稳定性与效率。 设计 prefix-cache 和 transfer-cache 分离的混合缓存池，兼顾本地复用与跨集群传输。调度算法在毫秒级进行带宽感知路由，在分钟级进行资源重分配，使系统能自适应流量变化。

该方案具有明确的工程可行性与显著的性能收益。 在 1T 参数混合模型上的实验显示，相比同构部署，吞吐量提升 54%，P90 延迟降低 64%，且跨数据中心传输带宽仅需 13Gbps，远低于 100Gbps 的 VPC 上限，证明可用普通商用以太网承载。

💬 文章金句

- Prefill-as-a-Service 是一种跨数据中心的大模型推理服务架构，核心是将长上下文请求的 Prefill 计算，选择性卸载到独立的、算力密集型的专用集群完成，再把生成的 KV Cache 通过普通以太网传输到本地 PD 集群执行 Decode。

线性注意力+全注意力混合架构把 KV 吞吐量从 RDMA 级别降到了以太网级别。跨数据中心做 PD 分离，终于从不可能变成了可能。
相比传统同构 PD 部署，吞吐量提升 54%，P90 延迟大幅降低 64%；即便对比未做智能调度的朴素异构方案，吞吐量依然提升 32%。
PrFaaS 集群的平均出口带宽仅 13Gbps，在 100Gbps 的跨集群链路中占比仅 13%，留有充足的带宽冗余，完全不会出现拥塞与链路抢占。

📊 文章信息

AI 初评：91

来源：量子位

作者：衡宇

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3812

标签：大模型推理, KV Cache, Prefill-as-a-Service, 混合注意力, 分布式系统

阅读完整文章

Kimi 新论文：把 KVCache 玩成新商业模式了

🤖 問 AI