普通网线也能跑万亿大模型！月之暗面抛出王炸架构，亲证：不用全买 H100！1T 模型实测：延迟暴降 64%！大模型推理“围城”攻破了！

📌 一句话摘要

本文深度解读了月之暗面（Kimi）团队提出的 PrfaaS 架构，该架构通过算法与系统协同创新，利用混合注意力模型大幅降低 KVCache 传输需求，实现了万亿参数大模型在普通以太网上的跨数据中心高效推理，实测吞吐量提升 54%，延迟降低 64%。

📝 详细摘要

文章详细介绍了月之暗面（Kimi）团队在 arXiv 上发布的 PrfaaS（Prefill-as-a-Service）架构论文。该研究旨在解决大规模 LLM 推理中，因 KVCache 传输带宽限制而导致的算力“孤岛”问题。核心创新在于结合了混合注意力模型（如 Kimi Linear、SWA+GQA）和新型系统架构。混合注意力模型将 KVCache 生成量降至稠密模型的 1/4 甚至 1/36，为跨普通以太网传输创造了可能。PrfaaS 架构将计算密集的 Prefill 任务卸载到专用的高算力集群（如 H200），并通过普通以太网将生成的 KVCache 流式传输到靠近用户的本地 Decode 集群（如 H20）。文章还介绍了混合前缀缓存池、双尺度智能调度等关键技术，并展示了在 1 万亿参数模型上的实测结果：相比传统部署，吞吐量提升 54%，P90 首字延迟降低 64%，跨中心带宽占用仅需 13 Gbps。文章认为，这标志着大模型推理从“单体机房”向“分布式算力云”的转变，为“东数西算”、异构硬件协同和降低推理成本开辟了新路径。

💡 主要观点

- 混合注意力模型是跨数据中心推理可行的算法基础。 Kimi Linear 等混合注意力模型大幅减少了随序列长度线性增长的 KVCache 量（最低可达稠密模型的 1/36），使得 KVCache 能够通过普通以太网进行跨数据中心传输，突破了传统架构的带宽瓶颈。

PrfaaS 架构实现了 Prefill 与 Decode 的物理与逻辑解耦。 该架构将计算密集的长上下文 Prefill 任务卸载到远程专用集群（如 H200），通过普通以太网流式传输 KVCache 至本地 Decode 集群（如 H20），让不同特长的硬件各司其职，提升了整体资源利用率和弹性。

智能调度与混合缓存池是保障系统高效运行的关键。 系统内置了选择性卸载（仅处理长请求）和带宽感知的动态路由策略。混合前缀缓存池创新地管理了线性注意力状态和全注意力 KVCache 这两种异构缓存，实现了跨集群的高效复用。

实测性能提升显著，为降低推理成本提供了工程路径。 在 1 万亿参数模型上，PrfaaS 实现了吞吐量提升 54%、P90 延迟降低 64% 的显著效果。这意味着更高的处理效率和更低的用户端 API 成本，推动大模型推理进入“分布式算力云”时代。

💬 文章金句

- KVCache（键值缓存）太重了。 只要跨出机房、跨过普通网线，传输延迟就会瞬间拖垮系统，让推理变成‘慢动作’。

KV Throughput（单位时间产生的 KVCache 大小）仅仅是稠密模型 1/4，甚至最低可以达到 1/36 。
专用的 PrfaaS 集群：在高吞吐、成本更优的加速器上执行计算密集型长上下文 prefill（未命中前缀的缓存），并通过通用以太网将生成的 KVCache 流式传输到本地 PD 集群；
PrfaaS 系统吞吐量提升了 54% 。比无调度的异构 PD 提升 32% 。... P90 首字延迟（TTFT）大幅降低 64% 。
PrfaaS 处理万亿模型时，跨中心带宽占用仅为 13 Gbps（占 100 Gbps 的 13%），远低于稠密模型的需求 。

📊 文章信息

AI 初评：88

来源：51CTO技术栈

作者：51CTO技术栈

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3304

标签：大模型推理, KVCache, 分布式系统, 月之暗面, PrfaaS

阅读完整文章

普通网线也能跑万亿大模型！月之暗面抛出王炸架构，亲证：不用全买 H100！1T 模型实测：延迟暴降 64%！大模型推理“围城”攻破了！

🤖 問 AI