Tair 联手 SGLang 共建 DeepSeekV4 分层缓存架构

📌 一句话摘要

本文详细介绍了阿里云 Tair KVCache 团队与 SGLang 社区为 DeepSeek V4 构建的分层缓存架构，通过 Shadow Radix、HiCache 和 HiSparse 三个核心组件，分别解决长上下文推理中 KV Cache 的逻辑描述、Prefill 阶段前缀复用和 Decode 阶段显存瓶颈问题。

📝 详细摘要

文章围绕 DeepSeek V4 的 CSA + HCA 混合注意力结构带来的 KV Cache 管理挑战，系统阐述了阿里云 Tair KVCache 与 SGLang 社区联合提出的分层缓存解决方案。核心架构包含三个层次：Shadow Radix 通过统一的 full logical index 抽象，让调度器不感知 SWA、C4、C128 等物理细节；V4 HiCache 基于 UnifiedRadixTree，将 Full/SWA 作为 prefix tree component，通过 SidecarPool 将多类物理 pool 扩展到 Host 和 Storage 层，在 Prefill 阶段将多轮对话吞吐提升近 3 倍；V4 HiSparse 针对 Decode 阶段，将 C4 compressed KV 的完整镜像放在 CPU，GPU 仅保留 hot buffer，通过按需 swap-in 机制，在 2×B200、200K 输入场景下显著提升 peak throughput。文章还提供了具体的实现路径、初始化代码片段和 Benchmark 数据，展示了这套架构在长上下文推理中的实际收益。

💡 主要观点

- Shadow Radix 通过统一的 full logical index 抽象，屏蔽了 DeepSeek V4 多种注意力路径的物理差异。 SWA、C4、C128、indexer 和 compress state 等不同物理 pool 共用一套逻辑坐标，scheduler 和 radix tree 无需直接管理物理细节，降低了系统复杂度。

V4 HiCache 将 prefix KV cache 从 GPU 扩展到 Host 和 Storage 层，显著提升 Prefill 阶段的前缀复用能力。 基于 UnifiedRadixTree 的可插拔组件架构，Full/SWA 作为 anchor pool，C4/C128 等作为 sidecar pools 跟随 offload/load-back，在多轮对话场景下 Input Throughput 提升接近 3 倍。

V4 HiSparse 在 Decode 阶段将 C4 compressed KV 的完整镜像放在 CPU，GPU 仅保留 hot buffer，按需 swap-in。 通过 per-request 的 4K LRU hot buffer 和增量 H2D 加载，有效释放 GPU 显存占用，在并发场景下将 BatchSize 提升 5-10 倍，peak throughput 显著提高。

💬 文章金句

- DeepSeek V4 采用 CSA + HCA 的混合注意力结构……这种设计降低了长上下文推理的计算和显存压力，但也对推理系统提出了一个根本性的挑战：同一个 token 在不同 attention 路径里会对应完全不同的物理形态。

Shadow Radix 的目标是让不同物理 pool 共用一套逻辑坐标。
V4 HiCache 是 DeepSeek V4 在 prefill 阶段使用的分层 prefix cache。它把原本只能留在 GPU 的 prefix KV 扩展到 L2 Host 和 L3 Storage。
HiSparse 的设计就是把完整 KV mirror 放到 CPU pinned memory，在 GPU 上只保留一个较小的 hot buffer。
这套架构在 Prefill 侧为多轮对话的 Input Throughput 提升接近 3 倍……在 Decode 侧，HiSparse 在 2×B200、200K 输入的场景下，通过释放 C4 冷 KV 的显存占用，将 peak throughput 显著拉高。

📊 文章信息

AI 初评：92

来源：阿里云开发者

作者：阿里云开发者

分类：人工智能

语言：中文

阅读时间：17 分钟

字数：4181

标签： DeepSeek V4, KV Cache, SGLang, Tair, 分层缓存

阅读完整文章

Tair 联手 SGLang 共建 DeepSeekV4 分层缓存架构

🤖 問 AI