本文详细介绍了阿里云 Tair KVCache 团队与 SGLang 社区为 DeepSeek V4 构建的分层缓存架构,通过 Shadow Radix、HiCache 和 HiSparse 三个核心组件,分别解决长上下文推理中 KV Cache 的逻辑描述、Prefill 阶段前缀复用和 Decode 阶段显存瓶颈问题。
📝 详细摘要
文章围绕 DeepSeek V4 的 CSA + HCA 混合注意力结构带来的 KV Cache 管理挑战,系统阐述了阿里云 Tair KVCache 与 SGLang 社区联合提出的分层缓存解决方案。核心架构包含三个层次:Shadow Radix 通过统一的 full logical index 抽象,让调度器不感知 SWA、C4、C128 等物理细节;V4 HiCache 基于 UnifiedRadixTree,将 Full/SWA 作为 prefix tree component,通过 SidecarPool 将多类物理 pool 扩展到 Host 和 Storage 层,在 Prefill 阶段将多轮对话吞吐提升近 3 倍;V4 HiSparse 针对 Decode 阶段,将 C4 compressed KV 的完整镜像放在 CPU,GPU 仅保留 hot buffer,通过按需 swap-in 机制,在 2×B200、200K 输入场景下显著提升 peak throughput。文章还提供了具体的实现路径、初始化代码片段和 Benchmark 数据,展示了这套架构在长上下文推理中的实际收益。
💡 主要观点
- Shadow Radix 通过统一的 full logical index 抽象,屏蔽了 DeepSeek V4 多种注意力路径的物理差异。 SWA、C4、C128、indexer 和 compress state 等不同物理 pool 共用一套逻辑坐标,scheduler 和 radix tree 无需直接管理物理细节,降低了系统复杂度。
💬 文章金句
- DeepSeek V4 采用 CSA + HCA 的混合注意力结构……这种设计降低了长上下文推理的计算和显存压力,但也对推理系统提出了一个根本性的挑战:同一个 token 在不同 attention 路径里会对应完全不同的物理形态。
- Shadow Radix 的目标是让不同物理 pool 共用一套逻辑坐标。
- V4 HiCache 是 DeepSeek V4 在 prefill 阶段使用的分层 prefix cache。它把原本只能留在 GPU 的 prefix KV 扩展到 L2 Host 和 L3 Storage。
- HiSparse 的设计就是把完整 KV mirror 放到 CPU pinned memory,在 GPU 上只保留一个较小的 hot buffer。
- 这套架构在 Prefill 侧为多轮对话的 Input Throughput 提升接近 3 倍……在 Decode 侧,HiSparse 在 2×B200、200K 输入的场景下,通过释放 C4 冷 KV 的显存占用,将 peak throughput 显著拉高。
📊 文章信息
AI 初评:92
来源:阿里云开发者
作者:阿里云开发者
分类:人工智能
语言:中文
阅读时间:17 分钟
字数:4181
标签: DeepSeek V4, KV Cache, SGLang, Tair, 分层缓存