← 回總覽

Tair 联手 SGLang 共建 DeepSeekV4 分层缓存架构

📅 2026-05-29 08:30 阿里云开发者 人工智能 2 分鐘 2177 字 評分: 92
DeepSeek V4 KV Cache SGLang Tair 分层缓存
📌 一句话摘要 本文详细介绍了阿里云 Tair KVCache 团队与 SGLang 社区为 DeepSeek V4 构建的分层缓存架构,通过 Shadow Radix、HiCache 和 HiSparse 三个核心组件,分别解决长上下文推理中 KV Cache 的逻辑描述、Prefill 阶段前缀复用和 Decode 阶段显存瓶颈问题。 📝 详细摘要 文章围绕 DeepSeek V4 的 CSA + HCA 混合注意力结构带来的 KV Cache 管理挑战,系统阐述了阿里云 Tair KVCache 与 SGLang 社区联合提出的分层缓存解决方案。核心架构包含三个层次:Shadow R

📌 一句话摘要

本文详细介绍了阿里云 Tair KVCache 团队与 SGLang 社区为 DeepSeek V4 构建的分层缓存架构,通过 Shadow Radix、HiCache 和 HiSparse 三个核心组件,分别解决长上下文推理中 KV Cache 的逻辑描述、Prefill 阶段前缀复用和 Decode 阶段显存瓶颈问题。

📝 详细摘要

文章围绕 DeepSeek V4 的 CSA + HCA 混合注意力结构带来的 KV Cache 管理挑战,系统阐述了阿里云 Tair KVCache 与 SGLang 社区联合提出的分层缓存解决方案。核心架构包含三个层次:Shadow Radix 通过统一的 full logical index 抽象,让调度器不感知 SWA、C4、C128 等物理细节;V4 HiCache 基于 UnifiedRadixTree,将 Full/SWA 作为 prefix tree component,通过 SidecarPool 将多类物理 pool 扩展到 Host 和 Storage 层,在 Prefill 阶段将多轮对话吞吐提升近 3 倍;V4 HiSparse 针对 Decode 阶段,将 C4 compressed KV 的完整镜像放在 CPU,GPU 仅保留 hot buffer,通过按需 swap-in 机制,在 2×B200、200K 输入场景下显著提升 peak throughput。文章还提供了具体的实现路径、初始化代码片段和 Benchmark 数据,展示了这套架构在长上下文推理中的实际收益。

💡 主要观点

- Shadow Radix 通过统一的 full logical index 抽象,屏蔽了 DeepSeek V4 多种注意力路径的物理差异。 SWA、C4、C128、indexer 和 compress state 等不同物理 pool 共用一套逻辑坐标,scheduler 和 radix tree 无需直接管理物理细节,降低了系统复杂度。

V4 HiCache 将 prefix KV cache 从 GPU 扩展到 Host 和 Storage 层,显著提升 Prefill 阶段的前缀复用能力。 基于 UnifiedRadixTree 的可插拔组件架构,Full/SWA 作为 anchor pool,C4/C128 等作为 sidecar pools 跟随 offload/load-back,在多轮对话场景下 Input Throughput 提升接近 3 倍。
V4 HiSparse 在 Decode 阶段将 C4 compressed KV 的完整镜像放在 CPU,GPU 仅保留 hot buffer,按需 swap-in。 通过 per-request 的 4K LRU hot buffer 和增量 H2D 加载,有效释放 GPU 显存占用,在并发场景下将 BatchSize 提升 5-10 倍,peak throughput 显著提高。

💬 文章金句

- DeepSeek V4 采用 CSA + HCA 的混合注意力结构……这种设计降低了长上下文推理的计算和显存压力,但也对推理系统提出了一个根本性的挑战:同一个 token 在不同 attention 路径里会对应完全不同的物理形态。

  • Shadow Radix 的目标是让不同物理 pool 共用一套逻辑坐标。
  • V4 HiCache 是 DeepSeek V4 在 prefill 阶段使用的分层 prefix cache。它把原本只能留在 GPU 的 prefix KV 扩展到 L2 Host 和 L3 Storage。
  • HiSparse 的设计就是把完整 KV mirror 放到 CPU pinned memory,在 GPU 上只保留一个较小的 hot buffer。
  • 这套架构在 Prefill 侧为多轮对话的 Input Throughput 提升接近 3 倍……在 Decode 侧,HiSparse 在 2×B200、200K 输入的场景下,通过释放 C4 冷 KV 的显存占用,将 peak throughput 显著拉高。

📊 文章信息

AI 初评:92

来源:阿里云开发者

作者:阿里云开发者

分类:人工智能

语言:中文

阅读时间:17 分钟

字数:4181

标签: DeepSeek V4, KV Cache, SGLang, Tair, 分层缓存

阅读完整文章

查看原文 → 發佈: 2026-05-29 08:30:00 收錄: 2026-05-29 10:00:10

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。