← 回總覽

超越 TurboQuant! OSCAR:面向真实 Serving 的 2-bit KV Cache 量化

📅 2026-05-26 19:15 AINLP 人工智能 2 分鐘 2147 字 評分: 88
KV Cache 量化 LLM 推理 SGLang 长上下文
📌 一句话摘要 OSCAR 提出了一种面向真实长上下文推理服务的 2-bit KV Cache 量化方案,通过 attention-aware 旋转和对齐,在约 2.28 有效比特下接近 BF16 精度,并已集成至 SGLang 实现系统加速。 📝 详细摘要 本文详细介绍了 OSCAR 这一面向长上下文 LLM 推理服务的 2-bit KV Cache 量化方案。文章首先指出长上下文推理中 KV Cache 对显存和带宽的巨大压力,并点明朴素低比特量化的核心问题:压缩后的向量重建误差无法保证 attention 质量。OSCAR 的核心创新在于提出 attention-aware 旋转,针

📌 一句话摘要

OSCAR 提出了一种面向真实长上下文推理服务的 2-bit KV Cache 量化方案,通过 attention-aware 旋转和对齐,在约 2.28 有效比特下接近 BF16 精度,并已集成至 SGLang 实现系统加速。

📝 详细摘要

本文详细介绍了 OSCAR 这一面向长上下文 LLM 推理服务的 2-bit KV Cache 量化方案。文章首先指出长上下文推理中 KV Cache 对显存和带宽的巨大压力,并点明朴素低比特量化的核心问题:压缩后的向量重建误差无法保证 attention 质量。OSCAR 的核心创新在于提出 attention-aware 旋转,针对 Key 使用 query covariance(QᵀQ)决定旋转目标,针对 Value 使用 score-weighted value covariance(VᵀSᵀSV),从而将量化噪声推向 attention 不敏感的方向。在系统实现上,OSCAR 已接入 SGLang,采用三段式 token pool(BF16 sink + INT2 history + BF16 recent),并通过融合 Triton kernel 完成旋转、裁剪、量化和打包。评估结果显示,在 Qwen3-4B-Thinking 上,OSCAR 相比 3-bit K/V TurboQuant 最高提升 40.1 分,在 Qwen3-32B 和 GLM-4.7-FP8 上基本贴近 BF16。系统层面,相较 BF16,KV Cache 内存降低约 8 倍,decode 最高加速约 3 倍,job-level throughput 最高提升约 7 倍。文章最后讨论了 OSCAR 对长上下文 Agent 场景的价值,并指出其与 TurboQuant 等方法的互补性。

💡 主要观点

- OSCAR 的核心创新是 attention-aware 旋转,而非通用的向量压缩。 不同于 TurboQuant 等追求还原 K/V 向量本身的方法,OSCAR 通过使用 query covariance 和 score-weighted value covariance 来指导旋转,目标是保住 attention 消费 KV 的质量,而非单纯降低向量重建误差。

OSCAR 已集成至 SGLang,具备真实服务能力。 方案采用三段式 token pool(BF16 sink + INT2 history + BF16 recent),通过融合 Triton kernel 实现高效量化与反量化,并兼容 paged KV 和 prefix cache,可直接用于长上下文生产环境。
在约 2.28 有效比特下,OSCAR 在多个模型和任务上接近 BF16 精度。 在 Qwen3-4B-Thinking、Qwen3-8B、Qwen3-32B 和 GLM-4.7-FP8 上,OSCAR 在 GPQA、HumanEval、AIME25 等任务上显著优于 TurboQuant、QuaRot-INT2 等基线,尤其在困难推理任务上优势明显。
系统层面,OSCAR 可带来最高 7 倍的吞吐提升和 8 倍的内存压缩。 在 100k 上下文下,decode 最高加速约 3 倍;在固定显存预算下,通过减小 KV footprint,job-level throughput 最高提升约 7 倍,对长前缀复用场景(如 Agent)尤为有利。

💬 文章金句

- OSCAR 的核心思路是:不要只追求还原 K/V 向量本身,而要尽量保住 attention 消费这些 KV 的方式。

  • OSCAR 的优势并不只是让数值分布看起来更平滑,而是把量化噪声尽量推到 attention 相对不敏感的方向上。
  • OSCAR 不是简单地「加一个旋转」,而是把旋转、裁剪和分组都放进了 attention 质量这个目标函数里。
  • OSCAR 带来的关键启发是:2-bit KV Cache 如果要真正上线,旋转不能只追求「有」,而要对准 attention;同时,它也必须被放进真实 serving 系统里一起设计。

📊 文章信息

AI 初评:88

来源:AINLP

作者:AINLP

分类:人工智能

语言:中文

阅读时间:17 分钟

字数:4105

标签: KV Cache, 量化, LLM 推理, SGLang, 长上下文

阅读完整文章

查看原文 → 發佈: 2026-05-26 19:15:00 收錄: 2026-05-27 00:00:36

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。