超越 TurboQuant! OSCAR：面向真实 Serving 的 2bit KV Cache 量化

📌 一句话摘要

OSCAR 提出了一种面向真实长上下文推理服务的近 2-bit KV Cache 量化方案，通过 attention-aware 旋转和离线校准，在保持模型精度的同时实现约 8 倍显存压缩和最高 7 倍吞吐提升，并已接入 SGLang 服务框架。

📝 详细摘要

本文详细介绍了 OSCAR（Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization）这一新型 KV Cache 量化方法。与 TurboQuant 等仅关注向量重建误差的方法不同，OSCAR 的核心创新在于将量化目标对准 attention 质量本身。它通过离线校准，利用 query covariance 和 score-weighted value covariance 为每一层、每个 head 生成 attention-aware 旋转矩阵和裁剪阈值，将量化噪声推到 attention 相对不敏感的方向。OSCAR 采用三段式 token pool 设计（BF16 sink + INT2 history + BF16 recent），并已集成到 SGLang 服务框架中，兼容 paged KV 和 prefix cache。在 Qwen3-4B-Thinking、Qwen3-8B、Qwen3-32B 和 GLM-4.7-FP8 等模型上的评测显示，OSCAR 在约 2.28 effective bits per KV element 下能接近 BF16 精度，在 Qwen3-4B-Thinking 上相比 3-bit K/V TurboQuant 最高提升 40.1 分。系统层面，OSCAR 可将 KV Cache 显存压低约 8 倍，在 100k 上下文下实现最高约 3 倍 decode 加速和约 7 倍 job-level throughput 提升。

💡 主要观点

- OSCAR 的核心创新是 attention-aware 旋转，而非仅追求向量重建精度。 与 TurboQuant 等关注向量压缩的方法不同，OSCAR 通过离线校准，利用 query covariance 和 score-weighted value covariance 生成旋转矩阵，将量化噪声推到 attention 相对不敏感的方向，从而在极低比特下保持推理质量。

OSCAR 采用三段式 token pool 设计，兼顾精度与压缩效率。 在运行时，OSCAR 将 KV Cache 分为 BF16 sink（64 tokens）、INT2 history 和 BF16 recent（256 tokens）三段，保护 attention sink 与最近上下文，同时将占比最大的历史段压缩至近 2-bit，实现约 8 倍显存压缩。

OSCAR 已集成到 SGLang 服务框架，具备真实部署能力。 OSCAR 不是仅停留在论文中的离线方法，它已接入 SGLang，兼容 paged KV、radix prefix cache 和 fused kernel pipeline，可直接用于真实长上下文 serving 场景。

OSCAR 在多个模型和任务上接近 BF16 精度，显著优于现有低比特方法。 在 Qwen3-4B-Thinking、Qwen3-8B、Qwen3-32B 和 GLM-4.7-FP8 上，OSCAR 在约 2.28 BPE 下距离 BF16 仅差 1-4 分，在 Qwen3-4B-Thinking 上比 3-bit TurboQuant 高 40.1 分，在 AIME25 上甚至略超 BF16。

OSCAR 在长上下文场景下能有效缓解 KV 误差累积问题。 在 128K 长上下文的 RULER-NIAH 测试中，OSCAR 在 Qwen3-8B 与 GLM-4.7-FP8 上均保持了更稳定的检索能力，说明 attention-aware rotation 能缓解超长历史中 KV 误差逐步累积的问题。

💬 文章金句

- OSCAR 的核心思路是：不要只追求还原 K/V 向量本身，而要尽量保住 attention 消费这些 KV 的方式。

OSCAR 的优势并不只是让数值分布看起来更平滑，而是把量化噪声尽量推到 attention 相对不敏感的方向上。
OSCAR 不是一个孤立量化技巧，而是一整套 2-bit KV Cache 服务方案。
OSCAR 带来的关键启发是：2-bit KV Cache 如果要真正上线，旋转不能只追求'有'，而要对准 attention；同时，它也必须被放进真实 serving 系统里一起设计。

📊 文章信息

AI 初评：88

来源：InfoQ 中文

作者：InfoQ 中文

分类：人工智能

语言：中文

阅读时间：17 分钟

字数：4061

标签： KV Cache 量化, 模型推理优化, 低比特量化, 长上下文, SGLang

阅读完整文章

超越 TurboQuant! OSCAR：面向真实 Serving 的 2bit KV Cache 量化

🤖 問 AI