TogetherAI 开源 OSCAR：超越 TurboQuant! 面向真实 Serving 的 2-bit KV Cache 量化

📌 一句话摘要

Together AI 开源了 OSCAR，一种面向真实长上下文服务的 2-bit KV Cache 量化方案，通过注意力感知的旋转技术，在显著降低显存占用和提升推理吞吐的同时，保持了与 BF16 精度相当的模型性能。

📝 详细摘要

本文详细介绍了 Together AI 开源的 OSCAR（Offline Spectral Covariance-Aware Rotation）方案，旨在解决长上下文 LLM 推理中 KV Cache 的显存瓶颈。OSCAR 的核心创新在于，它不追求简单还原 K/V 向量本身，而是通过分析 attention 机制，将量化噪声推到 attention 不敏感的方向上。具体来说，OSCAR 使用 query covariance 指导 key 的旋转，使用 score-weighted value covariance 指导 value 的旋转，并结合 Hadamard 变换和 bit-reversal 技术，实现约 2.28 effective bits per KV element 的高效量化。在系统实现上，OSCAR 已集成到 SGLang 中，采用三段式 token pool（BF16 sink + INT2 history + BF16 recent）管理 KV Cache，兼容 paged KV 和 prefix cache。评估结果显示，在 Qwen3、GLM-4.7 等模型上，OSCAR 在 2-bit 精度下性能接近 BF16，相比 3-bit TurboQuant 最高提升 40.1 分，decode 加速最高约 3 倍，job-level throughput 最高约 7 倍。文章还提供了在 SGLang 上部署 OSCAR 的快速实践指南。

💡 主要观点

- OSCAR 通过注意力感知的旋转技术，将量化噪声引导至 attention 不敏感的方向。 不同于传统方法追求 K/V 向量的低重建误差，OSCAR 利用 query covariance 和 score-weighted value covariance 指导旋转矩阵的生成，确保量化后的 KV Cache 对 attention 计算的影响最小化。

OSCAR 在约 2.28 BPE 下，性能接近 BF16，显著优于其他 2-bit 和 3-bit 方案。 在 Qwen3-8B 等模型上，OSCAR 在 GPQA、HumanEval 等任务中与 BF16 精度差距极小，且大幅领先 QuaRot-INT2 和 TurboQuant，证明了其在高压缩率下保持模型质量的能力。

OSCAR 已集成至 SGLang，采用三段式 token pool 设计，兼顾精度与效率。 系统运行时将 KV Cache 分为 BF16 sink、INT2 history 和 BF16 recent 三段，在保护 attention sink 和近期上下文精度的同时，大幅压缩历史 KV 的显存占用，并兼容 paged KV 和 prefix cache。

OSCAR 在长上下文场景下能带来显著的显存节省和推理加速。 相比 BF16，OSCAR 可将 KV Cache 显存降低约 8 倍，在 100k 上下文下实现最高约 3 倍 decode 加速和约 7 倍 job-level throughput 提升，尤其适合长前缀复用的 Agent 场景。

💬 文章金句

- OSCAR 的核心思路是：不只追求还原 K/V 向量本身，而要保住 attention 真正消费这些 KV 的方式。

OSCAR 的优势并不只是让数值分布看起来更平滑，而是把量化噪声尽量推到 attention 相对不敏感的方向上。
OSCAR 不是简单地'加一个旋转'，而是把旋转、裁剪和分组都放进了 attention 质量这个目标函数里。
OSCAR 面向的是可落地的企业级 workload，而不是只展示论文苍白的 error 数据。
OSCAR 带来的关键启发是：2-bit KV Cache 如果要真正上线，旋转不能只追求'有'，而要对准 attention；同时，它也必须被放进真实 serving 系统里一起设计。

📊 文章信息

AI 初评：88

来源：魔搭ModelScope社区

作者：魔搭ModelScope社区

分类：人工智能

语言：中文

阅读时间：19 分钟

字数：4743

标签： KV Cache, 量化, OSCAR, Together AI, SGLang

阅读完整文章

TogetherAI 开源 OSCAR：超越 TurboQuant! 面向真实 Serving 的 2-bit KV Cache 量化

🤖 問 AI