超越 TurboQuant，面向长上下文推理的真 2-bit KV Quantization 算法问世

📌 一句话摘要

TogetherAI 联合悉尼大学和 UIUC 提出 OSCAR 算法，通过 attention-aware 旋转和离线校准，在约 2.28 有效比特下实现接近 BF16 精度的 2-bit KV Cache 量化，并已集成至 SGLang 推理框架实现开箱即用。

📝 详细摘要

本文介绍了 TogetherAI 等机构提出的 OSCAR 算法，旨在解决长上下文大模型推理中 KV Cache 显存占用过大的问题。OSCAR 的核心创新在于，它不再以重建原始 K/V 向量为目标，而是通过离线校准，从少量样本中估计 attention-aware 的旋转矩阵，将量化误差压缩到 attention 不敏感的方向上。具体来说，对 key 使用 query covariance 构造旋转目标，对 value 使用 score-weighted value covariance。最终旋转由对准 attention 方向的矩阵、Hadamard 矩阵和 bit-reversal 矩阵组合而成。在系统实现上，OSCAR 已集成到 SGLang 框架，采用 BF16 sink (64 tokens) + INT2 history + BF16 recent (256 tokens) 的三段式 token 池管理，并通过融合 Triton kernel 实现高效的在线量化和解码。实验结果显示，在 Qwen3-4B-Thinking、Qwen3-8B、Qwen3-32B 和 GLM-4.7-FP8 等模型上，OSCAR 在 2.28 BPE 下精度接近 BF16，在 AIME25 等高难度推理任务上相对 3-bit 的 TurboQuant 提升显著。系统层面，在 100k 上下文下可实现最高约 3 倍解码加速和 7 倍吞吐提升。

💡 主要观点

- OSCAR 提出 attention-aware 旋转，而非传统的向量重建误差最小化。 传统量化方法（如 TurboQuant）关注 K/V 向量本身的重建误差，但 OSCAR 发现这不能完全解释模型最终表现。它通过离线校准，利用 query covariance 和 score-weighted value covariance 构造旋转，将量化误差引导至 attention 不敏感的方向，从而在极低比特下保住推理质量。

OSCAR 在约 2.28 有效比特下，精度接近 BF16，显著优于其他 INT2 方法。 在 Qwen3-4B-Thinking、Qwen3-8B 等模型上，OSCAR 在 GPQA、HumanEval、AIME25 等任务上距离 BF16 仅 1-4 分，而 QuaRot-INT2 和 Naive INT2 在这些任务上基本崩溃。相比全层 3-bit 的 TurboQuant，OSCAR 在 Qwen3-4B-Thinking 上提升了 40.1 分。

OSCAR 已集成至 SGLang 框架，实现开箱即用的 2-bit KV Cache 服务。 与许多停留在论文图表的量化方法不同，OSCAR 提供了完整的系统实现，包括离线校准、在线量化/解码 kernel，并兼容 SGLang 的 paged KV、radix prefix cache 等特性。其三段式 token 池（BF16 sink + INT2 history + BF16 recent）兼顾了精度和显存效率。

OSCAR 在长上下文和系统吞吐上带来显著收益。 在 100k 上下文下，OSCAR 可实现最高约 3 倍解码加速和 7 倍 job-level 吞吐提升。其 prefix cache 友好设计使其在共享系统提示、多轮 Agent 等长前缀复用场景中优势尤为突出。

💬 文章金句

- OSCAR 的核心就是把旋转目标从「重建原始 K/V 向量」改成「保留 attention 消费 KV 的方式」。

OSCAR 的优势不只是让向量数值更平滑，而是把量化误差压到 attention 不敏感的方向上。
OSCAR 是少数能在真近 2-bit 设置下仍保持现代 reasoning model 质量的方法。
OSCAR 的设计刚好夹在两者之间：长历史用 INT2 降显存和带宽，关键 sink/recent 用 BF16 兜住稳定性，再让 prefix cache 复用共享前缀。

📊 文章信息

AI 初评：88

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：15 分钟

字数：3736

标签： KV Cache, 量化, 长上下文, SGLang, 模型推理

阅读完整文章

超越 TurboQuant，面向长上下文推理的真 2-bit KV Quantization 算法问世

🤖 問 AI