← 回總覽

超越 TurboQuant,面向长上下文推理的真 2-bit KV Quantization 算法问世

📅 2026-05-29 12:04 机器之心 人工智能 2 分鐘 2245 字 評分: 88
KV Cache 量化 长上下文 SGLang 模型推理
📌 一句话摘要 TogetherAI 联合悉尼大学和 UIUC 提出 OSCAR 算法,通过 attention-aware 旋转和离线校准,在约 2.28 有效比特下实现接近 BF16 精度的 2-bit KV Cache 量化,并已集成至 SGLang 推理框架实现开箱即用。 📝 详细摘要 本文介绍了 TogetherAI 等机构提出的 OSCAR 算法,旨在解决长上下文大模型推理中 KV Cache 显存占用过大的问题。OSCAR 的核心创新在于,它不再以重建原始 K/V 向量为目标,而是通过离线校准,从少量样本中估计 attention-aware 的旋转矩阵,将量化误差压缩到 a

📌 一句话摘要

TogetherAI 联合悉尼大学和 UIUC 提出 OSCAR 算法,通过 attention-aware 旋转和离线校准,在约 2.28 有效比特下实现接近 BF16 精度的 2-bit KV Cache 量化,并已集成至 SGLang 推理框架实现开箱即用。

📝 详细摘要

本文介绍了 TogetherAI 等机构提出的 OSCAR 算法,旨在解决长上下文大模型推理中 KV Cache 显存占用过大的问题。OSCAR 的核心创新在于,它不再以重建原始 K/V 向量为目标,而是通过离线校准,从少量样本中估计 attention-aware 的旋转矩阵,将量化误差压缩到 attention 不敏感的方向上。具体来说,对 key 使用 query covariance 构造旋转目标,对 value 使用 score-weighted value covariance。最终旋转由对准 attention 方向的矩阵、Hadamard 矩阵和 bit-reversal 矩阵组合而成。在系统实现上,OSCAR 已集成到 SGLang 框架,采用 BF16 sink (64 tokens) + INT2 history + BF16 recent (256 tokens) 的三段式 token 池管理,并通过融合 Triton kernel 实现高效的在线量化和解码。实验结果显示,在 Qwen3-4B-Thinking、Qwen3-8B、Qwen3-32B 和 GLM-4.7-FP8 等模型上,OSCAR 在 2.28 BPE 下精度接近 BF16,在 AIME25 等高难度推理任务上相对 3-bit 的 TurboQuant 提升显著。系统层面,在 100k 上下文下可实现最高约 3 倍解码加速和 7 倍吞吐提升。

💡 主要观点

- OSCAR 提出 attention-aware 旋转,而非传统的向量重建误差最小化。 传统量化方法(如 TurboQuant)关注 K/V 向量本身的重建误差,但 OSCAR 发现这不能完全解释模型最终表现。它通过离线校准,利用 query covariance 和 score-weighted value covariance 构造旋转,将量化误差引导至 attention 不敏感的方向,从而在极低比特下保住推理质量。

OSCAR 在约 2.28 有效比特下,精度接近 BF16,显著优于其他 INT2 方法。 在 Qwen3-4B-Thinking、Qwen3-8B 等模型上,OSCAR 在 GPQA、HumanEval、AIME25 等任务上距离 BF16 仅 1-4 分,而 QuaRot-INT2 和 Naive INT2 在这些任务上基本崩溃。相比全层 3-bit 的 TurboQuant,OSCAR 在 Qwen3-4B-Thinking 上提升了 40.1 分。
OSCAR 已集成至 SGLang 框架,实现开箱即用的 2-bit KV Cache 服务。 与许多停留在论文图表的量化方法不同,OSCAR 提供了完整的系统实现,包括离线校准、在线量化/解码 kernel,并兼容 SGLang 的 paged KV、radix prefix cache 等特性。其三段式 token 池(BF16 sink + INT2 history + BF16 recent)兼顾了精度和显存效率。
OSCAR 在长上下文和系统吞吐上带来显著收益。 在 100k 上下文下,OSCAR 可实现最高约 3 倍解码加速和 7 倍 job-level 吞吐提升。其 prefix cache 友好设计使其在共享系统提示、多轮 Agent 等长前缀复用场景中优势尤为突出。

💬 文章金句

- OSCAR 的核心就是把旋转目标从「重建原始 K/V 向量」改成「保留 attention 消费 KV 的方式」。

  • OSCAR 的优势不只是让向量数值更平滑,而是把量化误差压到 attention 不敏感的方向上。
  • OSCAR 是少数能在真近 2-bit 设置下仍保持现代 reasoning model 质量的方法。
  • OSCAR 的设计刚好夹在两者之间:长历史用 INT2 降显存和带宽,关键 sink/recent 用 BF16 兜住稳定性,再让 prefix cache 复用共享前缀。

📊 文章信息

AI 初评:88

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:15 分钟

字数:3736

标签: KV Cache, 量化, 长上下文, SGLang, 模型推理

阅读完整文章

查看原文 → 發佈: 2026-05-29 12:04:00 收錄: 2026-05-29 20:00:00

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。