TogetherAI 联合悉尼大学和 UIUC 提出 OSCAR 算法,通过 attention-aware 旋转和离线校准,在约 2.28 有效比特下实现接近 BF16 精度的 2-bit KV Cache 量化,并已集成至 SGLang 推理框架实现开箱即用。
📝 详细摘要
本文介绍了 TogetherAI 等机构提出的 OSCAR 算法,旨在解决长上下文大模型推理中 KV Cache 显存占用过大的问题。OSCAR 的核心创新在于,它不再以重建原始 K/V 向量为目标,而是通过离线校准,从少量样本中估计 attention-aware 的旋转矩阵,将量化误差压缩到 attention 不敏感的方向上。具体来说,对 key 使用 query covariance 构造旋转目标,对 value 使用 score-weighted value covariance。最终旋转由对准 attention 方向的矩阵、Hadamard 矩阵和 bit-reversal 矩阵组合而成。在系统实现上,OSCAR 已集成到 SGLang 框架,采用 BF16 sink (64 tokens) + INT2 history + BF16 recent (256 tokens) 的三段式 token 池管理,并通过融合 Triton kernel 实现高效的在线量化和解码。实验结果显示,在 Qwen3-4B-Thinking、Qwen3-8B、Qwen3-32B 和 GLM-4.7-FP8 等模型上,OSCAR 在 2.28 BPE 下精度接近 BF16,在 AIME25 等高难度推理任务上相对 3-bit 的 TurboQuant 提升显著。系统层面,在 100k 上下文下可实现最高约 3 倍解码加速和 7 倍吞吐提升。
💡 主要观点
- OSCAR 提出 attention-aware 旋转,而非传统的向量重建误差最小化。 传统量化方法(如 TurboQuant)关注 K/V 向量本身的重建误差,但 OSCAR 发现这不能完全解释模型最终表现。它通过离线校准,利用 query covariance 和 score-weighted value covariance 构造旋转,将量化误差引导至 attention 不敏感的方向,从而在极低比特下保住推理质量。
💬 文章金句
- OSCAR 的核心就是把旋转目标从「重建原始 K/V 向量」改成「保留 attention 消费 KV 的方式」。
- OSCAR 的优势不只是让向量数值更平滑,而是把量化误差压到 attention 不敏感的方向上。
- OSCAR 是少数能在真近 2-bit 设置下仍保持现代 reasoning model 质量的方法。
- OSCAR 的设计刚好夹在两者之间:长历史用 INT2 降显存和带宽,关键 sink/recent 用 BF16 兜住稳定性,再让 prefix cache 复用共享前缀。
📊 文章信息
AI 初评:88
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:15 分钟
字数:3736
标签: KV Cache, 量化, 长上下文, SGLang, 模型推理