Together AI 开源了 OSCAR,一种面向真实长上下文服务的 2-bit KV Cache 量化方案,通过注意力感知的旋转技术,在显著降低显存占用和提升推理吞吐的同时,保持了与 BF16 精度相当的模型性能。
📝 详细摘要
本文详细介绍了 Together AI 开源的 OSCAR(Offline Spectral Covariance-Aware Rotation)方案,旨在解决长上下文 LLM 推理中 KV Cache 的显存瓶颈。OSCAR 的核心创新在于,它不追求简单还原 K/V 向量本身,而是通过分析 attention 机制,将量化噪声推到 attention 不敏感的方向上。具体来说,OSCAR 使用 query covariance 指导 key 的旋转,使用 score-weighted value covariance 指导 value 的旋转,并结合 Hadamard 变换和 bit-reversal 技术,实现约 2.28 effective bits per KV element 的高效量化。在系统实现上,OSCAR 已集成到 SGLang 中,采用三段式 token pool(BF16 sink + INT2 history + BF16 recent)管理 KV Cache,兼容 paged KV 和 prefix cache。评估结果显示,在 Qwen3、GLM-4.7 等模型上,OSCAR 在 2-bit 精度下性能接近 BF16,相比 3-bit TurboQuant 最高提升 40.1 分,decode 加速最高约 3 倍,job-level throughput 最高约 7 倍。文章还提供了在 SGLang 上部署 OSCAR 的快速实践指南。
💡 主要观点
- OSCAR 通过注意力感知的旋转技术,将量化噪声引导至 attention 不敏感的方向。 不同于传统方法追求 K/V 向量的低重建误差,OSCAR 利用 query covariance 和 score-weighted value covariance 指导旋转矩阵的生成,确保量化后的 KV Cache 对 attention 计算的影响最小化。
💬 文章金句
- OSCAR 的核心思路是:不只追求还原 K/V 向量本身,而要保住 attention 真正消费这些 KV 的方式。
- OSCAR 的优势并不只是让数值分布看起来更平滑,而是把量化噪声尽量推到 attention 相对不敏感的方向上。
- OSCAR 不是简单地'加一个旋转',而是把旋转、裁剪和分组都放进了 attention 质量这个目标函数里。
- OSCAR 面向的是可落地的企业级 workload,而不是只展示论文苍白的 error 数据。
- OSCAR 带来的关键启发是:2-bit KV Cache 如果要真正上线,旋转不能只追求'有',而要对准 attention;同时,它也必须被放进真实 serving 系统里一起设计。
📊 文章信息
AI 初评:88
来源:魔搭ModelScope社区
作者:魔搭ModelScope社区
分类:人工智能
语言:中文
阅读时间:19 分钟
字数:4743
标签: KV Cache, 量化, OSCAR, Together AI, SGLang