OSCAR 提出了一种面向真实长上下文推理服务的近 2-bit KV Cache 量化方案,通过 attention-aware 旋转和离线校准,在保持模型精度的同时实现约 8 倍显存压缩和最高 7 倍吞吐提升,并已接入 SGLang 服务框架。
📝 详细摘要
本文详细介绍了 OSCAR(Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization)这一新型 KV Cache 量化方法。与 TurboQuant 等仅关注向量重建误差的方法不同,OSCAR 的核心创新在于将量化目标对准 attention 质量本身。它通过离线校准,利用 query covariance 和 score-weighted value covariance 为每一层、每个 head 生成 attention-aware 旋转矩阵和裁剪阈值,将量化噪声推到 attention 相对不敏感的方向。OSCAR 采用三段式 token pool 设计(BF16 sink + INT2 history + BF16 recent),并已集成到 SGLang 服务框架中,兼容 paged KV 和 prefix cache。在 Qwen3-4B-Thinking、Qwen3-8B、Qwen3-32B 和 GLM-4.7-FP8 等模型上的评测显示,OSCAR 在约 2.28 effective bits per KV element 下能接近 BF16 精度,在 Qwen3-4B-Thinking 上相比 3-bit K/V TurboQuant 最高提升 40.1 分。系统层面,OSCAR 可将 KV Cache 显存压低约 8 倍,在 100k 上下文下实现最高约 3 倍 decode 加速和约 7 倍 job-level throughput 提升。
💡 主要观点
- OSCAR 的核心创新是 attention-aware 旋转,而非仅追求向量重建精度。 与 TurboQuant 等关注向量压缩的方法不同,OSCAR 通过离线校准,利用 query covariance 和 score-weighted value covariance 生成旋转矩阵,将量化噪声推到 attention 相对不敏感的方向,从而在极低比特下保持推理质量。
💬 文章金句
- OSCAR 的核心思路是:不要只追求还原 K/V 向量本身,而要尽量保住 attention 消费这些 KV 的方式。
- OSCAR 的优势并不只是让数值分布看起来更平滑,而是把量化噪声尽量推到 attention 相对不敏感的方向上。
- OSCAR 不是一个孤立量化技巧,而是一整套 2-bit KV Cache 服务方案。
- OSCAR 带来的关键启发是:2-bit KV Cache 如果要真正上线,旋转不能只追求'有',而要对准 attention;同时,它也必须被放进真实 serving 系统里一起设计。
📊 文章信息
AI 初评:88
来源:InfoQ 中文
作者:InfoQ 中文
分类:人工智能
语言:中文
阅读时间:17 分钟
字数:4061
标签: KV Cache 量化, 模型推理优化, 低比特量化, 长上下文, SGLang