網易首頁 > 網易號 > 正文申請入駐

真正的 2-bit KV Cache 來了，OSCAR 做到了一件很多人認為不可能的事

2026-05-27 11:11:38　來源: AI科技大本營

北京舉報

分享至

「以棱鏡之思，折射 AI 研究的多維光譜」——學術棱鏡是 CSDN 旗下 AI 科技大本營推出的精品論文欄目，專注遴選全球頂會頂刊及產業前沿的優質研究成果。我們相信，每一篇扎實的論文都是照亮技術未來的光束，而棱鏡，讓光芒綻放出應有的色彩。

原文作者｜Zhongzhu Zhou

整理 | CC

責編 | 張紅月

出品丨AI 科技大本營（ID：rgznai100）

這個五月，一篇來自 TogetherAI 和悉尼大學聯合團隊的論文悄然掛上了 arXiv。

標題很長：Of fline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization，縮寫 OSCAR。讀完的第一感受，不是「又一篇量化論文」，而是「這件事他們真的做成了」。

論文作者： Zhongzhu Zhou, Donglin Zhuang, Jisen Li, Ziyan Chen, Shuaiwen Leon Song, Ben Athiwaratkun, Xiaoxia Wu

論文：https://arxiv.org/abs/2605.17757；
項目主頁：https://oscar-quantize.github.io/
代碼：https://github.com/FutureMLS-Lab/OSCAR；
RotationZoo： https://huggingface.co/Zhongzhu/OSCAR-RotationZoo

那么問題來了：2-bit KV Cache，究竟難在哪里？

大模型在做長上下文推理時，每生成一個 token，都要回頭讀取所有歷史的 Key 和 Value——這套緩存機制叫 KV Cache。上下文越長、批次越大，KV Cache 消耗的顯存和帶寬就越驚人。如今的長上下文模型往往支持 128K 甚至更長的窗口，服務端的瓶頸往往不是算力，而是顯存被 KV Cache 撐滿了。

理論上，把歷史 KV 從 BF16（16-bit）壓縮到 INT2（2-bit），存儲量可以減少接近 8 倍。但 INT2 只有 4 個量化等級，精度極度稀疏。真正的麻煩在于，KV activation 里常常存在少數幅值極大的「異常通道」（outlier channel）。這些 outlier 一旦主導了量化的比例尺，大多數正常值就被擠壓進極窄的區間，attention 分布隨之漂移，模型的推理能力迅速崩潰。

Hadamard 旋轉是業界常見的應對手段，通過旋轉變換把 outlier 擴散到各個維度，讓量化更均勻。但它有一個根本局限：它不知道模型在 attention 計算里真正依賴哪些方向。換句話說，Hadamard 旋轉優化的目標是「讓 KV 向量重建得更準」，而不是「讓 attention 的計算結果受干擾最小」。

這兩個目標，看起來相近，實際上并不等價。OSCAR 的核心貢獻，正是把這個區別想清楚了。

把旋轉對準 attention 真正「在意」的方向

OSCAR 的動機可以用一張圖來理解（論文圖 1）。它對比了 naive INT2、Hadamard-only、clip-only 和 OSCAR 在量化誤差傳播鏈路上的差異。關鍵發現是：原始 KV 向量的重建誤差，并不能完全預測模型最終的表現；真正影響推理質量的是 attention-score KL 散度、attention block 輸出的 MSE，以及后續 hidden-state 的誤差傳播。

圖 1：為什么只看 K/V 重建誤差會誤導判斷

OSCAR 的設計邏輯由此展開。

對 Key 而言，量化誤差會進入 attention logits，即 Q 和 K 的點積 QK?，因此 OSCAR 用 query covariance（Q?Q）構造 Key 的旋轉目標，讓旋轉后 attention 最敏感的方向得到最好的保留。對 Value 而言，誤差經注意力權重進入輸出，OSCAR 則用 score-weighted value covariance（V?S?SV）構造旋轉。

這兩個協方差矩陣在離線校準階段，從少量校準樣本中估計出來，為每一層、每個 attention head 生成專屬的旋轉矩陣和 clipping 閾值。

最終旋轉矩陣寫作 R = U · Hadamard · bit-reversal 三者的組合：U 將旋轉方向對準 attention 敏感軸，Hadamard 分散 outlier，bit-reversal 平衡 INT2 的分組，防止某個 group 被少數通道主導。

這套設計的本質是：把量化誤差推向 attention 不敏感的方向，而不是讓向量數值更平滑。

從論文到上線：一整套 2-bit serving pipeline

OSCAR 的另一個值得關注的地方，是它沒有停在論文層面。

很多 KV 量化工作的生命周期是：跑完實驗，得出圖表，發表論文。能否在真實推理框架里部署，是另一回事。

OSCAR 已經接入 SGLang，可以直接用于長上下文 serving，并非停留在實驗室里的精度數字。

圖 2：OSCAR 整體流程圖

具體來說，在 SGLang 中，OSCAR 將 token 池劃分為三段：

BF16 sink（64 tokens）
INT2 history（約 2.28 bits per element）
BF16 recent（256 tokens）

最前端的 sink token 和最近的 recent window 保持 BF16，分別保護 attention sink 和短期局部上下文；中間最長的歷史段以旋轉后的 INT2 存儲。

新 token 進入 recent window，隨解碼推進，最老的 recent token 由一個融合的 Triton kernel 依次完成旋轉、clip、量化、打包四個步驟，遷移進 INT2 history；每 4 個 2-bit 值打包進 1 個 byte。解碼階段，INT2 kernel 負責 unpack、scale/zero point 還原與浮點累加，BF16 kernel 處理 sink 和 recent，最終以 online softmax merge 合并。整套系統兼容 paged KV、radix prefix cache 和 SGLang 的 fused kernel pipeline。

這套系統設計的意義在于工程上的整體性：沒有對某些層做混合精度的「選擇性高精度」保留，歷史 KV 的主體是統一的 INT2，只有 sink 和 recent 兩個很小的窗口維持 BF16。這使得系統在 paged cache、prefix cache 和批量調度的接入上更干凈，也更接近真實服務場景下的顯存預算約束。

在 2-bit 下，推理能力究竟還剩多少

論文在 Qwen3-4B-Thinking、Qwen3-8B、Qwen3-32B 和 GLM-4.7-FP8 四個模型上做了系統評測，任務覆蓋 GPQA、HumanEval、LiveCodeBench v6、AIME25、MATH500，最高生成長度 32K，每組設置運行 5 次取均值。

結果有幾個關鍵節點值得單獨說明。

Qwen3-4B-Thinking是整套對比里最能體現難度落差的模型：

BF16 基準均分 75.64；
TurboQuant 全層 3-bit K/V（無混合精度保護）為 31.74；
QuaRot-INT2 降至 1.40；naive INT2 為 0.00；
OSCAR 在 2.28 BPE 下達到 71.86，距離 BF16 僅差 3.78 分，相對 TurboQuant 提升 40.1 分。

這一對比需要一點背景說明。TurboQuant 是當前公認的強 baseline，它壓縮的是向量本身，但沒有針對 attention 的感知。這里的比較，用的是 TurboQuant 無混合精度保護的「公平設置」——也就是不借助對部分層保留高 bit 的策略。在這個前提下，TurboQuant 在小模型推理任務上的分數下滑明顯。

Qwen3-8B上，OSCAR 均分 69.42，距離 BF16 的 70.84 僅差 1.42，TurboQuant 同設置為 56.88。Qwen3-32B 和 GLM-4.7-FP8 上，OSCAR 基本與 BF16 持平。

AIME25 數學推理任務另有一組專項比較，對象是 KIVI-KV2 和 Kitty（由于這兩個方法缺乏 framework 支持，無法完成長上下文運行，僅取其在 32K 匯報的 AIME25 結果）。

Qwen3-8B 上，OSCAR 以 2.38 BPE 達到 66.67，基本追平 BF16 的 66.00；Qwen3-32B 上，OSCAR 達到 74.00，甚至略高于 BF16 的 72.59，同時超過 Kitty 的 69.26。

論文還在 128K 長上下文設置下，對 Qwen3-8B 和 GLM-4.7-FP8 做了 RULER-NIAH 檢索測試。OSCAR 在兩個模型上都保持了明顯更穩定的檢索性能，說明 attention-aware 旋轉的保護效果不只在短評測上成立，也能抵抗超長歷史中 KV 誤差隨序列長度累積的問題——這對真實 Agent 場景尤其關鍵。

系統收益：顯存、速度、吞吐，三件事同時成立

精度之外，系統層面的數字同樣直接。

相對 BF16 歷史存儲，OSCAR 減少約 8 倍 KV Cache 內存占用。在 100k 上下文、batch-size-1、full prefix-cache hit 的純 decode 場景下，最高帶來約 3 倍 decode 加速。在固定顯存預算、batch size 增大時，KV footprint 的降低可以顯著提升并發吞吐，job-level throughput 最高約 7 倍。

圖 3：完整主結果表，多種 KV 量化方法同場對比

圖 4：AIME25 32K 生成，和 KIVI / Kitty 的專項對比

圖 5：100k 長上下文下的 decode / batch throughput

prefix cache 命中率的影響也單獨做了測試：從 cache disabled，到 normal cache，再到接近 100% warmup replay，吞吐前沿隨命中率提升逐步外擴。OSCAR 保持了標準的 paged KV 和 prefix cache 抽象，共享系統提示、多輪 Agent、工具調用循環等長前綴復用場景可以無縫受益。

圖 6：prefix cache 命中率越高，吞吐前沿越往外推

這一點對長上下文 Agent 的服務提供者來說意義具體：真實 Agent workload 往往包含很長的系統提示、工具說明、歷史對話和檢索內容，不同請求之間存在大量共享前綴。如果 KV Cache 只能以 BF16 存儲，顯存很快成為瓶頸；若直接采用 naive INT2，推理鏈條容易失真。OSCAR 的分段設計——長歷史用 INT2 降顯存與帶寬，關鍵 sink/recent 窗口用 BF16 保穩定性，再配合 prefix cache 復用共享前綴——把「能壓到 2-bit」和「能上線 serving」放在同一個系統里同時解決。

一個值得注意的邊界

OSCAR 的論文對 TurboQuant 的定位有一段值得引用的描述：

TurboQuant 是強通用在線向量量化方法；OSCAR 針對的是 attention-aware 的 2-bit KV serving。二者不是簡單的替代關系。

論文也明確提到，未來可以將 OSCAR 的 attention-aware rotation 與 TurboQuant 更強的 codebook 結合，把壓縮推向更極致的方向——這個空間目前是開放的。

從更大的圖景來看，OSCAR 的工作說明了一件事：大模型推理效率的優化，不只是在量化精度上做文章，而是需要把算法設計的出發點落回到「模型真正在計算什么」上。

旋轉有沒有對準 attention，這個問題在 4-bit 時代影響不大，但在 2-bit 這個邊界上，它決定了一個方法能不能用。

關于作者

Zhongzhu Zhou 是 TogetherAI 的 Senior Research Scientist，悉尼大學博士，研究方向為高效機器學習系統，方向覆蓋模型訓推算法與系統協同設計，LLM壓縮與量化。團隊成員來自TogetherAI，悉尼大學以及伊利諾伊大學厄巴納—香檳分校。

Together AI 于 2022 年 6 月創立，由蘋果前高管 Vipul Ved Prakash、斯坦福大模型研究中心主任 Percy Liang、芝加哥大學副教授 Ce Zhang、Flash Attention作者 Tri Dao聯合創辦。

免費領 100 小時云算力｜AI 科技大本營讀者專屬福利

適配 DeepSeek、Qwen 等主流大模型

掃碼即刻領取，每月還有顯卡、AIPC等實物好禮抽獎

當日前 50 名送瑞幸咖啡： https://s.csdn.cn/4nPsO p

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.