![]()
「以棱鏡之思,折射 AI 研究的多維光譜」——學術棱鏡是 CSDN 旗下 AI 科技大本營推出的精品論文欄目,專注遴選全球頂會頂刊及產業前沿的優質研究成果。我們相信,每一篇扎實的論文都是照亮技術未來的光束,而棱鏡,讓光芒綻放出應有的色彩。
原文作者|Zhongzhu Zhou
整理 | CC
責編 | 張紅月
出品丨AI 科技大本營(ID:rgznai100)
這個五月,一篇來自 TogetherAI 和悉尼大學聯合團隊的論文悄然掛上了 arXiv。
標題很長:Of fline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization,縮寫 OSCAR。讀完的第一感受,不是「又一篇量化論 文」,而是「這件事他們真的做成了」。
![]()
論文作者: Zhongzhu Zhou, Donglin Zhuang, Jisen Li, Ziyan Chen, Shuaiwen Leon Song, Ben Athiwaratkun, Xiaoxia Wu
論文:https://arxiv.org/abs/2605.17757;
項目主頁:https://oscar-quantize.github.io/
代碼:https://github.com/FutureMLS-Lab/OSCAR;
RotationZoo: https://huggingface.co/Zhongzhu/OSCAR-RotationZoo
![]()
那么問題來了:2-bit KV Cache,究竟難在哪里?
大模型在做長上下文推理時,每生成一個 token,都要回頭讀取所有歷史的 Key 和 Value——這套緩存機制叫 KV Cache。上下文越長、批次越大,KV Cache 消耗的顯存和帶寬就越驚人。如今的長上下文模型往往支持 128K 甚至更長的窗口,服務端的瓶頸往往不是算力,而是顯存被 KV Cache 撐滿了。
理論上,把歷史 KV 從 BF16(16-bit)壓縮到 INT2(2-bit),存儲量可以減少接近 8 倍。但 INT2 只有 4 個量化等級,精度極度稀疏。真正的麻煩在于,KV activation 里常常存在少數幅值極大的「異常通道」(outlier channel)。這些 outlier 一旦主導了量化的比例尺,大多數正常值就被擠壓進極窄的區間,attention 分布隨之漂移,模型的推理能力迅速崩潰。
Hadamard 旋轉是業界常見的應對手段,通過旋轉變換把 outlier 擴散到各個維度,讓量化更均勻。但它有一個根本局限:它不知道模型在 attention 計算里真正依賴哪些方向。換句話說,Hadamard 旋轉優化的目標是「讓 KV 向量重建得更準」,而不是「讓 attention 的計算結果受干擾最小」。
這兩個目標,看起來相近,實際上并不等價。OSCAR 的核心貢獻,正是把這個區別想清楚了。
![]()
把旋轉對準 attention 真正「在意」的方向
OSCAR 的動機可以用一張圖來理解(論文圖 1)。它對比了 naive INT2、Hadamard-only、clip-only 和 OSCAR 在量化誤差傳播鏈路上的差異。關鍵發現是:原始 KV 向量的重建誤差,并不能完全預測模型最終的表現;真正影響推理質量的是 attention-score KL 散度、attention block 輸出的 MSE,以及后續 hidden-state 的誤差傳播。
![]()
圖 1:為什么只看 K/V 重建誤差會誤導判斷
OSCAR 的設計邏輯由此展開。
對 Key 而言,量化誤差會進入 attention logits,即 Q 和 K 的點積 QK?,因此 OSCAR 用 query covariance(Q?Q) 構造 Key 的旋轉目標,讓旋轉后 attention 最敏感的方向得到最好的保留。對 Value 而言,誤差經注意力權重進入輸出,OSCAR 則用 score-weighted value covariance(V?S?SV) 構造旋轉。
這兩個協方差矩陣在離線校準階段,從少量校準樣本中估計出來,為每一層、每個 attention head 生成專屬的旋轉矩陣和 clipping 閾值。
最終旋轉矩陣寫作 R = U · Hadamard · bit-reversal 三者的組合:U 將旋轉方向對準 attention 敏感軸,Hadamard 分散 outlier,bit-reversal 平衡 INT2 的分組,防止某個 group 被少數通道主導。
這套設計的本質是:把量化誤差推向 attention 不敏感的方向,而不是讓向量數值更平滑。
![]()
從論文到上線:一整套 2-bit serving pipeline
OSCAR 的另一個值得關注的地方,是它沒有停在論文層面。
很多 KV 量化工作的生命周期是:跑完實驗,得出圖表,發表論文。能否在真實推理框架里部署,是另一回事。
OSCAR 已經接入 SGLang,可以直接用于長上下文 serving,并非停留在實驗室里的精度數字。
![]()
圖 2:OSCAR 整體流程圖
具體來說,在 SGLang 中,OSCAR 將 token 池劃分為三段:
BF16 sink(64 tokens)
INT2 history(約 2.28 bits per element)
BF16 recent(256 tokens)
最前端的 sink token 和最近的 recent window 保持 BF16,分別保護 attention sink 和短期局部上下文;中間最長的歷史段以旋轉后的 INT2 存儲。
新 token 進入 recent window,隨解碼推進,最老的 recent token 由一個融合的 Triton kernel 依次完成旋轉、clip、量化、打包四個步驟,遷移進 INT2 history;每 4 個 2-bit 值打包進 1 個 byte。解碼階段,INT2 kernel 負責 unpack、scale/zero point 還原與浮點累加,BF16 kernel 處理 sink 和 recent,最終以 online softmax merge 合并。整套系統兼容 paged KV、radix prefix cache 和 SGLang 的 fused kernel pipeline。
這套系統設計的意義在于工程上的整體性:沒有對某些層做混合精度的「選擇性高精度」保留,歷史 KV 的主體是統一的 INT2,只有 sink 和 recent 兩個很小的窗口維持 BF16。這使得系統在 paged cache、prefix cache 和批量調度的接入上更干凈,也更接近真實服務場景下的顯存預算約束。
![]()
在 2-bit 下,推理能力究竟還剩多少
論文在 Qwen3-4B-Thinking、Qwen3-8B、Qwen3-32B 和 GLM-4.7-FP8 四個模型上做了系統評測,任務覆蓋 GPQA、HumanEval、LiveCodeBench v6、AIME25、MATH500,最高生成長度 32K,每組設置運行 5 次取均值。
結果有幾個關鍵節點值得單獨說明。
Qwen3-4B-Thinking是整套對比里最能體現難度落差的模型:
BF16 基準均分 75.64;
TurboQuant 全層 3-bit K/V(無混合精度保護)為 31.74;
QuaRot-INT2 降至 1.40;naive INT2 為 0.00;
OSCAR 在 2.28 BPE 下達到 71.86,距離 BF16 僅差 3.78 分,相對 TurboQuant 提升 40.1 分。
這一對比需要一點背景說明。TurboQuant 是當前公認的強 baseline,它壓縮的是向量本身,但沒有針對 attention 的感知。這里的比較,用的是 TurboQuant 無混合精度保護的「公平設置」——也就是不借助對部分層保留高 bit 的策略。在這個前提下,TurboQuant 在小模型推理任務上的分數下滑明顯。
Qwen3-8B上,OSCAR 均分 69.42,距離 BF16 的 70.84 僅差 1.42,TurboQuant 同設置為 56.88。Qwen3-32B 和 GLM-4.7-FP8 上,OSCAR 基本與 BF16 持平。
AIME25 數學推理任務另有一組專項比較,對象是 KIVI-KV2 和 Kitty(由于這兩個方法缺乏 framework 支持,無法完成長上下文運行,僅取其在 32K 匯報的 AIME25 結果)。
Qwen3-8B 上,OSCAR 以 2.38 BPE 達到 66.67,基本追平 BF16 的 66.00;Qwen3-32B 上,OSCAR 達到 74.00,甚至略高于 BF16 的 72.59,同時超過 Kitty 的 69.26。
論文還在 128K 長上下文設置下,對 Qwen3-8B 和 GLM-4.7-FP8 做了 RULER-NIAH 檢索測試。OSCAR 在兩個模型上都保持了明顯更穩定的檢索性能,說明 attention-aware 旋轉的保護效果不只在短評測上成立,也能抵抗超長歷史中 KV 誤差隨序列長度累積的問題——這對真實 Agent 場景尤其關鍵。
![]()
系統收益:顯存、速度、吞吐,三件事同時成立
精度之外,系統層面的數字同樣直接。
相對 BF16 歷史存儲,OSCAR 減少約 8 倍 KV Cache 內存占用。在 100k 上下文、batch-size-1、full prefix-cache hit 的純 decode 場景下,最高帶來約 3 倍 decode 加速。在固定顯存預算、batch size 增大時,KV footprint 的降低可以顯著提升并發吞吐,job-level throughput 最高約 7 倍。
![]()
圖 3:完整主結果表,多種 KV 量化方法同場對比
![]()
圖 4:AIME25 32K 生成,和 KIVI / Kitty 的專項對比
![]()
圖 5:100k 長上下文下的 decode / batch throughput
prefix cache 命中率的影響也單獨做了測試:從 cache disabled,到 normal cache,再到接近 100% warmup replay,吞吐前沿隨命中率提升逐步外擴。OSCAR 保持了標準的 paged KV 和 prefix cache 抽象,共享系統提示、多輪 Agent、工具調用循環等長前綴復用場景可以無縫受益。
![]()
圖 6:prefix cache 命中率越高,吞吐前沿越往外推
這一點對長上下文 Agent 的服務提供者來說意義具體:真實 Agent workload 往往包含很長的系統提示、工具說明、歷史對話和檢索內容,不同請求之間存在大量共享前綴。如果 KV Cache 只能以 BF16 存儲,顯存很快成為瓶頸;若直接采用 naive INT2,推理鏈條容易失真。OSCAR 的分段設計——長歷史用 INT2 降顯存與帶寬,關鍵 sink/recent 窗口用 BF16 保穩定性,再配合 prefix cache 復用共享前綴——把「能壓到 2-bit」和「能上線 serving」放在同一個系統里同時解決。
![]()
一個值得注意的邊界
OSCAR 的論文對 TurboQuant 的定位有一段值得引用的描述:
TurboQuant 是強通用在線向量量化方法;OSCAR 針對的是 attention-aware 的 2-bit KV serving。二者不是簡單的替代關系。
論文也明確提到,未來可以將 OSCAR 的 attention-aware rotation 與 TurboQuant 更強的 codebook 結合,把壓縮推向更極致的方向——這個空間目前是開放的。
從更大的圖景來看,OSCAR 的工作說明了一件事:大模型推理效率的優化,不只是在量化精度上做文章,而是需要把算法設計的出發點落回到「模型真正在計算什么」上。
旋轉有沒有對準 attention,這個問題在 4-bit 時代影響不大,但在 2-bit 這個邊界上,它決定了一個方法能不能用。
關于作者
Zhongzhu Zhou 是 TogetherAI 的 Senior Research Scientist,悉尼大學博士,研究方向為高效機器學習系統,方向覆蓋 模型訓推算法與系統協同設計,LLM壓縮與量化。團隊成員來自TogetherAI,悉尼大學以及伊利諾伊大學厄巴納—香檳分校。
Together AI 于 2022 年 6 月創立,由蘋果前高管 Vipul Ved Prakash、斯坦福大模型研究中心主任 Percy Liang、芝加哥大學副教授 Ce Zhang、Flash Attention作者 Tri Dao聯合創辦。
![]()
免費領 100 小時云算力|AI 科技大本營讀者專屬福利
適配 DeepSeek、Qwen 等主流大模型
掃碼即刻領取,每月還有顯卡、AIPC等實物好禮抽獎
當日前 50 名送瑞幸咖啡: https://s.csdn.cn/4nPsO p
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.