无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

真正的 2-bit KV Cache 來了,OSCAR 做到了一件很多人認為不可能的事

0
分享至


「以棱鏡之思,折射 AI 研究的多維光譜」——學術棱鏡是 CSDN 旗下 AI 科技大本營推出的精品論文欄目,專注遴選全球頂會頂刊及產業前沿的優質研究成果。我們相信,每一篇扎實的論文都是照亮技術未來的光束,而棱鏡,讓光芒綻放出應有的色彩。

原文作者|Zhongzhu Zhou

整理 | CC

責編 | 張紅月

出品丨AI 科技大本營(ID:rgznai100)

這個五月,一篇來自 TogetherAI 和悉尼大學聯合團隊的論文悄然掛上了 arXiv。

標題很長:Of fline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization,縮寫 OSCAR。讀完的第一感受,不是「又一篇量化論 文」,而是「這件事他們真的做成了」。


論文作者: Zhongzhu Zhou, Donglin Zhuang, Jisen Li, Ziyan Chen, Shuaiwen Leon Song, Ben Athiwaratkun, Xiaoxia Wu

  • 論文:https://arxiv.org/abs/2605.17757;

  • 項目主頁:https://oscar-quantize.github.io/

  • 代碼:https://github.com/FutureMLS-Lab/OSCAR;

  • RotationZoo: https://huggingface.co/Zhongzhu/OSCAR-RotationZoo


那么問題來了:2-bit KV Cache,究竟難在哪里?

大模型在做長上下文推理時,每生成一個 token,都要回頭讀取所有歷史的 Key 和 Value——這套緩存機制叫 KV Cache。上下文越長、批次越大,KV Cache 消耗的顯存和帶寬就越驚人。如今的長上下文模型往往支持 128K 甚至更長的窗口,服務端的瓶頸往往不是算力,而是顯存被 KV Cache 撐滿了。

理論上,把歷史 KV 從 BF16(16-bit)壓縮到 INT2(2-bit),存儲量可以減少接近 8 倍。但 INT2 只有 4 個量化等級,精度極度稀疏。真正的麻煩在于,KV activation 里常常存在少數幅值極大的「異常通道」(outlier channel)。這些 outlier 一旦主導了量化的比例尺,大多數正常值就被擠壓進極窄的區間,attention 分布隨之漂移,模型的推理能力迅速崩潰。

Hadamard 旋轉是業界常見的應對手段,通過旋轉變換把 outlier 擴散到各個維度,讓量化更均勻。但它有一個根本局限:它不知道模型在 attention 計算里真正依賴哪些方向。換句話說,Hadamard 旋轉優化的目標是「讓 KV 向量重建得更準」,而不是「讓 attention 的計算結果受干擾最小」。

這兩個目標,看起來相近,實際上并不等價。OSCAR 的核心貢獻,正是把這個區別想清楚了。


把旋轉對準 attention 真正「在意」的方向

OSCAR 的動機可以用一張圖來理解(論文圖 1)。它對比了 naive INT2、Hadamard-only、clip-only 和 OSCAR 在量化誤差傳播鏈路上的差異。關鍵發現是:原始 KV 向量的重建誤差,并不能完全預測模型最終的表現;真正影響推理質量的是 attention-score KL 散度、attention block 輸出的 MSE,以及后續 hidden-state 的誤差傳播。


圖 1:為什么只看 K/V 重建誤差會誤導判斷

OSCAR 的設計邏輯由此展開。

對 Key 而言,量化誤差會進入 attention logits,即 Q 和 K 的點積 QK?,因此 OSCAR 用 query covariance(Q?Q) 構造 Key 的旋轉目標,讓旋轉后 attention 最敏感的方向得到最好的保留。對 Value 而言,誤差經注意力權重進入輸出,OSCAR 則用 score-weighted value covariance(V?S?SV) 構造旋轉。

這兩個協方差矩陣在離線校準階段,從少量校準樣本中估計出來,為每一層、每個 attention head 生成專屬的旋轉矩陣和 clipping 閾值。

最終旋轉矩陣寫作 R = U · Hadamard · bit-reversal 三者的組合:U 將旋轉方向對準 attention 敏感軸,Hadamard 分散 outlier,bit-reversal 平衡 INT2 的分組,防止某個 group 被少數通道主導。

這套設計的本質是:把量化誤差推向 attention 不敏感的方向,而不是讓向量數值更平滑。


從論文到上線:一整套 2-bit serving pipeline

OSCAR 的另一個值得關注的地方,是它沒有停在論文層面。

很多 KV 量化工作的生命周期是:跑完實驗,得出圖表,發表論文。能否在真實推理框架里部署,是另一回事。

OSCAR 已經接入 SGLang,可以直接用于長上下文 serving,并非停留在實驗室里的精度數字。


圖 2:OSCAR 整體流程圖

具體來說,在 SGLang 中,OSCAR 將 token 池劃分為三段:

  • BF16 sink(64 tokens)

  • INT2 history(約 2.28 bits per element)

  • BF16 recent(256 tokens)

最前端的 sink token 和最近的 recent window 保持 BF16,分別保護 attention sink 和短期局部上下文;中間最長的歷史段以旋轉后的 INT2 存儲。

新 token 進入 recent window,隨解碼推進,最老的 recent token 由一個融合的 Triton kernel 依次完成旋轉、clip、量化、打包四個步驟,遷移進 INT2 history;每 4 個 2-bit 值打包進 1 個 byte。解碼階段,INT2 kernel 負責 unpack、scale/zero point 還原與浮點累加,BF16 kernel 處理 sink 和 recent,最終以 online softmax merge 合并。整套系統兼容 paged KV、radix prefix cache 和 SGLang 的 fused kernel pipeline。

這套系統設計的意義在于工程上的整體性:沒有對某些層做混合精度的「選擇性高精度」保留,歷史 KV 的主體是統一的 INT2,只有 sink 和 recent 兩個很小的窗口維持 BF16。這使得系統在 paged cache、prefix cache 和批量調度的接入上更干凈,也更接近真實服務場景下的顯存預算約束。


在 2-bit 下,推理能力究竟還剩多少

論文在 Qwen3-4B-Thinking、Qwen3-8B、Qwen3-32B 和 GLM-4.7-FP8 四個模型上做了系統評測,任務覆蓋 GPQA、HumanEval、LiveCodeBench v6、AIME25、MATH500,最高生成長度 32K,每組設置運行 5 次取均值。

結果有幾個關鍵節點值得單獨說明。

Qwen3-4B-Thinking是整套對比里最能體現難度落差的模型:

  • BF16 基準均分 75.64;

  • TurboQuant 全層 3-bit K/V(無混合精度保護)為 31.74;

  • QuaRot-INT2 降至 1.40;naive INT2 為 0.00;

  • OSCAR 在 2.28 BPE 下達到 71.86,距離 BF16 僅差 3.78 分,相對 TurboQuant 提升 40.1 分。

這一對比需要一點背景說明。TurboQuant 是當前公認的強 baseline,它壓縮的是向量本身,但沒有針對 attention 的感知。這里的比較,用的是 TurboQuant 無混合精度保護的「公平設置」——也就是不借助對部分層保留高 bit 的策略。在這個前提下,TurboQuant 在小模型推理任務上的分數下滑明顯。

Qwen3-8B上,OSCAR 均分 69.42,距離 BF16 的 70.84 僅差 1.42,TurboQuant 同設置為 56.88。Qwen3-32B 和 GLM-4.7-FP8 上,OSCAR 基本與 BF16 持平。

AIME25 數學推理任務另有一組專項比較,對象是 KIVI-KV2 和 Kitty(由于這兩個方法缺乏 framework 支持,無法完成長上下文運行,僅取其在 32K 匯報的 AIME25 結果)。

Qwen3-8B 上,OSCAR 以 2.38 BPE 達到 66.67,基本追平 BF16 的 66.00;Qwen3-32B 上,OSCAR 達到 74.00,甚至略高于 BF16 的 72.59,同時超過 Kitty 的 69.26。

論文還在 128K 長上下文設置下,對 Qwen3-8B 和 GLM-4.7-FP8 做了 RULER-NIAH 檢索測試。OSCAR 在兩個模型上都保持了明顯更穩定的檢索性能,說明 attention-aware 旋轉的保護效果不只在短評測上成立,也能抵抗超長歷史中 KV 誤差隨序列長度累積的問題——這對真實 Agent 場景尤其關鍵。


系統收益:顯存、速度、吞吐,三件事同時成立

精度之外,系統層面的數字同樣直接。

相對 BF16 歷史存儲,OSCAR 減少約 8 倍 KV Cache 內存占用。在 100k 上下文、batch-size-1、full prefix-cache hit 的純 decode 場景下,最高帶來約 3 倍 decode 加速。在固定顯存預算、batch size 增大時,KV footprint 的降低可以顯著提升并發吞吐,job-level throughput 最高約 7 倍。


圖 3:完整主結果表,多種 KV 量化方法同場對比


圖 4:AIME25 32K 生成,和 KIVI / Kitty 的專項對比


圖 5:100k 長上下文下的 decode / batch throughput

prefix cache 命中率的影響也單獨做了測試:從 cache disabled,到 normal cache,再到接近 100% warmup replay,吞吐前沿隨命中率提升逐步外擴。OSCAR 保持了標準的 paged KV 和 prefix cache 抽象,共享系統提示、多輪 Agent、工具調用循環等長前綴復用場景可以無縫受益。


圖 6:prefix cache 命中率越高,吞吐前沿越往外推

這一點對長上下文 Agent 的服務提供者來說意義具體:真實 Agent workload 往往包含很長的系統提示、工具說明、歷史對話和檢索內容,不同請求之間存在大量共享前綴。如果 KV Cache 只能以 BF16 存儲,顯存很快成為瓶頸;若直接采用 naive INT2,推理鏈條容易失真。OSCAR 的分段設計——長歷史用 INT2 降顯存與帶寬,關鍵 sink/recent 窗口用 BF16 保穩定性,再配合 prefix cache 復用共享前綴——把「能壓到 2-bit」和「能上線 serving」放在同一個系統里同時解決。


一個值得注意的邊界

OSCAR 的論文對 TurboQuant 的定位有一段值得引用的描述:

TurboQuant 是強通用在線向量量化方法;OSCAR 針對的是 attention-aware 的 2-bit KV serving。二者不是簡單的替代關系。

論文也明確提到,未來可以將 OSCAR 的 attention-aware rotation 與 TurboQuant 更強的 codebook 結合,把壓縮推向更極致的方向——這個空間目前是開放的。

從更大的圖景來看,OSCAR 的工作說明了一件事:大模型推理效率的優化,不只是在量化精度上做文章,而是需要把算法設計的出發點落回到「模型真正在計算什么」上。

旋轉有沒有對準 attention,這個問題在 4-bit 時代影響不大,但在 2-bit 這個邊界上,它決定了一個方法能不能用。

關于作者

Zhongzhu Zhou 是 TogetherAI 的 Senior Research Scientist,悉尼大學博士,研究方向為高效機器學習系統,方向覆蓋 模型訓推算法與系統協同設計,LLM壓縮與量化。團隊成員來自TogetherAI,悉尼大學以及伊利諾伊大學厄巴納—香檳分校。

Together AI 于 2022 年 6 月創立,由蘋果前高管 Vipul Ved Prakash、斯坦福大模型研究中心主任 Percy Liang、芝加哥大學副教授 Ce Zhang、Flash Attention作者 Tri Dao聯合創辦。


免費領 100 小時云算力|AI 科技大本營讀者專屬福利

適配 DeepSeek、Qwen 等主流大模型

掃碼即刻領取,每月還有顯卡AIPC等實物好禮抽獎

當日前 50 名送瑞幸咖啡: https://s.csdn.cn/4nPsO p

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
學生:一斤鹽巴和一斤白糖混一塊兒,怎么能分開?學生犯了難。食堂大媽路過:這有啥難的,找群螞蟻,搬完剩下的就是鹽!

學生:一斤鹽巴和一斤白糖混一塊兒,怎么能分開?學生犯了難。食堂大媽路過:這有啥難的,找群螞蟻,搬完剩下的就是鹽!

LULU生活家
2026-06-08 19:04:27
別笑梅威瑟破產,他的死局,90%的有錢人都逃不掉!

別笑梅威瑟破產,他的死局,90%的有錢人都逃不掉!

格斗時代
2026-06-30 20:34:39
《陳翔六點半》“妹爺”扮演者去世,終年82歲,曾在《天龍八部》中飾演枯榮大師;一個月前老搭檔“吳媽”因病離世

《陳翔六點半》“妹爺”扮演者去世,終年82歲,曾在《天龍八部》中飾演枯榮大師;一個月前老搭檔“吳媽”因病離世

極目新聞
2026-06-30 21:49:43
還是做好準備吧,一美元只能兌換5.5元人民幣時代,或許終會到來

還是做好準備吧,一美元只能兌換5.5元人民幣時代,或許終會到來

閱識
2026-01-31 15:32:50
伊東純也:踢巴西我們無法掌控比賽節奏,還有很大提升空間

伊東純也:踢巴西我們無法掌控比賽節奏,還有很大提升空間

懂球帝
2026-07-01 16:10:06
南美再出局一隊,英格蘭晉級八強形勢嚴峻將遇強敵

南美再出局一隊,英格蘭晉級八強形勢嚴峻將遇強敵

章蠞戶外
2026-07-01 12:42:12
問界M5買兩年異味不散:門店兩次測甲醛超標,廠家一測就“合格”!市監局回應:當年沒抽檢同批次車輛

問界M5買兩年異味不散:門店兩次測甲醛超標,廠家一測就“合格”!市監局回應:當年沒抽檢同批次車輛

中國山東網
2026-06-29 09:25:07
重慶談判結束后主席突發不適,眾人疑下毒,蘇聯醫生診斷出人意料

重慶談判結束后主席突發不適,眾人疑下毒,蘇聯醫生診斷出人意料

嘮叨說歷史
2026-05-29 15:55:55
霍思燕養寵物討好大佬!插刀教男星改造“房車”!

霍思燕養寵物討好大佬!插刀教男星改造“房車”!

八卦瘋叔
2026-06-27 09:50:03
為全機降落買單!大媽萬米高空撒潑,后續代價讓全網極度舒適

為全機降落買單!大媽萬米高空撒潑,后續代價讓全網極度舒適

朗威談星座
2026-06-30 13:02:18
iPhone Air 2 遭到全面曝光,外觀迎來大改!

iPhone Air 2 遭到全面曝光,外觀迎來大改!

XCiOS俱樂部
2026-07-01 09:36:00
印度海軍準將深陷俄羅斯“美人陷阱”,天價航母背后的秘密交易

印度海軍準將深陷俄羅斯“美人陷阱”,天價航母背后的秘密交易

源頭活水滾滾來
2026-06-06 10:28:57
醫生:呦,你耳朵長毛了!是不是去采過耳?

醫生:呦,你耳朵長毛了!是不是去采過耳?

環球網資訊
2026-06-30 14:48:16
嫁到泰國11年,中國女排傳奇隊長近況曝光,47歲如今怎樣了?

嫁到泰國11年,中國女排傳奇隊長近況曝光,47歲如今怎樣了?

胡一舸南游y
2026-07-01 16:06:56
重磅:烏克蘭摧毀俄羅斯奔薩的導彈與飛機工廠!

重磅:烏克蘭摧毀俄羅斯奔薩的導彈與飛機工廠!

項鵬飛
2026-07-01 21:30:20
德國隊世界杯出局后阿迪官網球衣降價出售,主場球衣打5折

德國隊世界杯出局后阿迪官網球衣降價出售,主場球衣打5折

懂球帝
2026-06-30 16:09:14
中央明確了!社保最低繳費年限要提高,70、80后得早做準備

中央明確了!社保最低繳費年限要提高,70、80后得早做準備

云鵬敘事
2026-04-12 16:36:39
2799,小米瘋了...

2799,小米瘋了...

放毒
2026-07-01 16:06:16
四大AI預測英格蘭vs民主剛果:三家看好英格蘭,Kimi猜平局

四大AI預測英格蘭vs民主剛果:三家看好英格蘭,Kimi猜平局

懂球帝
2026-07-01 17:01:07
中國男籃vs日本男籃!12人終極名單出爐,攻防均衡誓破強敵

中國男籃vs日本男籃!12人終極名單出爐,攻防均衡誓破強敵

寶哥精彩賽事
2026-07-01 16:47:19
2026-07-02 02:03:00
AI科技大本營 incentive-icons
AI科技大本營
連接AI技術的創造者和使用者
2737文章數 7711關注度
往期回顧 全部

科技要聞

Claude Code被曝“植入木馬”識別中國用戶

頭條要聞

許家印英國豪宅被指遭流浪漢“霸占” 真相披露

頭條要聞

許家印英國豪宅被指遭流浪漢“霸占” 真相披露

體育要聞

賣球衣救子的門將,把德國撲出了世界杯

娛樂要聞

77歲牛群公證裸捐全部財產,清貧獨居堅持月捐

財經要聞

新氧貸款:宣傳年化15%,實際頂格24%

汽車要聞

同比暴漲188.4% 方程豹6月熱銷35607臺

態度原創

數碼
本地
健康
手機
公開課

數碼要聞

華碩a豆高速固態U盤上架:280-959元

本地新聞

強烈建議,全國高校都向這所大學看齊!

年糕湯圓別油炸,水煮清蒸更健康

手機要聞

TCL華星宣布獨供REDMI K90至尊版屏幕:165Hz高刷 40+款游戲原生適配

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版