亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

谷歌新論文證明LLM可以少吃80%內(nèi)存,閃迪盤中跌去50億美元

0
分享至

3 月 24 日,Google Research 發(fā)布了一套名為 TurboQuant 的向量量化壓縮算法,宣稱能將大語(yǔ)言模型的 KV 緩存(Key-Value Cache)壓縮至僅 3 比特,同時(shí)實(shí)現(xiàn)零精度損失。

在 NVIDIA H100 GPU 上的測(cè)試中,4 比特精度的 TurboQuant 在計(jì)算注意力 logits 時(shí)取得了相比 32 位未量化基線高達(dá) 8 倍的性能提升。這篇論文將于下月在 ICLR 2026 上正式發(fā)表,第一作者 Amir Zandieh 是 Google Research 的研究科學(xué)家,通訊作者 Vahab Mirrokni 是 Google Research 副總裁兼 Google Fellow。


圖丨相關(guān)論文(來(lái)源:arXiv)

消息發(fā)布當(dāng)天,資本市場(chǎng)給出了自己的解讀。內(nèi)存芯片廠商 SanDisk(SNDK)股價(jià)在周三交易時(shí)段下跌約 5%,收于 677.86 美元。分析師指出,TurboQuant 所代表的極端壓縮技術(shù)路線,對(duì)于一家憑借 AI 驅(qū)動(dòng)的內(nèi)存需求在 2025 年股價(jià)飆漲近 196% 的芯片公司而言,構(gòu)成了直接的敘事威脅。這個(gè)市場(chǎng)反應(yīng)或許有些過度,但華爾街的焦慮也不無(wú)道理,畢竟 KV 緩存的內(nèi)存開銷,確實(shí)已經(jīng)是 LLM 運(yùn)營(yíng)者賬單上最大的單項(xiàng)成本之一。

大語(yǔ)言模型在生成文本時(shí),每處理一個(gè) token 都需要計(jì)算并存儲(chǔ)一組 key 和 value 向量,以便后續(xù)生成時(shí)不必從頭重算。這些向量逐 token 累積,內(nèi)存占用隨上下文長(zhǎng)度線性增長(zhǎng)。

以 Llama 3 70B 參數(shù)模型為例,當(dāng)并發(fā)服務(wù) 512 個(gè)請(qǐng)求、每個(gè)請(qǐng)求的 prompt 長(zhǎng)度為 2,048 個(gè) token 時(shí),僅 KV 緩存就需要大約 512GB 的存儲(chǔ)空間,幾乎是模型權(quán)重本身所需內(nèi)存的四倍。上下文窗口越長(zhǎng),這個(gè)數(shù)字就越夸張。對(duì)于任何在生產(chǎn)環(huán)境中運(yùn)行 LLM 的團(tuán)隊(duì)來(lái)說(shuō),KV 緩存的內(nèi)存開銷早已從技術(shù)細(xì)節(jié)升級(jí)為成本核心。

傳統(tǒng)的向量量化方法確實(shí)可以壓縮 KV 緩存,把浮點(diǎn)數(shù)映射到低比特的整數(shù)表示,但大多數(shù)方案都面臨一個(gè)共同的尷尬:為了保證量化精度,每個(gè)數(shù)據(jù)塊都需要額外存儲(chǔ)一組全精度的量化常數(shù)(比如縮放因子和零點(diǎn)),這些常數(shù)本身會(huì)增加 1 到 2 個(gè)比特的額外開銷,相當(dāng)于一邊壓縮一邊又把空間還回去。TurboQuant 瞄準(zhǔn)的正是這個(gè)問題。

TurboQuant 本質(zhì)上是三篇論文的組合成果。第一個(gè)組件叫 PolarQuant,將在 AISTATS 2026 上發(fā)表。它的核心思路是對(duì)輸入向量做一次隨機(jī)旋轉(zhuǎn),將數(shù)據(jù)從標(biāo)準(zhǔn)的笛卡爾坐標(biāo)系轉(zhuǎn)換到極坐標(biāo)系。傳統(tǒng)量化方法在笛卡爾坐標(biāo)下工作,需要為每個(gè)數(shù)據(jù)塊單獨(dú)計(jì)算歸一化參數(shù),而極坐標(biāo)變換后,向量被分解為一個(gè)半徑(代表信號(hào)強(qiáng)度)和一組角度(代表方向信息)。

關(guān)鍵在于,旋轉(zhuǎn)后每個(gè)坐標(biāo)的分布會(huì)收斂到一個(gè)已知的 Beta 分布(高維下近似高斯分布),且不同坐標(biāo)之間近似獨(dú)立。這意味著可以對(duì)每個(gè)坐標(biāo)獨(dú)立地使用最優(yōu)的標(biāo)量量化器(通過經(jīng)典的 Lloyd-Max 算法求解連續(xù)一維 k-means 問題),不再需要存儲(chǔ)逐塊的量化常數(shù),從根本上消除了傳統(tǒng)方法的內(nèi)存開銷。

第二個(gè)組件是 QJL(Quantized Johnson-Lindenstrauss,量化 JL 變換),已于 AAAI 2025 發(fā)表。QJL 利用經(jīng)典的 Johnson-Lindenstrauss 變換將高維數(shù)據(jù)降維,同時(shí)把每個(gè)結(jié)果值壓到只剩一個(gè)符號(hào)位(+1 或 -1),整個(gè)過程零額外內(nèi)存開銷。它的價(jià)值在于提供無(wú)偏的內(nèi)積估計(jì),這對(duì)注意力計(jì)算至關(guān)重要。

TurboQuant 將兩者組合成一個(gè)兩階段流水線:先用 PolarQuant 以 b-1 比特的精度完成主體壓縮,吃掉絕大部分誤差;再對(duì)殘差(主體壓縮后剩余的微小誤差)施加 1 比特的 QJL 變換,消除內(nèi)積估計(jì)中的偏差。論文從信息論角度證明,這種組合方案的失真率與 Shannon 下界之間只差一個(gè)約 2.7 的常數(shù)因子。換句話說(shuō),TurboQuant 在理論上已經(jīng)非常接近任何壓縮算法所能達(dá)到的最優(yōu)邊界。

實(shí)驗(yàn)結(jié)果的亮點(diǎn)集中在幾個(gè)方面。在“大海撈針”(Needle-in-a-Haystack)測(cè)試中,TurboQuant 在將 KV 緩存壓縮至少 6 倍的情況下,取得了與未壓縮基線完全一致的 0.997 分,而此前廣泛使用的 KIVI 方法在同等壓縮條件下得分為 0.981,SnapKV 和 PyramidKV 等 token 級(jí)剪枝方案的表現(xiàn)則更弱。

在 LongBench 基準(zhǔn)上,覆蓋問答、摘要、代碼補(bǔ)全和 few-shot 學(xué)習(xí)等任務(wù),3.5 比特的 TurboQuant 在 Llama-3.1-8B-Instruct 上取得了 50.06 的平均分,與 16 比特全精度緩存的 50.06 持平;即便壓到 2.5 比特,平均分也只微降至 49.44。


圖丨大海撈針基準(zhǔn)測(cè)試結(jié)果(來(lái)源:arXiv)

在向量搜索場(chǎng)景中,TurboQuant 同樣表現(xiàn)突出。研究團(tuán)隊(duì)在 GloVe(200 維)和 OpenAI 嵌入(1536 維、3072 維)數(shù)據(jù)集上將其與 Product Quantization(PQ)和 RabitQ 做了對(duì)比。TurboQuant 在各個(gè)維度和比特精度下的 1@k 召回率均優(yōu)于兩個(gè)基線,且完全不需要離線構(gòu)建碼本,PQ 需要 37 秒的碼本構(gòu)建時(shí)間(200 維、4 比特),RabitQ 需要 597 秒,TurboQuant 只需 0.0007 秒,幾乎可以忽略。這意味著它天然適合數(shù)據(jù)持續(xù)更新的在線索引場(chǎng)景。


圖丨GloVe 數(shù)據(jù)集(d=200)基準(zhǔn)測(cè)試結(jié)果(來(lái)源:Google Researc)

值得一提的是,近期英偉達(dá)發(fā)布的 KVTC(KV Cache Transform Coding)也致力于這一方向(同樣被 ICLR 2026 接收),且宣稱可達(dá) 20 倍壓縮,精度損失控制在 1 個(gè)百分點(diǎn)以內(nèi)。不過兩者嚴(yán)格來(lái)說(shuō)解決的是不同環(huán)節(jié)的問題。

TurboQuant 是向量量化路線,目標(biāo)是在推理過程中即時(shí)把 KV cache 壓到低比特,然后直接用量化后的數(shù)據(jù)計(jì)算注意力,同時(shí)還兼顧向量搜索場(chǎng)景。 KVTC 走的是變換編碼路線,借鑒 JPEG 圖像壓縮的思路:先用 PCA 去相關(guān),再做自適應(yīng)量化,最后用 DEFLATE 熵編碼進(jìn)一步壓縮。它更側(cè)重于 KV cache 的緊湊存儲(chǔ)與傳輸,典型場(chǎng)景是多輪對(duì)話之間把 cache 卸載到 CPU 或 SSD 再恢復(fù),或者跨請(qǐng)求復(fù)用 cache。

NVIDIA 研究員 Adrian Lancucki 在接受 VentureBeat 采訪時(shí)也明確表示,KVTC 針對(duì)的是長(zhǎng)上下文、多輪對(duì)話場(chǎng)景。相比較而言,TurboQuant則針對(duì)的是推理計(jì)算路徑上的實(shí)時(shí)壓縮。

在此之前,KV 緩存量化領(lǐng)域的標(biāo)準(zhǔn)基線是 2024 年發(fā)表于 ICML 的 KIVI,它引入了非對(duì)稱 2 比特量化方案,實(shí)現(xiàn)了約 2.6 倍的內(nèi)存壓縮。KIVI 已經(jīng)集成進(jìn)了 HuggingFace Transformers,是目前部署最廣泛的方案之一。TurboQuant 在同類向量量化路線上直接把壓縮比從 2.6 倍拉到 6 倍以上,且不需要任何校準(zhǔn)數(shù)據(jù),進(jìn)步幅度相當(dāng)明顯。

需要指出的是,TurboQuant 論文中的實(shí)驗(yàn)?zāi)P鸵?guī)模止步于 8B 參數(shù)左右(Llama-3.1-8B-Instruct、Ministral-7B-Instruct),尚未在 70B 或更大規(guī)模的模型上驗(yàn)證。而恰恰是在這些大模型上,KV 緩存的壓縮才最迫切、收益也最大。

另外,這篇論文最早于 2025 年 4 月就出現(xiàn)在 arXiv 上,到現(xiàn)在快一年了,谷歌也沒有公布官方的代碼實(shí)現(xiàn)或與現(xiàn)有推理框架(如 vLLM、TensorRT-LLM)的集成計(jì)劃,雖然社區(qū)已經(jīng)出現(xiàn)了基于 Triton、MLX 和 llama.cpp 的第三方實(shí)現(xiàn)嘗試。

Mirrokni 團(tuán)隊(duì)此前的 Titans 架構(gòu)和 Nested Learning 范式也是類似情況,論文效果亮眼,學(xué)術(shù)社區(qū)討論熱烈,但官方代碼始終沒有釋出,落地全靠第三方復(fù)現(xiàn)。TurboQuant 是否會(huì)重復(fù)這個(gè)模式,目前還不好說(shuō)。

從這一點(diǎn)上來(lái)說(shuō),內(nèi)存股價(jià)跌得可能有點(diǎn)太早了,更何況,AI 模型對(duì)內(nèi)存的胃口,總是會(huì)迅速膨脹到填滿所有可用空間。SemiAnalysis 此前在分析 HBM 發(fā)展路線時(shí)提過一個(gè)觀察,可以叫“內(nèi)存帕金森定律”:每一輪硬件升級(jí)或軟件優(yōu)化釋放出來(lái)的余量,很快就會(huì)被更長(zhǎng)的上下文窗口、更大的批處理規(guī)模、更復(fù)雜的推理管線吞掉。

所以,TurboQuant 省下來(lái)的那 5 倍內(nèi)存,大概率不會(huì)讓 GPU 閑著,它會(huì)被用來(lái)服務(wù)更多并發(fā)請(qǐng)求、處理更長(zhǎng)的文檔,或者跑原本塞不下的大模型。壓縮技術(shù)擴(kuò)大的是推理效率的供給側(cè),不是在縮減內(nèi)存的需求總量。

參考資料:

1.https://arxiv.org/pdf/2504.19874

2.https://arxiv.org/pdf/2511.01815

3.https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
女兒考上了老同學(xué)任教的學(xué)校,我給他發(fā)信息,他竟然已讀不回

女兒考上了老同學(xué)任教的學(xué)校,我給他發(fā)信息,他竟然已讀不回

紅豆講堂
2025-03-23 15:31:45
安賽龍退役,他的登神失敗,讓我們看到超越林丹有多難

安賽龍退役,他的登神失敗,讓我們看到超越林丹有多難

銜春信
2026-04-16 08:43:38
皇上偷偷在宰相衣服燒了個(gè)洞,一年后發(fā)現(xiàn)洞還在,下令:打開國(guó)庫(kù)

皇上偷偷在宰相衣服燒了個(gè)洞,一年后發(fā)現(xiàn)洞還在,下令:打開國(guó)庫(kù)

銘記歷史呀
2026-04-15 18:29:00
交警提醒:新交規(guī)落地,高速143km/h不扣分,龜速行車直接扣3分!

交警提醒:新交規(guī)落地,高速143km/h不扣分,龜速行車直接扣3分!

復(fù)轉(zhuǎn)這些年
2026-04-14 12:14:50
吉林省延邊州人大常委會(huì)原副主任韓長(zhǎng)發(fā)被“雙開”

吉林省延邊州人大常委會(huì)原副主任韓長(zhǎng)發(fā)被“雙開”

界面新聞
2026-04-16 16:29:27
鄧家佳黑絲

鄧家佳黑絲

情感大頭說(shuō)說(shuō)
2026-04-16 07:13:06
臺(tái)灣突然宣布重磅決定,島內(nèi)數(shù)萬(wàn)人聯(lián)名反對(duì),鄭麗文成眾望所歸

臺(tái)灣突然宣布重磅決定,島內(nèi)數(shù)萬(wàn)人聯(lián)名反對(duì),鄭麗文成眾望所歸

阿器談史
2026-04-16 11:25:29
男子騎摩托闖高速被攔,交警質(zhì)問“是不是張雪機(jī)車給你打雞血了”,張雪發(fā)聲:“對(duì)!我們就是行了”;當(dāng)?shù)兀航鼓ν猩细咚伲瞬?>
    </a>
        <h3>
      <a href=極目新聞
2026-04-15 19:10:03
這7樣?xùn)|西“過期也別扔”,很多人都不懂,傻傻浪費(fèi)掉了

這7樣?xùn)|西“過期也別扔”,很多人都不懂,傻傻浪費(fèi)掉了

室內(nèi)設(shè)計(jì)師有料兒
2026-04-16 17:08:33
75年,毛主席得知一中將在蕪湖當(dāng)?shù)匚睍洠笈罕仨氈匦路峙?>
    </a>
        <h3>
      <a href=老范談史
2026-04-10 13:59:38
起飛重量達(dá)到560噸,一架飛機(jī)這么重,為什么可以飛起來(lái)呢?

起飛重量達(dá)到560噸,一架飛機(jī)這么重,為什么可以飛起來(lái)呢?

半解智士
2026-04-03 11:24:22
黃景瑜得臟病,給前妻千萬(wàn)封口費(fèi)!?

黃景瑜得臟病,給前妻千萬(wàn)封口費(fèi)!?

八卦瘋叔
2026-04-16 11:09:20
趙今麥,每個(gè)男人都想擁有的女孩樣板。

趙今麥,每個(gè)男人都想擁有的女孩樣板。

野狐饞師
2026-02-17 08:50:46
1952年,抗日名將柏輝章被押往刑場(chǎng),曾在淞滬會(huì)戰(zhàn)立下赫赫戰(zhàn)功

1952年,抗日名將柏輝章被押往刑場(chǎng),曾在淞滬會(huì)戰(zhàn)立下赫赫戰(zhàn)功

磊子講史
2026-02-03 12:47:11
美容院老板娘大實(shí)話:脫了衣服,女人的差距根本不在臉上!

美容院老板娘大實(shí)話:脫了衣服,女人的差距根本不在臉上!

夜深愛雜談
2026-03-08 21:28:24
女孩臥鋪車求救武警,戰(zhàn)士轉(zhuǎn)頭裝睡,4小時(shí)后所有人都愣住了

女孩臥鋪車求救武警,戰(zhàn)士轉(zhuǎn)頭裝睡,4小時(shí)后所有人都愣住了

蕭矹影視解說(shuō)
2026-04-15 13:08:16
瞞不住了!24米貼地死戰(zhàn),伊朗戰(zhàn)機(jī)炸翻美司令部,拉3架F-15陪葬

瞞不住了!24米貼地死戰(zhàn),伊朗戰(zhàn)機(jī)炸翻美司令部,拉3架F-15陪葬

鐵錘簡(jiǎn)科
2026-04-15 15:12:05
理想汽車去年年終獎(jiǎng)曝光!

理想汽車去年年終獎(jiǎng)曝光!

電動(dòng)知家
2026-04-16 09:46:27
正在熱播的三部“爛劇”,沒有最爛只有更爛,一部沒看過算你走運(yùn)

正在熱播的三部“爛劇”,沒有最爛只有更爛,一部沒看過算你走運(yùn)

秋姐居
2026-04-15 22:06:55
伊朗45天沖突后終于發(fā)現(xiàn):最大敵人非美以而是內(nèi)部

伊朗45天沖突后終于發(fā)現(xiàn):最大敵人非美以而是內(nèi)部

老韁科普
2026-04-15 14:31:16
2026-04-16 20:03:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16583文章數(shù) 514883關(guān)注度
往期回顧 全部

科技要聞

趙明:智駕之戰(zhàn),看誰(shuí)在大模型上更高效

頭條要聞

東北男子投訴公交提前發(fā)車丟工作 單位被施壓將其解雇

頭條要聞

東北男子投訴公交提前發(fā)車丟工作 單位被施壓將其解雇

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財(cái)經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰生意迷霧

汽車要聞

空間大五個(gè)乘客都滿意?體驗(yàn)嵐圖泰山X8

態(tài)度原創(chuàng)

時(shí)尚
旅游
教育
房產(chǎn)
軍事航空

初夏最時(shí)髦的30種背心搭配,太好看了!

旅游要聞

跟著天氣游山東|淄博:雨天的別樣浪漫

教育要聞

3分鐘學(xué)會(huì)一個(gè)雅思7分句/段(第339期)

房產(chǎn)要聞

人人人人!封關(guān)后首屆消博會(huì),擠爆了!

軍事要聞

封鎖霍爾木茲海峽后 美釋放雙重信號(hào)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版