來源:環(huán)球網(wǎng)
【環(huán)球網(wǎng)財經(jīng)綜合報道】一篇尚未正式發(fā)表的學(xué)術(shù)論文,在3月26日引發(fā)全球存儲芯片板塊劇烈震蕩。據(jù)測算,全球主要內(nèi)存巨頭市值單日蒸發(fā)超900億美元。
![]()
這場波動的導(dǎo)火索,是谷歌研究院即將在國際學(xué)習(xí)表征會議(ICLR 2026)上正式亮相的論文“TurboQuant”。
通常來說,當(dāng)用戶與AI對話時,模型需要記住歷史上下文,這部分臨時存儲的數(shù)據(jù)隨上下文窗口膨脹而指數(shù)級增長。
谷歌團(tuán)隊通過兩項創(chuàng)新技術(shù)PolarQuant(極坐標(biāo)量化)和QJL(量化JL變換),實現(xiàn)了在“零損失”前提下將KV Cache壓縮至3-bit精度,內(nèi)存占用縮小至少6倍。在英偉達(dá)H100 GPU上,4-bit TurboQuant的注意力計算速度比32-bit未量化版本快8倍。
Cloudflare首席執(zhí)行官將這一突破稱為谷歌的“DeepSeek時刻”,認(rèn)為其有望像DeepSeek一樣,通過極致效率大幅拉低AI運行成本。
面對科技圈的狂熱與二級市場的拋售,華爾街投行表現(xiàn)出明顯冷靜。
摩根士丹利在最新研報中明確表示,市場存在誤讀。該技術(shù)僅作用于推理階段的鍵值緩存,不影響模型權(quán)重所占用的高帶寬內(nèi)存(HBM),也與AI訓(xùn)練任務(wù)無關(guān)。分析師強調(diào),所謂“6倍壓縮”并非存儲總需求的減少,而是通過效率提升增加單GPU的吞吐量。
Lynx Equity Strategies分析師KC Rajkumar指出,媒體報道存在夸大成分。當(dāng)前推理模型早已廣泛采用4-bit量化數(shù)據(jù),谷歌所謂的“8倍性能提升”是建立在與老舊32位模型對比的基礎(chǔ)之上。
摩根士丹利援引經(jīng)濟學(xué)中的“杰文斯悖論”解釋長期影響:技術(shù)效率提升雖降低單位成本,但往往因使用門檻下降而帶動整體需求擴張。
富國銀行分析師Andrew Rocha指出,壓縮算法的存在從未從根本上改變硬件采購的整體規(guī)模。通過大幅降低單次查詢的服務(wù)成本,這類技術(shù)能讓原本只能在昂貴云端集群上運行的模型遷移至本地,有效降低AI規(guī)模化部署的門檻。
從供應(yīng)鏈視角看,2026年服務(wù)器DRAM需求預(yù)計增長39%,HBM需求年增58%。TurboQuant的優(yōu)化效果或?qū)⒈恍袠I(yè)增長浪潮淹沒。
截至發(fā)稿,谷歌尚未公布TurboQuant在Gemini等自研模型中的具體部署時間表。關(guān)于該技術(shù)的討論將在4月的ICLR 2026會議上繼續(xù)發(fā)酵。(陳十一)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.