无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

AI推理如何創造新的內存需求

0
分享至

AI推理時代的到來,正在從根本上重塑半導體存儲行業的需求格局。隨著每個問題的平均輸出Token數量以每年超過5倍的速度激增,KV緩存管理與智能體AI部署所帶來的內存需求,已成為AI基礎設施中最具挑戰性、也最具市場潛力的新興領域。

在2026年6月舉行的GTC臺北大會上,英偉達創始人兼首席執行官黃仁勛明確指出,"AI的內存系統將徹底變革存儲系統",并將內存系統列為AI基礎設施中最具挑戰性的部分之一。這一判斷直接指向兩個結構性需求驅動力:一是推理工作負載催生的KV緩存卸載需求,二是智能體AI(Agentic AI)興起帶來的CPU內存需求擴張。

上述趨勢對存儲產業鏈的影響已開始顯現。英偉達相繼推出Dynamo軟件平臺與CMX上下文內存存儲平臺,Arm、Intel、AMD等主要芯片廠商亦在2026年密集發布面向智能體AI的新一代CPU產品,行業正加速從以吞吐量為導向的架構向以低延遲為導向的架構轉型。

推理側擴展:Token爆炸式增長重塑硬件需求

AI推理階段對硬件的要求與訓練階段存在本質差異。

根據英偉達公開數據,自2024年下半年以來,每個問題的平均輸出Token數量以每年超過5倍的速度激增,目前已達約30,000至40,000個Token。這一趨勢表明,行業已進入英偉達"三大縮放定律"中的推理側擴展"思考"階段(Test-time Scaling)。

據TrendForce分析,AI推理對硬件提出三項核心需求:更高的每秒查詢率(QPS)、更長的上下文窗口,以及更多的推理步驟和智能體循環。這三項需求分別從不同維度驅動內存需求的結構性變化,具體體現在模型權重、KV緩存與智能體AI三個層面。

模型權重屬于靜態內存分配,其占用量與模型參數規模直接掛鉤,計算公式為:模型權重總大小 = 參數量 × 每個參數的字節數。隨著模型規模持續擴大,這一靜態占用構成了推理系統內存需求的基礎底座。

KV緩存:動態膨脹催生卸載技術與SSD POD新市場

KV緩存是推理階段內存壓力的核心來源。

KV緩存存儲推理預填充階段生成的鍵值向量,以避免解碼階段的冗余計算,屬于動態內存分配。其總大小由層數、KV頭數、每個頭的維度、序列長度、批處理大小及精度共同決定,隨對話長度和批處理規模的增長呈非線性膨脹。


在長上下文、高批處理的推理場景下,當GPU的HBM容量不足時,系統將被迫丟棄KV緩存并重新執行預填充計算,導致延遲上升、總擁有成本(TCO)增加。

為解決這一瓶頸,英偉達于2025年3月發布KV緩存卸載軟件Dynamo,將訪問頻率較低的KV緩存卸載至CPU內存和SSD等容量更大、成本更低的存儲層級,確保數據在解碼階段保持可重用性。

與Dynamo配套,英偉達于2026年1月推出CMX上下文內存存儲平臺(CMX Context Memory Storage Platform),由BlueField-4 DPU管理,基于BlueField-4 STX機架構建,采用64顆BlueField-4 DPU管理每機架約9,600 TB的容量,在本地SSD(G3層)與共享存儲(G4層)之間新增G3.5層級的Pod級上下文存儲層。


值得關注的是,在COMPUTEX 2026上展示的BlueField-4 DPU結構模型中,已配備SK海力士的PEB210 E1.S和PE9010 M.2 SSD樣品。隨著英偉達、谷歌等廠商相繼推出SSD POD平臺,這一細分市場的需求預計將持續攀升。

智能體AI:CPU與GPU比例向1:1重構,LPDRAM需求隨之擴張

智能體AI的規模化部署,正在引發AI服務器架構的另一場深層變革。

在AI智能體工作流中,模型需主動執行規劃、工具調用、決策及代理操作,所有編排、數據路由與子智能體評估任務均由CPU承擔。黃仁勛指出,智能體生活在納秒級的世界中,超低延遲是首要需求,這使得CPU架構的重要性大幅提升。

TrendForce預計,隨著智能體AI部署規模擴大,CPU與GPU的工作負載比例將從傳統的1:4或1:8向約1:1轉變,為CPU市場創造顯著增量空間,并同步帶動CPU內存需求的結構性增長。

英偉達于2026年推出專為智能體AI工作負載設計的Vera CPU,根據原始規格,Vera支持高達1.5 TB的LPDDR5X內存容量,是上一代Grace CPU的三倍。

不過,TrendForce最新調查顯示,英偉達已決定將下一代Vera Rubin超級芯片模塊的SOCAMM內存容量減半,原因在于供應商2027年初步生產計劃中分配給英偉達的LPDRAM產能不足,這一調整并不反映英偉達整體內存需求的下降。

在更廣泛的CPU市場,2026年正成為面向智能體AI的全面產品換代之年。Intel推出Xeon 6+(Clearwater Forest),AMD發布EPYC Venice,Arm推出Arm AGI CPU,Ampere的AmpereOne MX亦預計于年內進入量產。多路競爭格局的形成,將進一步加速CPU內存需求的釋放。

兩大驅動力共振,存儲產業鏈迎來結構性機遇

綜合來看,AI推理正在從兩個相互獨立卻協同共振的維度重塑內存需求版圖。

其一,推理工作負載驅動KV緩存消耗迅速擴大,KV緩存卸載技術將大量數據引流至CPU內存和SSD POD,隨著相關平臺加速落地,這一細分市場的需求可見度持續提升。

其二,智能體AI正將CPU與GPU的工作負載比例推向1:1,為CPU及其配套LPDRAM創造了此前不曾有過的增量市場空間。

對于存儲產業鏈的投資者而言,上述趨勢意味著HBM之外,企業級SSD、LPDRAM及相關DPU配套存儲產品正在成為AI基礎設施投資的新焦點。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
鐘南山發現:能活到90歲的老人,基本在60歲,就已經不做這6事了

鐘南山發現:能活到90歲的老人,基本在60歲,就已經不做這6事了

番外行
2026-06-08 08:20:59
兩岸談妥了,大陸現場簽約,臺當局害怕的事發生,帥化民說出實話

兩岸談妥了,大陸現場簽約,臺當局害怕的事發生,帥化民說出實話

阿天愛旅行
2026-06-15 19:35:22
褲衩開叉10厘米!被網暴5年!鐵三女神奪亞軍又被罵,裁判:合規

褲衩開叉10厘米!被網暴5年!鐵三女神奪亞軍又被罵,裁判:合規

番外行
2026-06-07 15:53:29
董路直播感慨:別小看任何人!謝娜以前喊哥現在不搭理

董路直播感慨:別小看任何人!謝娜以前喊哥現在不搭理

老吳教育課堂
2026-06-15 17:55:28
上海男籃或迎來大換血!4冠功臣體面告別?張鎮麟將鎖定D類合同

上海男籃或迎來大換血!4冠功臣體面告別?張鎮麟將鎖定D類合同

寶哥精彩賽事
2026-06-15 10:18:16
上海炒股冠軍罕見發聲:若現在開始逢低建倉,建議死啃黃金坑走勢

上海炒股冠軍罕見發聲:若現在開始逢低建倉,建議死啃黃金坑走勢

股經縱橫談
2026-06-15 19:33:28
5000萬婚禮,陳婉珍一毛不拔,豪門冷血真相

5000萬婚禮,陳婉珍一毛不拔,豪門冷血真相

圓夢的小老頭
2026-06-09 15:50:06
人倫之亂:正在悄悄撕裂萬千中國家庭的隱形黑洞

人倫之亂:正在悄悄撕裂萬千中國家庭的隱形黑洞

大熊歡樂坊
2026-06-09 18:01:35
G7峰會拉開大幕,美媒哀嘆:沒有中國,七國集團還有什么意義?

G7峰會拉開大幕,美媒哀嘆:沒有中國,七國集團還有什么意義?

吳蒂旅行ing
2026-06-15 11:43:50
貝克漢姆14歲的女兒小七怎么如此成熟了,好像少婦

貝克漢姆14歲的女兒小七怎么如此成熟了,好像少婦

西樓知趣雜談
2026-06-13 19:52:21
周至柔臨終回憶,1950 年查吳石期間,蔣家人到訪令他預感不妙

周至柔臨終回憶,1950 年查吳石期間,蔣家人到訪令他預感不妙

嘮叨說歷史
2026-06-15 15:07:56
賴清德下 “戰書”,國臺辦不緊不慢,先送 2300 萬臺胞一張護身

賴清德下 “戰書”,國臺辦不緊不慢,先送 2300 萬臺胞一張護身

小蘭聊歷史
2026-06-14 13:16:29
國家出手!37歲女明星被行拘,官媒發文怒批,一點都不值得同情

國家出手!37歲女明星被行拘,官媒發文怒批,一點都不值得同情

橙星文娛
2026-04-21 12:46:18
莫斯科東北遇襲!烏克蘭摧毀俄羅斯雷賓斯克戰略基地

莫斯科東北遇襲!烏克蘭摧毀俄羅斯雷賓斯克戰略基地

項鵬飛
2026-06-15 15:10:23
調查發現:血糖最怕的早餐,肉包子第五,第一名很多人天天都在吃

調查發現:血糖最怕的早餐,肉包子第五,第一名很多人天天都在吃

荊醫生科普
2026-06-15 07:00:27
曝林俊旸獲騰訊投資:首輪估值135億,新一輪融資已開啟

曝林俊旸獲騰訊投資:首輪估值135億,新一輪融資已開啟

智東西
2026-06-15 21:06:09
“招風耳,懸膽鼻,真是八面玲瓏”,附中女孩采訪火了,滴水不漏

“招風耳,懸膽鼻,真是八面玲瓏”,附中女孩采訪火了,滴水不漏

熙熙說教
2026-06-12 19:33:30
單換焦泊喬?廣東最優選內線曝光,2米11國手中鋒或空降宏遠

單換焦泊喬?廣東最優選內線曝光,2米11國手中鋒或空降宏遠

云隱南山
2026-06-15 17:40:34
黃日華回應主動上前擁抱劉德華但對方“黑臉”:演唱會結束后,他們通過電話,二人關系絕非網友所猜測

黃日華回應主動上前擁抱劉德華但對方“黑臉”:演唱會結束后,他們通過電話,二人關系絕非網友所猜測

臺州交通廣播
2026-06-13 18:19:03
被打服!荷蘭主帥:日本隊太強了+我能接受平局 詹俊:日本能進8強

被打服!荷蘭主帥:日本隊太強了+我能接受平局 詹俊:日本能進8強

風過鄉
2026-06-15 07:18:26
2026-06-15 21:44:49
華爾街見聞官方 incentive-icons
華爾街見聞官方
中國領先的金融商業信息提供商
147686文章數 2653913關注度
往期回顧 全部

科技要聞

白宮一個電話,最強Claude上線三天就沒了

頭條要聞

女生當模特被折騰3個半小時 遭老板嫌棄顏值取消合作

頭條要聞

女生當模特被折騰3個半小時 遭老板嫌棄顏值取消合作

體育要聞

世界杯開賽4天,亞足聯依然保持不敗!

娛樂要聞

黃大煒猝逝過程太離奇,母親追查真相

財經要聞

活鼠、活蛆、農殘超標 山姆回應被約談

汽車要聞

網易X智己 夏日尊享內購會,熱力收官

態度原創

親子
旅游
健康
游戲
數碼

親子要聞

“10塊錢的鞋,咋敢給孩子穿?”寶媽情緒失控:你們都很有錢嗎

旅游要聞

上海迪士尼擴建項目全速推進,蜘蛛俠園區、第三座酒店取得新進展

粽子難消化 細嚼慢咽能解決嗎?

《GTA6》不在邁阿密世界杯打廣告?不屑于蹭熱度!

數碼要聞

關海濤首曝全球首個張雪機車聯名手表,基于榮耀手表6 Plus定制

無障礙瀏覽 進入關懷版