无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

從訓練算力到推理算力,CXL從可選走向必選

0
分享至

根據韓國媒體THE ELEC近日援引業內人士消息報道稱,三星電子計劃于今年六月后第三季度向主要服務器和數據中心客戶交付基于CXL 3.1協議的CMM-D內存模塊樣品,如果客戶資格審查順利進行,目標今年四季度實現大規模量產。



圖片說明:三星電子目標在今年第四季度實現基于CXL 3.1協議的內存產品量產,數據來源于THE ELEC

根據瀾起科技(688008.SH)在5月15日公告的《投資者關系活動記錄表》,公司預計今年是CXL規模化部署的起點,預計到2027年將進入CXL規模商用的元年。瀾起科技的關于CXL放量的時點判斷與三星電子基本一致。

當行業內兩大巨頭行動一致之際,意味著CXL的拐點即將到來。CXL(Compute Express Link),一個在過去被定位為“可選”的技術協議,正在加快速度朝著“必選”的方向邁進。



圖片說明:瀾起科技關于CXL規模化商用的時點判斷,數據來源于瀾起科技

推理算力短缺,衍生出來了新的問題

同樣是算力短缺,但2026年以來的算力短缺與之前的算力短缺有點不太一樣:

在2026年以前,北美云計算企業們和獨立大模型企業們(如Anthropic、OpenAI等),整日都在進行軍備競賽,企業們為了訓練出更好的AI大模型而瘋搶算力卡,進而造成算力短缺,算力短缺的矛盾集中在訓練端。

而過去解決訓練算力短缺,主要采取的方法是提高GPU的單卡算力更高,同時采用新的互聯技術和互聯架構,讓算力卡和算力卡之間(例如Scale up場景)、機架和機架之間(例如Scale out場景)等等,能夠更加高效的用光通信技術互相連接起來(如光模塊方案、CPO方案等等)。

然而2026年以來,隨著Agentic AI的出現、以及Coding、多模態等為代表的AI應用普及,token需求暴增,算力短缺的矛盾正在迅速向推理端傾斜。

推理算力短缺,會衍生出來一系列新的問題,這與訓練算力短缺的解法,并不完全一致。

在Transformer架構的AI大模型(如豆包、Deepseek)輸出文本時,輸出方式是一個token一個token往外“蹦”的,每輸出下一個token,都必須結合之前所有的上下文。為了避免每次生成新的token時都把前面所有的token重新計算一遍(那樣計算量太大了),因此人們設計了一種“偷懶”的方法,把上下文的一些特征緩存下來(即Key和Value向量),形成一個類似于“記事本”的東西,這樣就避免了重復計算,這個“記事本”被稱作KV Cache(鍵值緩存)。

在Agentic AI出現以前,AI推理主要是一問一答的Chatbot模式,例如問豆包,“幫我復盤一下今天A股的市場行情,并幫我寫一個簡要的總結”。一般來說,豆包會在幾秒內生成答案,輸出的答案即token,大約幾千個。如果繼續問其他問題,上下文token就幾千個、最多幾萬個,KV Cache占用并不明顯。

但是用Agentic AI就完全不一樣了,同樣的問題,token可能會產生幾十萬甚至上百萬個,因為Agent AI在解決問題時,會使用ReAct(思考-行動-觀察)框架,它會調用搜索工具、運行代碼、報錯后自我糾正。這個過程中,每一輪的中間思考過程和返回的結果,都會被塞進對話歷史中,隨著任務的推進,上下文就像滾雪球一樣越來越長,對應KV Cache會呈指數級飆升。

例如,去年12月有專業研究團隊讓Claude Code(Anthropic的Agentic AI編程工具)執行了一個代碼修復任務,并對Claude Code的底層運行機制進行了逆向工程和流量追蹤,測試結果為:在這個單一的任務生命周期內,用時合計13分鐘,token累計消耗量高達約200萬個。



圖片說明:Agentic AI對token的消耗量是巨大的,數據來源于論文《Context Engineering & Reuse Pattern Under the Hood of Claude Code》

一個Agentic AI任務就可以占用上百萬個token,這意味著什么呢?

按照KV Cache的計算公式,100萬Token大約會產生320GB的KV Cache(不同大模型有所差異,但大差不差),這就已經超過了英偉達B300單卡配備的12層HBM3e的總顯存容量288GB。

因此問題是清晰的,在Agentic AI時代,僅靠HBM的顯存是遠遠裝不下KV Cache的。



圖片說明:KV Cache的計算公式,數據來源于Meta

解決HBM顯存不足的方法

面對指數級增長的KV Cache,目前有以下幾種解決方法:

第一種方法,是增加HBM顯存容量。例如Rubin Ultra原本計劃采用16層堆疊HBM4e顯存,容量1TB,近期又傳聞因為良率問題,改為12層堆疊,總顯存降至768GB。

這種方法是英偉達正在做的,但是一方面HBM很貴,且迭代速度較慢;另一方KV Cache是指數級增長的,HBM顯存容量是線性增長的,后者難以追趕前者增長速度,因此這種方法是必須的,但同時是治標不治本的。



圖片說明:HBM4e顯存遭遇良率問題,數據來源于新浪財經

第二種方法,是通過先進算法去壓縮KV Cache。例如Token丟棄算法,用算法來評估那些KV Cache是沒用的廢話,評估后直接刪掉。或者用壓縮技術,把原來的16位浮點數采用INT8甚至INT4量化技術來存儲KV Cache,相當于把高清圖片壓縮成馬賽克圖片,只要模型還能勉強認出馬賽克的內容(保證精度不崩),KV Cache的容量就能縮小到原來的1/2到1/4。

這種方法是大模型企業正在做的,但KV Cache的壓縮空間始終是有限的,AI Agentic滲透率提高后指數級的增長卻是無限的,因此這種方法是必須的,但同時也是作用有限的。

第三種方法,把新的KV Cache裝在HBM里,把舊的KV Cache裝在DDR5里,把更舊的KV Cache裝在企業級SSD里,等到大模型需要回憶這些舊的KV Cache時,GPU再從DDR5或SSD里讀取。

相比于HBM,DDR5和企業級SSD的容量非常非常大,且價格也便宜很多很,看起來幾乎可以完美解決KV Cache裝不下的問題。

但這種方法也面臨著一些問題,因為GPU和其他硬件之間沒有類似于NVLink這樣的高速互聯技術,GPU要和其他硬件進行傳輸,只能通過PCIe(Peripheral Component Interconnect Express)。

簡單來說,PCIe是AI服務器內部的一條公路系統,除了GPU和GPU之間通過NVLink高速互聯不用經過PCIe外,其他所有的各種數據(指令、圖像、文件等)都要通過PCIe在各個硬件之間傳輸,如GPU和CPU之間便通過PCIe傳輸。



圖片說明:PCIe在AI服務器內的作用是連接“異構部件”,如連接CPU與GPU、連接GPU與網卡等,數據來源于超擎數智

問題在于,在PCIe總線協議之下,GPU不能直接調用DDR5里的數據,一定要CPU先把數據從DDR5里復制出來,然后通過PCIe總線粘貼到HBM里,最后再由GPU調用。而SSD的路徑就更長,CPU先將數據從SSD里復制出來,通過PCIe總線粘貼到DDR5里,然后重復上面的過程,最后由GPU進行計算。

這樣一來一去,是非常低效的,一方面由于可能不止一次經過CPU及復雜的樹狀拓撲,就會導致延遲;另一方面,PCIe的帶寬相比于NVLink的帶寬,就不是一個數量級的,這會進一步增加延遲。

延遲的后果是顯而易見的:由于運力不足,GPU將經常處于閑置狀態,因為大部分時間都在等數據運輸過來。



圖片說明:PCIe與NVLink比較,數據來源于博客園

CXL是什么?解決了什么問題?

CXL(Compute Express Link),是一種開放性的、行業標準的、高帶寬及低延遲的互連協議,CXL建立在PCIe物理接口之上(這意味著不用重新設計AI服務器主板的PCIe插槽),但解決了PCIe解決不了的核心痛點。

CXL包含了三個極其關鍵的子協議:

第一個是CXL.io(配置與控制):相當于傳統的PCIe,負責設備的發現、連接、報錯、配置等基礎工作。

第二個是CXL.cache(緩存一致性):允許GPU直接訪問CPU的DDR5內存條,GPU可以直接在原地讀取并處理CPU內存里的數據,GPU和CPU看到的都是同一份數據的最新狀態(緩存一致性),徹底消滅了復制粘貼、搬來搬去的動作。由于CPU、GPU、ASIC可以圍繞著同一個“CXL內存池”協同工作,所有數據被共享,誰需要算誰就算,整個機架上的所有芯片,在邏輯上變成了一臺“超級計算機”。

第三個是CXL.mem(內存擴展):允許CPU直接把外接設備(如CXL內存模塊)當作自己的原生內存來使用,進而意味著CPU不再受限于主板上的DDR5插槽數量限制,可以通過CXL接口無限外接內存。CPU通過CXL協議,會把這個外接的內存當成DDR5一樣使用,系統內存容量瞬間翻倍,而且帶寬也大幅增加。



圖片說明:CXL.io、CXL.cache、CXL.mem三種協議的調用方式,數據來源于Synopsys(新思科技)

簡單來說,CXL最具革命性的能力(在CXL 2.0階段實現,目前已進入CXL 3.1階段),是內存池化與動態共享(Memory Pooling & Sharing),由此徹底消滅了內存浪費的問題,根據CXL官方文件,AI數據中心的內存利用率可因此從40%上升到80%,省下了海量的采購成本。

以下圖為例,CXL 2.0 Switch上面是多個GPU、下面是多個存儲芯片,左圖GPU H1正在調用D2和D3的數據,右圖GPU H1正在調用D1、D2、D4的數據,同時D2的數據也正被GPU H3調用。



圖片說明:CXL內存池化的示意圖,數據來源于CXL官網

總的來說,CXL不僅僅是一個基于PCIe的新協議,甚至可以說是AI服務器在底層架構上的一次重構,它把過去“以GPU為中心、各自為戰”的服務器,變成了“以數據和內存為中心、高度池化共享”的新型算力架構。或許這是為什么在AI推理算力爆發的今天,芯片巨頭們(英偉達、三星、瀾起科技、Astera Labs、阿里、華為等等)都在押注CXL的原因吧。



圖片說明:CXL協議成員,數據來源于CXL官網

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
增發8萬個,明日北京將配置15.4萬個家庭及個人新能源車指標

增發8萬個,明日北京將配置15.4萬個家庭及個人新能源車指標

PChome電腦之家
2026-05-25 11:58:30
讓耿同學博士肄業!女博導怕了嗎?她與董小姐的情夫肖飛啥關系?

讓耿同學博士肄業!女博導怕了嗎?她與董小姐的情夫肖飛啥關系?

大江看潮
2026-05-24 09:14:45
三胎生父被曝后,張柏芝案終于判了!近照曝光 難怪早就立了遺囑

三胎生父被曝后,張柏芝案終于判了!近照曝光 難怪早就立了遺囑

近史博覽
2026-05-25 11:59:12
要打?奉陪到底!中方出手,拒絕收回港口租約,澳防長咬死裝委屈

要打?奉陪到底!中方出手,拒絕收回港口租約,澳防長咬死裝委屈

近史博覽
2026-05-25 06:35:39
3:2爆冷 !黃博文率領西海岸隊狂飆:4輪拿8分,完勝鄭智

3:2爆冷 !黃博文率領西海岸隊狂飆:4輪拿8分,完勝鄭智

體育全天候
2026-05-25 12:09:26
68歲丈夫出軌90后女子還生下雙胞胎,5年轉賬4800萬元?妻子怒告二人要求還錢,男子承認出軌否認轉賬:妻子知情同意,從沒想過離婚……

68歲丈夫出軌90后女子還生下雙胞胎,5年轉賬4800萬元?妻子怒告二人要求還錢,男子承認出軌否認轉賬:妻子知情同意,從沒想過離婚……

都市快報橙柿互動
2026-05-24 16:32:21
美國專家坦言:中國在中越戰爭中得到的東西,瞞過了全世界

美國專家坦言:中國在中越戰爭中得到的東西,瞞過了全世界

阿晭評論哥
2026-05-25 10:56:54
誠狗要出差了,兄弟們,機會來了!

誠狗要出差了,兄弟們,機會來了!

貴圈真亂
2026-05-25 12:14:44
瓦塞爾:防守是我們的立隊之本,之前兩場失利我們打得不像自己

瓦塞爾:防守是我們的立隊之本,之前兩場失利我們打得不像自己

懂球帝
2026-05-25 13:46:23
高市早苗支持率創新低,已連跌3個月!她深陷“抹黑門”,其團隊被指在選舉中找“水軍”用AI做視頻抹黑對手、吹捧高市,“每天一兩百條”

高市早苗支持率創新低,已連跌3個月!她深陷“抹黑門”,其團隊被指在選舉中找“水軍”用AI做視頻抹黑對手、吹捧高市,“每天一兩百條”

每日經濟新聞
2026-05-25 12:43:46
外交部:中方強烈譴責巴基斯坦俾路支省恐怖襲擊事件

外交部:中方強烈譴責巴基斯坦俾路支省恐怖襲擊事件

新京報
2026-05-25 14:28:08
貝爾湖的歸屬終于有了結果?歷經8年艱苦談判,我國拿回多少面積

貝爾湖的歸屬終于有了結果?歷經8年艱苦談判,我國拿回多少面積

史智文道
2026-05-24 14:29:15
馬刺奪G4!卡斯蒂與瓦塞爾強調防守重要性,福克斯回應傷勢!

馬刺奪G4!卡斯蒂與瓦塞爾強調防守重要性,福克斯回應傷勢!

籃球資訊達人
2026-05-25 13:46:16
2026年5月1日起從嚴整治,體制內人員務必嚴守九條紅線

2026年5月1日起從嚴整治,體制內人員務必嚴守九條紅線

職場資深秘書
2026-05-22 21:01:25
趁丈夫洗澡,我用他微信讓婆婆轉八千,她秒轉8萬并留言:傻孩子,我兒子那420萬的婚房早就寫你名了,這錢你拿著零花

趁丈夫洗澡,我用他微信讓婆婆轉八千,她秒轉8萬并留言:傻孩子,我兒子那420萬的婚房早就寫你名了,這錢你拿著零花

LULU生活家
2026-05-25 08:37:59
臉都不要了!球迷怒罵米蘭球員“11個傻子” 囧叔將被炒+魔笛離隊

臉都不要了!球迷怒罵米蘭球員“11個傻子” 囧叔將被炒+魔笛離隊

風過鄉
2026-05-25 07:04:18
教科書為何要刪掉《賣油翁》最后一句話?最后一句到底有何深意?

教科書為何要刪掉《賣油翁》最后一句話?最后一句到底有何深意?

心中的麥田
2026-05-23 19:43:10
竇驍天選劉紅兵雖痞但赤誠,承擔《主角》笑點,非常鮮活的角色

竇驍天選劉紅兵雖痞但赤誠,承擔《主角》笑點,非常鮮活的角色

話娛論影
2026-05-25 14:36:14
新加坡媒體對《給阿嬤的情書》為何如此敏感?

新加坡媒體對《給阿嬤的情書》為何如此敏感?

華人星光
2026-05-24 11:08:46
記者:英超分成首超30億鎊,阿森納1.987億鎊居首

記者:英超分成首超30億鎊,阿森納1.987億鎊居首

懂球帝
2026-05-25 13:50:04
2026-05-25 15:07:00
估值之家
估值之家
推動投資者認知進步,推動中小投資者權益保護
541文章數 240關注度
往期回顧 全部

科技要聞

華為發表半導體演進新定律

頭條要聞

騎馬造勢的車企原董事長落馬 2個月前曾公開出席活動

頭條要聞

騎馬造勢的車企原董事長落馬 2個月前曾公開出席活動

體育要聞

如果不好好守門,他可能早就繼承家業了

娛樂要聞

廣電總局發布2026年“微短劇+”行動計劃推薦劇目

財經要聞

退市!33年“A股不死鳥”落幕

汽車要聞

國民家轎再上新 帝豪向上系列限時5.59萬起

態度原創

手機
親子
數碼
家居
房產

手機要聞

華為nova 16系列官網上架預訂:四款機型齊發 外觀設計全公開

親子要聞

孩子提高免疫力吃什么牌子維生素?小金維他vs湯臣倍健vs康恩貝

數碼要聞

英偉達親自下場造CPU!聯想內部流出“N1x”項目

家居要聞

生與命相依 舊公寓改造

房產要聞

瘋狂周末,海口樓市突然爆了!

無障礙瀏覽 進入關懷版