【導(dǎo)語】
最近在做 Multi-Agent(多智能體)投研系統(tǒng)時,我遇到了一個極其抓狂的問題:
一份真正復(fù)雜的研報,經(jīng)常要跑幾個小時,甚至整整一晚上。 當(dāng) Tokens 消耗到數(shù)萬級別之后,響應(yīng)時間會急劇上升,復(fù)雜任務(wù)甚至可能卡到一小時以上。
尤其是在以下場景同時發(fā)生時,延遲會變得格外明顯:
- 多 Agent 協(xié)同
- 工具鏈調(diào)用
- 長上下文推理
- 結(jié)構(gòu)化對抗分析
一開始,我以為問題只是單純的“算力不夠”,準(zhǔn)備咬牙升級LLM的套餐,但是我的套餐的請求符合并沒有打滿,也沒有鏈接的報錯。問題可能AI面對超長Context導(dǎo)致的系統(tǒng)級別的阻塞,而且可能已經(jīng)不是 GPU 本身了。
而是:“內(nèi)存”,更準(zhǔn)確地說,是大模型卡在了“數(shù)據(jù)搬運(yùn)(Data Movement)”。
而最近資本市場和 AI 基礎(chǔ)設(shè)施的變化,其實(shí)已經(jīng)開始提前反映這一點(diǎn)。
一、AI 產(chǎn)業(yè)正在進(jìn)入一個詭異的新階段
過去兩年,整個市場都在瘋狂購買 GPU。 但現(xiàn)在,一線工程師發(fā)現(xiàn)了一個非常微妙的變化:在很多 AI 系統(tǒng)里,GPU 的算力還沒跑滿,內(nèi)存已經(jīng)先崩了,于是Context管理成為了Harness Engineering的重要組成。
這背后其實(shí)意味著,AI 的核心瓶頸,正在發(fā)生歷史性轉(zhuǎn)移: 從Compute-centric(以計(jì)算為中心)轉(zhuǎn)向Memory-centric(以內(nèi)存與數(shù)據(jù)移動為中心)
如果說 2023-2025 的主線是“GPU 算力革命”; 那么 2026-2028 很可能進(jìn)入“內(nèi)存架構(gòu)革命(Memory Architecture Revolution)”。
而這場革命最重要的關(guān)鍵詞,就是:CXL(Compute Express Link)。
二、為什么 AI 突然開始“極度缺內(nèi)存”?
2026年5月,整個華爾街都被"存儲芯片"的瘋狂暴漲徹底打蒙了。
![]()
美光科技(MU):過去12個月股價狂飆700%,市值一舉突破8400億美元;西部數(shù)據(jù)(WDC):一年內(nèi)暴漲900%;閃迪(SNDK):更是上演了上市以來狂漲3300%的終極造富神話,單日暴漲16%直接突破1560美元。
無數(shù)踏空的投資者在深夜懊悔:曾經(jīng)錯過了英偉達(dá),為什么錯過了這波利潤更豐厚的內(nèi)存狂歡?
- 答案很簡單,思維依然停留在"AI = 算力 = GPU"的舊共識里。
這波存儲股的徹底爆發(fā),只是向市場揭開了一個殘酷真相的冰山一角:AI 系統(tǒng)真正面臨的致命瓶頸,早已經(jīng)不是算力了,而是 Memory Wall(內(nèi)存墻)。
很多人看到 NVIDIA 新一代 GPU 時,會有一種錯覺: “192GB 的 HBM 已經(jīng)非常龐大了,為什么還不夠用?”
問題在于:AI 推理階段真正像黑洞一樣吞噬內(nèi)存的,往往并不是模型本體,而是 KV Cache。
![]()
這是現(xiàn)在二級市場最容易忽略的核心問題。
什么是 KV Cache?簡單說: 大模型在推理時,每生成一個 Token,都會保存對應(yīng)的 Key 和 Value,用于后續(xù)的 Attention 計(jì)算。
上下文越長,緩存越大。
而現(xiàn)在 AI 行業(yè)正在同時發(fā)生的趨勢: 長上下文、Multi-Agent、持續(xù)會話、實(shí)時推理、多用戶并發(fā)……這些全部都會導(dǎo)致 KV Cache爆炸式增長。
一個 70B 級別的模型,如果跑百萬 Token 上下文,再疊加高并發(fā),KV Cache 很容易瞬間膨脹到數(shù)百 GB,甚至 TB 級別。
問題來了:你不可能把所有數(shù)據(jù)都塞進(jìn) HBM 里。
三、HBM 的致命短板:太快,也太貴
最近內(nèi)存股漲價的核心動力是HBM(高帶寬內(nèi)存),
HBM確實(shí)很強(qiáng),但它更像是城市里的“頂級學(xué)區(qū)房”。
它有幾個致命問題:
- 成本極高
- 功耗極高
- 容量擴(kuò)展極其困難
- 嚴(yán)重受制于 CoWoS 這種先進(jìn)封裝的產(chǎn)能
頂級學(xué)區(qū)房非常好,但不可能讓所有數(shù)據(jù)都住進(jìn)去,否則 AI 公司的推理成本會直接失控。
于是,AI 系統(tǒng)被迫進(jìn)入“分層內(nèi)存時代”。
未來的 AI 內(nèi)存架構(gòu),大概率會變成這樣:
- Tier 0(HBM):超快、超貴(存放最核心即時計(jì)算數(shù)據(jù))
- Tier 1(DDR5 / CXL Memory):大容量、高性價比
- Tier 2(NVMe / SSD):更大、更慢
![]()
這意味著,未來 AI 系統(tǒng)的核心大考,不再是單純的“你有沒有買到 GPU”,而是:“哪些數(shù)據(jù)必須放在最快內(nèi)存里?”以及“如何降低數(shù)據(jù)在各層之間的搬運(yùn)成本?”
四、NVIDIA:從 FLOPS 轉(zhuǎn)向 Data Movement
過去幾年,整個 AI 行業(yè)都在拼 FLOPS(每秒浮點(diǎn)運(yùn)算次數(shù))、拼 GPU 數(shù)量。
但現(xiàn)在,如果你仔細(xì)觀察英偉達(dá)最近的動作,你會發(fā)現(xiàn)他們開始越來越頻繁地強(qiáng)調(diào):
- Context Memory
- Shared Memory
- Rack-scale Architecture(機(jī)架級架構(gòu))
在 GTC 2026 上,NVIDIA 已經(jīng)明確提出了POD-wide context memory(即整個 Rack/POD 級別的共享上下文內(nèi)存)。
英偉達(dá)的Grace-Blackwell (GB200)架構(gòu),本質(zhì)上就是把 CPU 和 GPU 通過超高帶寬的 NVLink-C2C 焊在一起。它的 Grace CPU 天生就是為了管理 HBM 和共享內(nèi)存池設(shè)計(jì)的。它不賣單顆 CPU,它賣的是一整套“CPU+GPU+內(nèi)存織物”的全棧解決方案。
這意味著,AI 基礎(chǔ)設(shè)施已經(jīng)開始從GPU-centric轉(zhuǎn)向Context-centric。大家終于意識到:算力再強(qiáng),數(shù)據(jù)搬不動也是白搭。
五、CXL 到底改變了什么?解決“擱淺內(nèi)存”與“NVLink壟斷”
過去幾十年的服務(wù)器架構(gòu)是高度綁定的: CPU 綁定自己的 DRAM,GPU 綁定自己的 HBM。各自為戰(zhàn),彼此之間很難靈活借用。
這會導(dǎo)致一個極度浪費(fèi)的現(xiàn)象: GPU-A 的 HBM 已經(jīng)被 KV Cache 撐爆了,而旁邊 GPU-B 的內(nèi)存卻在閑置。 因?yàn)闊o法動態(tài)共享,這些閑置的內(nèi)存就變成了極其昂貴的“Stranded Memory(擱淺內(nèi)存)”。
上面提到的英偉達(dá)NVLink-C2C不是已經(jīng)解決了嗎?為什么還需要 CXL?”
這是一個極佳的問題。答案是:它們根本不在一個生態(tài)位。
NVLink 是英偉達(dá)為自己修的“私家高鐵”。極快,但你必須買它的全套車票,把所有的計(jì)算都死死鎖定在英偉達(dá)的封閉黑盒里。它解決的是大模型暴力計(jì)算的“算力上限”。
而 CXL(Compute Express Link),是 AI 時代的“通用貨運(yùn)網(wǎng)絡(luò)”。它是由 Intel、AMD、Google、Meta 等全行業(yè)“復(fù)仇者聯(lián)盟”共同推行的開放標(biāo)準(zhǔn)。 它的核心使命不是幫某一家公司跑贏算力,而是解決全行業(yè)共同的噩夢——內(nèi)存墻。它解決的是 AI 商業(yè)化落地的“成本下限”。
![]()
CXL 帶來了一個極其關(guān)鍵的概念:Memory Pooling(內(nèi)存池化)。
過去,每臺服務(wù)器像一棟獨(dú)立別墅,自帶水塔; 未來,通過 CXL,整個數(shù)據(jù)中心將變成一個共享水網(wǎng)系統(tǒng)。 不管你是誰家的 CPU,誰家的 GPU,大家都可以動態(tài)共享一個巨大的外部內(nèi)存池。誰渴了,水(內(nèi)存資源)就流向誰。
最終,云端算力的內(nèi)存可以靈活支取,按需按量分配。
六、有了 DeepSeek v4 這種算法壓縮,還需要 CXL 嗎?
![]()
看到這里,很多懂點(diǎn)技術(shù)的朋友可能會拋出一個尖銳的問題:
“前陣子 DeepSeek v4 出來,不是通過首創(chuàng)的 MLA(多頭潛在注意力機(jī)制)架構(gòu), 硬生生把 KV Cache 的顯存占用砍掉了 80% 到 90% 嗎?”
既然算法能在物理級別把內(nèi)存壓縮得這么小, 為什么還需要搞極其復(fù)雜的 CXL 硬件池化?
這是一個極好的問題。 但真相是:DeepSeek 的算法壓縮,與 CXL 的硬件池化,絕非互斥關(guān)系。而是拯救 AI“內(nèi)存墻”的兩條完美交叉線。
第一,DeepSeek 本質(zhì)上是“用極致的計(jì)算和帶寬,換取內(nèi)存空間”。MLA 架構(gòu)把龐大的 KV 矩陣壓縮成極小的潛在向量(Latent Vector)。 但在計(jì)算時,模型必須極高頻地“解壓縮”還原。 這依然要求極其恐怖的顯存帶寬(Bandwidth)和互聯(lián)速度。 算法壓縮到了極限,是對數(shù)據(jù)傳輸寬帶的極度壓榨。
第二,物理極限與系統(tǒng)級死鎖。即使 DeepSeek 砍掉了 90% 的 KV Cache。 當(dāng)你在跑數(shù)百萬 Token 的逆天長文本、且應(yīng)對數(shù)萬并發(fā)時, 剩下的那 10% 依然會撐爆單機(jī) HBM 的天花板。 更致命的是: GPU-A 壓縮得再小,它省下來的閑置內(nèi)存,依然無法給旁邊的 GPU-B 使用。
所以,未來的終局形態(tài)是:算法(向內(nèi)壓縮)負(fù)責(zé)“節(jié)流”;CXL(向外池化)負(fù)責(zé)“開源”。
這兩者的“雙劍合璧”,才是徹底跨越“Context Memory 戰(zhàn)爭”的終極解法。
七、反直覺:CPU 正在迎來“結(jié)構(gòu)性復(fù)興”
看到這里,你可能會產(chǎn)生一個錯覺:AI 時代,傳統(tǒng)的 CPU 是不是徹底淪為打雜的了?
恰恰相反。在 CXL 硬件池化和 DeepSeek v4高效算法的雙重催化下,CPU 的重要性正在被史詩級重估。
如果說 GPU 是 AI 時代的“暴力肌肉”。 那么在這個龐大的 CXL 共享內(nèi)存網(wǎng)絡(luò)里,CPU 正在重新找回它“神經(jīng)中樞”的王座。
原因很簡單:
第一,誰來當(dāng)海量內(nèi)存池的“超級交警”?在 CXL 時代,所有的 GPU 和海量的外部內(nèi)存連成了一片網(wǎng)。 GPU A 的閑置內(nèi)存怎么動態(tài)借給 GPU B?熱數(shù)據(jù)什么時候切入 HBM? 這種極其復(fù)雜的Memory Orchestration(內(nèi)存編排調(diào)度)和多租戶一致性管理,GPU 根本做不來。它必須依靠擁有極高 I/O 帶寬和復(fù)雜調(diào)度邏輯的“重型 CPU”來執(zhí)行。
第二,算法壓縮倒逼 KV Cache 下放。既然 DeepSeek 把 KV Cache 的體積壓縮了,我們?yōu)槭裁捶且阉鼈內(nèi)珨D在昂貴的 GPU HBM 里? 我們完全可以把這些海量的上下文記憶,存放在由 CPU 掌控的龐大 DDR5/CXL 內(nèi)存池中。GPU 只管埋頭計(jì)算,CPU 負(fù)責(zé)極速調(diào)取和維護(hù)這些上下文。
AI 的下半場,對 CPU 的要求并沒有降低,而是發(fā)生了極其深刻的“職能升級”。那些擁有強(qiáng)大調(diào)度架構(gòu)的高級 CPU,價值將面臨重構(gòu)。
目前的趨勢是:ARM 正在全面壓倒 x86。
功耗是死穴:AI 機(jī)柜的功耗已經(jīng)逼近物理極限(單柜 120kW+)。x86 的復(fù)雜指令集在能效比上天生吃虧,而 ARM 架構(gòu)在處理高頻、并行的 I/O 調(diào)度時,能省下巨額電費(fèi)。
定制化是絕殺:云巨頭(AWS, Google, Microsoft)現(xiàn)在都在自研 CPU。基于 ARM 的 IP 授權(quán),他們可以像搭積木一樣,定制出最適合 CXL 鏈路和 DeepSeek 算法的私有 CPU(如 Graviton 系列)。
未來的王者,不再是那個“算力最強(qiáng)”的,而是那個“最懂得調(diào)度內(nèi)存”的。
八、 尋找真正的 Alpha:產(chǎn)業(yè)鏈里的“四大關(guān)鍵節(jié)點(diǎn)”
當(dāng) AI 基礎(chǔ)設(shè)施的重心發(fā)生偏移, 真正的利潤池, 將開始向“Memory Movement(數(shù)據(jù)搬運(yùn))”瘋狂遷移。
不要再死死盯著 GPU 和 CUDA。 在即將到來的 CXL 內(nèi)存池化時代, 這四個環(huán)節(jié),才是未來 3 年最硬核的“賣水人”:
1. Retimer(高速信號修復(fù)芯片):最先爆發(fā)的物理剛需
隨著 PCIe 5.0/6.0 和 CXL 傳輸速度的翻倍, 高速信號在物理主板上極易衰減失真。 Retimer 就像是內(nèi)存長途運(yùn)輸線上的“加油站與放大器”。 在未來的機(jī)架級(Rack-scale)AI 服務(wù)器中, 它是根本繞不開的物理標(biāo)配。
核心標(biāo)的:Astera Labs (ALAB)、Credo Technology (CRDO)
2. CXL Switch(價值咽喉):AI 時代的“內(nèi)存交換機(jī)”
未來,GPU 不再固定“焊死”在某塊內(nèi)存上。 而是通過 CXL Switch 動態(tài)連接整個內(nèi)存織物(Memory Fabric)。 誰能實(shí)現(xiàn)超低延遲、高一致性的內(nèi)存交換, 誰就扼住了 AI 數(shù)據(jù)網(wǎng)絡(luò)的咽喉。 這是整個硬件鏈條中溢價最高、壁壘最深的環(huán)節(jié)。
核心標(biāo)的:博通 (AVGO)、Marvell (MRVL)。
3. 被重估的 CPU 層:統(tǒng)籌全局的“總指揮部”
在傳統(tǒng)認(rèn)知里,CPU 在 AI 時代邊緣化了。 錯!在 CXL 時代,CPU 成了統(tǒng)御龐大內(nèi)存池的“總調(diào)度交警”。 現(xiàn)在的 Alpha,不再看 CPU 的單核算力, 而是看它的I/O 通道數(shù)、低功耗,以及內(nèi)存調(diào)度效率。
- 藍(lán)圖統(tǒng)治者:Arm Holdings (ARM)。云巨頭拋棄 x86 自研芯片(如 AWS Graviton),統(tǒng)統(tǒng)要給 ARM 交底座授權(quán)費(fèi)。
- 定制化推手:世芯電子 (3661.TW)、Marvell、博通。他們是幫巨頭們代工設(shè)計(jì) AI 芯片的幕后刀客。
- x86 的最后尊嚴(yán):AMD (AMD)。憑借極高的 I/O 通道數(shù)和激進(jìn)的 CXL 擁抱策略,EPYC 依然是公有云上的硬通貨。
- 反直覺的贏家:Intel (INTC)。哪怕輸?shù)艉诵模瑧{借獨(dú)家的 EMIB 先進(jìn)封裝(IFS 代工),依然是云巨頭造芯繞不開的代工廠。
4. Memory Controller & Orchestration:真正的軟件護(hù)城河
把海量內(nèi)存連起來只是第一步。 真正困難的,是“如何高效調(diào)度這些共享內(nèi)存”。 這涉及到極度復(fù)雜的 OS 支持、工作負(fù)載遷移和多租戶隔離。 這不僅是硬件的事,更是軟件生態(tài)的事。
核心標(biāo)的:Rambus (RMBS)。
生態(tài)玩家:能夠研發(fā)出類似于 Meta TMO(透明內(nèi)存卸載)底層軟件棧的科技巨頭,誰能做好 Memory Orchestration,誰就能建立起媲美英偉達(dá) CUDA 級別的“內(nèi)存軟件護(hù)城河”。
![]()
當(dāng) AI 基礎(chǔ)設(shè)施的重心發(fā)生偏移, 真正的利潤池, 將開始向“Memory Movement(數(shù)據(jù)搬運(yùn))”瘋狂遷移。
不要再死死盯著 GPU 和 CUDA。 在即將到來的 CXL 內(nèi)存池化時代, 這四個環(huán)節(jié),才是未來 3 年最硬核的“賣水人”:
1. Retimer(高速信號修復(fù)芯片):最先爆發(fā)的物理剛需
隨著 PCIe 5.0/6.0 和 CXL 傳輸速度的翻倍, 高速信號在物理主板上極易衰減失真。 Retimer 就像是內(nèi)存長途運(yùn)輸線上的“加油站與放大器”。 在未來的機(jī)架級(Rack-scale)AI 服務(wù)器中, 它是根本繞不開的物理標(biāo)配。
核心標(biāo)的:Astera Labs (ALAB)、Credo Technology (CRDO)
2. CXL Switch(價值咽喉):AI 時代的“內(nèi)存交換機(jī)”
未來,GPU 不再固定“焊死”在某塊內(nèi)存上。 而是通過 CXL Switch 動態(tài)連接整個內(nèi)存織物(Memory Fabric)。 誰能實(shí)現(xiàn)超低延遲、高一致性的內(nèi)存交換, 誰就扼住了 AI 數(shù)據(jù)網(wǎng)絡(luò)的咽喉。 這是整個硬件鏈條中溢價最高、壁壘最深的環(huán)節(jié)。
核心標(biāo)的:博通 (AVGO)、Marvell (MRVL)。
3. 被重估的 CPU 層:統(tǒng)御全局的“總指揮部”
在傳統(tǒng)認(rèn)知里,CPU 在 AI 時代邊緣化了。 錯!在 CXL 時代,CPU 成了統(tǒng)御龐大內(nèi)存池的“總調(diào)度交警”。 現(xiàn)在的 Alpha,不再看 CPU 的單核算力, 而是看它的I/O 通道數(shù)、低功耗,以及內(nèi)存調(diào)度效率。
- 藍(lán)圖統(tǒng)治者:Arm Holdings (ARM)。云巨頭拋棄 x86 自研芯片(如 AWS Graviton),統(tǒng)統(tǒng)要給 ARM 交底座授權(quán)費(fèi)。
- 定制化推手:世芯電子 (3661.TW)、Marvell、博通。他們是幫巨頭們代工設(shè)計(jì) AI 芯片的幕后刀客。
- x86 的最后尊嚴(yán):AMD (AMD)。憑借極高的 I/O 通道數(shù)和激進(jìn)的 CXL 擁抱策略,EPYC 依然是公有云上的硬通貨。
- 反直覺的贏家:Intel (INTC)。哪怕輸?shù)艉诵模瑧{借獨(dú)家的 EMIB 先進(jìn)封裝(IFS 代工),依然是云巨頭造芯繞不開的代工廠。
4. Memory Controller & Orchestration:真正的軟件護(hù)城河
把海量內(nèi)存連起來只是第一步。 真正困難的,是“如何高效調(diào)度這些共享內(nèi)存”。 這涉及到極度復(fù)雜的 OS 支持、工作負(fù)載遷移和多租戶隔離。 這不僅是硬件的事,更是軟件生態(tài)的事。
核心標(biāo)的:Rambus (RMBS)。
生態(tài)玩家:能夠研發(fā)出類似于 Meta TMO(透明內(nèi)存卸載)底層軟件棧的科技巨頭,誰能做好 Memory Orchestration,誰就能建立起媲美英偉達(dá) CUDA 級別的“內(nèi)存軟件護(hù)城河”。
30年前,互聯(lián)網(wǎng)解決的是:“計(jì)算機(jī)之間的數(shù)據(jù)共享”;
20年前,云計(jì)算解決的是:“計(jì)算資源的彈性分配”;
5年前,大模型解決的是:“大尺度參數(shù)的注意力分配”;
1年前,智算中心解決的是:“萬卡集群的算力洪流分配”;
而今天,我們正在攻克 AI 皇冠上的最后一顆釘子:“AI 芯片之間的全域內(nèi)存共享”。
當(dāng)你還在為今天某個 AI Agent 運(yùn)行緩慢而抱怨算力不足時, 當(dāng)你還在盯著英偉達(dá)的 K 線圖猜測天花板在哪里時;
另一場更底層、利潤更豐厚的系統(tǒng)級架構(gòu)變革,可能已經(jīng)開始了。
AI 的下一階段,也許不再只是“算力戰(zhàn)爭”,而是“Context Memory 戰(zhàn)爭”。
你認(rèn)為誰會成為 CXL 內(nèi)存池化時代的下一個“英偉達(dá)”?歡迎在評論區(qū)留下你的硬核觀點(diǎn),我們一起探討 AI 基礎(chǔ)設(shè)施的下一個十年。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.