網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

內(nèi)存戰(zhàn)爭：AI產(chǎn)業(yè)鏈革命升級，誰將成為下一個“英偉達(dá)”？

2026-05-12 14:53:09　來源: PM熊叔

上海舉報

分享至

【導(dǎo)語】

最近在做 Multi-Agent（多智能體）投研系統(tǒng)時，我遇到了一個極其抓狂的問題：

一份真正復(fù)雜的研報，經(jīng)常要跑幾個小時，甚至整整一晚上。當(dāng) Tokens 消耗到數(shù)萬級別之后，響應(yīng)時間會急劇上升，復(fù)雜任務(wù)甚至可能卡到一小時以上。

尤其是在以下場景同時發(fā)生時，延遲會變得格外明顯：

多 Agent 協(xié)同
工具鏈調(diào)用
長上下文推理
結(jié)構(gòu)化對抗分析

一開始，我以為問題只是單純的“算力不夠”，準(zhǔn)備咬牙升級LLM的套餐，但是我的套餐的請求符合并沒有打滿，也沒有鏈接的報錯。問題可能AI面對超長Context導(dǎo)致的系統(tǒng)級別的阻塞，而且可能已經(jīng)不是 GPU 本身了。

而是：“內(nèi)存”，更準(zhǔn)確地說，是大模型卡在了“數(shù)據(jù)搬運(yùn)（Data Movement）”。

而最近資本市場和 AI 基礎(chǔ)設(shè)施的變化，其實(shí)已經(jīng)開始提前反映這一點(diǎn)。

一、AI 產(chǎn)業(yè)正在進(jìn)入一個詭異的新階段

過去兩年，整個市場都在瘋狂購買 GPU。但現(xiàn)在，一線工程師發(fā)現(xiàn)了一個非常微妙的變化：在很多 AI 系統(tǒng)里，GPU 的算力還沒跑滿，內(nèi)存已經(jīng)先崩了，于是Context管理成為了Harness Engineering的重要組成。

這背后其實(shí)意味著，AI 的核心瓶頸，正在發(fā)生歷史性轉(zhuǎn)移：從Compute-centric（以計(jì)算為中心）轉(zhuǎn)向Memory-centric（以內(nèi)存與數(shù)據(jù)移動為中心）

如果說 2023-2025 的主線是“GPU 算力革命”；那么 2026-2028 很可能進(jìn)入“內(nèi)存架構(gòu)革命（Memory Architecture Revolution）”。

而這場革命最重要的關(guān)鍵詞，就是：CXL（Compute Express Link）。

二、為什么 AI 突然開始“極度缺內(nèi)存”？

2026年5月，整個華爾街都被"存儲芯片"的瘋狂暴漲徹底打蒙了。

美光科技（MU）：過去12個月股價狂飆700%，市值一舉突破8400億美元；西部數(shù)據(jù)（WDC）：一年內(nèi)暴漲900%；閃迪（SNDK）：更是上演了上市以來狂漲3300%的終極造富神話，單日暴漲16%直接突破1560美元。

無數(shù)踏空的投資者在深夜懊悔：曾經(jīng)錯過了英偉達(dá)，為什么錯過了這波利潤更豐厚的內(nèi)存狂歡？

答案很簡單，思維依然停留在"AI = 算力 = GPU"的舊共識里。

這波存儲股的徹底爆發(fā)，只是向市場揭開了一個殘酷真相的冰山一角：AI 系統(tǒng)真正面臨的致命瓶頸，早已經(jīng)不是算力了，而是 Memory Wall（內(nèi)存墻）。

很多人看到 NVIDIA 新一代 GPU 時，會有一種錯覺： “192GB 的 HBM 已經(jīng)非常龐大了，為什么還不夠用？”

問題在于：AI 推理階段真正像黑洞一樣吞噬內(nèi)存的，往往并不是模型本體，而是 KV Cache。

這是現(xiàn)在二級市場最容易忽略的核心問題。

什么是 KV Cache？簡單說：大模型在推理時，每生成一個 Token，都會保存對應(yīng)的 Key 和 Value，用于后續(xù)的 Attention 計(jì)算。

上下文越長，緩存越大。

而現(xiàn)在 AI 行業(yè)正在同時發(fā)生的趨勢：長上下文、Multi-Agent、持續(xù)會話、實(shí)時推理、多用戶并發(fā)……這些全部都會導(dǎo)致 KV Cache爆炸式增長。

一個 70B 級別的模型，如果跑百萬 Token 上下文，再疊加高并發(fā)，KV Cache 很容易瞬間膨脹到數(shù)百 GB，甚至 TB 級別。

問題來了：你不可能把所有數(shù)據(jù)都塞進(jìn) HBM 里。

三、HBM 的致命短板：太快，也太貴

最近內(nèi)存股漲價的核心動力是HBM（高帶寬內(nèi)存），

HBM確實(shí)很強(qiáng)，但它更像是城市里的“頂級學(xué)區(qū)房”。

它有幾個致命問題：

成本極高
功耗極高
容量擴(kuò)展極其困難
嚴(yán)重受制于 CoWoS 這種先進(jìn)封裝的產(chǎn)能

頂級學(xué)區(qū)房非常好，但不可能讓所有數(shù)據(jù)都住進(jìn)去，否則 AI 公司的推理成本會直接失控。

于是，AI 系統(tǒng)被迫進(jìn)入“分層內(nèi)存時代”。

未來的 AI 內(nèi)存架構(gòu)，大概率會變成這樣：

Tier 0（HBM）：超快、超貴（存放最核心即時計(jì)算數(shù)據(jù)）
Tier 1（DDR5 / CXL Memory）：大容量、高性價比
Tier 2（NVMe / SSD）：更大、更慢

這意味著，未來 AI 系統(tǒng)的核心大考，不再是單純的“你有沒有買到 GPU”，而是：“哪些數(shù)據(jù)必須放在最快內(nèi)存里？”以及“如何降低數(shù)據(jù)在各層之間的搬運(yùn)成本？”

四、NVIDIA：從 FLOPS 轉(zhuǎn)向 Data Movement

過去幾年，整個 AI 行業(yè)都在拼 FLOPS（每秒浮點(diǎn)運(yùn)算次數(shù)）、拼 GPU 數(shù)量。

但現(xiàn)在，如果你仔細(xì)觀察英偉達(dá)最近的動作，你會發(fā)現(xiàn)他們開始越來越頻繁地強(qiáng)調(diào)：

Context Memory
Shared Memory
Rack-scale Architecture（機(jī)架級架構(gòu)）

在 GTC 2026 上，NVIDIA 已經(jīng)明確提出了POD-wide context memory（即整個 Rack/POD 級別的共享上下文內(nèi)存）。

英偉達(dá)的Grace-Blackwell (GB200)架構(gòu)，本質(zhì)上就是把 CPU 和 GPU 通過超高帶寬的 NVLink-C2C 焊在一起。它的 Grace CPU 天生就是為了管理 HBM 和共享內(nèi)存池設(shè)計(jì)的。它不賣單顆 CPU，它賣的是一整套“CPU+GPU+內(nèi)存織物”的全棧解決方案。

這意味著，AI 基礎(chǔ)設(shè)施已經(jīng)開始從GPU-centric轉(zhuǎn)向Context-centric。大家終于意識到：算力再強(qiáng)，數(shù)據(jù)搬不動也是白搭。

五、CXL 到底改變了什么？解決“擱淺內(nèi)存”與“NVLink壟斷”

過去幾十年的服務(wù)器架構(gòu)是高度綁定的： CPU 綁定自己的 DRAM，GPU 綁定自己的 HBM。各自為戰(zhàn)，彼此之間很難靈活借用。

這會導(dǎo)致一個極度浪費(fèi)的現(xiàn)象： GPU-A 的 HBM 已經(jīng)被 KV Cache 撐爆了，而旁邊 GPU-B 的內(nèi)存卻在閑置。因?yàn)闊o法動態(tài)共享，這些閑置的內(nèi)存就變成了極其昂貴的“Stranded Memory（擱淺內(nèi)存）”。

上面提到的英偉達(dá)NVLink-C2C不是已經(jīng)解決了嗎？為什么還需要 CXL？”

這是一個極佳的問題。答案是：它們根本不在一個生態(tài)位。

NVLink 是英偉達(dá)為自己修的“私家高鐵”。極快，但你必須買它的全套車票，把所有的計(jì)算都死死鎖定在英偉達(dá)的封閉黑盒里。它解決的是大模型暴力計(jì)算的“算力上限”。

而 CXL（Compute Express Link），是 AI 時代的“通用貨運(yùn)網(wǎng)絡(luò)”。它是由 Intel、AMD、Google、Meta 等全行業(yè)“復(fù)仇者聯(lián)盟”共同推行的開放標(biāo)準(zhǔn)。它的核心使命不是幫某一家公司跑贏算力，而是解決全行業(yè)共同的噩夢——內(nèi)存墻。它解決的是 AI 商業(yè)化落地的“成本下限”。

CXL 帶來了一個極其關(guān)鍵的概念：Memory Pooling（內(nèi)存池化）。

過去，每臺服務(wù)器像一棟獨(dú)立別墅，自帶水塔；未來，通過 CXL，整個數(shù)據(jù)中心將變成一個共享水網(wǎng)系統(tǒng)。不管你是誰家的 CPU，誰家的 GPU，大家都可以動態(tài)共享一個巨大的外部內(nèi)存池。誰渴了，水（內(nèi)存資源）就流向誰。

最終，云端算力的內(nèi)存可以靈活支取，按需按量分配。

六、有了 DeepSeek v4 這種算法壓縮，還需要 CXL 嗎？

看到這里，很多懂點(diǎn)技術(shù)的朋友可能會拋出一個尖銳的問題：

“前陣子 DeepSeek v4 出來，不是通過首創(chuàng)的 MLA（多頭潛在注意力機(jī)制）架構(gòu)，硬生生把 KV Cache 的顯存占用砍掉了 80% 到 90% 嗎？”

既然算法能在物理級別把內(nèi)存壓縮得這么小，為什么還需要搞極其復(fù)雜的 CXL 硬件池化？

這是一個極好的問題。但真相是：DeepSeek 的算法壓縮，與 CXL 的硬件池化，絕非互斥關(guān)系。而是拯救 AI“內(nèi)存墻”的兩條完美交叉線。

第一，DeepSeek 本質(zhì)上是“用極致的計(jì)算和帶寬，換取內(nèi)存空間”。MLA 架構(gòu)把龐大的 KV 矩陣壓縮成極小的潛在向量（Latent Vector）。但在計(jì)算時，模型必須極高頻地“解壓縮”還原。這依然要求極其恐怖的顯存帶寬（Bandwidth）和互聯(lián)速度。算法壓縮到了極限，是對數(shù)據(jù)傳輸寬帶的極度壓榨。

第二，物理極限與系統(tǒng)級死鎖。即使 DeepSeek 砍掉了 90% 的 KV Cache。當(dāng)你在跑數(shù)百萬 Token 的逆天長文本、且應(yīng)對數(shù)萬并發(fā)時，剩下的那 10% 依然會撐爆單機(jī) HBM 的天花板。更致命的是： GPU-A 壓縮得再小，它省下來的閑置內(nèi)存，依然無法給旁邊的 GPU-B 使用。

所以，未來的終局形態(tài)是：算法（向內(nèi)壓縮）負(fù)責(zé)“節(jié)流”；CXL（向外池化）負(fù)責(zé)“開源”。

這兩者的“雙劍合璧”，才是徹底跨越“Context Memory 戰(zhàn)爭”的終極解法。

七、反直覺：CPU 正在迎來“結(jié)構(gòu)性復(fù)興”

看到這里，你可能會產(chǎn)生一個錯覺：AI 時代，傳統(tǒng)的 CPU 是不是徹底淪為打雜的了？

恰恰相反。在 CXL 硬件池化和 DeepSeek v4高效算法的雙重催化下，CPU 的重要性正在被史詩級重估。

如果說 GPU 是 AI 時代的“暴力肌肉”。那么在這個龐大的 CXL 共享內(nèi)存網(wǎng)絡(luò)里，CPU 正在重新找回它“神經(jīng)中樞”的王座。

原因很簡單：

第一，誰來當(dāng)海量內(nèi)存池的“超級交警”？在 CXL 時代，所有的 GPU 和海量的外部內(nèi)存連成了一片網(wǎng)。 GPU A 的閑置內(nèi)存怎么動態(tài)借給 GPU B？熱數(shù)據(jù)什么時候切入 HBM？這種極其復(fù)雜的Memory Orchestration（內(nèi)存編排調(diào)度）和多租戶一致性管理，GPU 根本做不來。它必須依靠擁有極高 I/O 帶寬和復(fù)雜調(diào)度邏輯的“重型 CPU”來執(zhí)行。

第二，算法壓縮倒逼 KV Cache 下放。既然 DeepSeek 把 KV Cache 的體積壓縮了，我們?yōu)槭裁捶且阉鼈內(nèi)珨D在昂貴的 GPU HBM 里？我們完全可以把這些海量的上下文記憶，存放在由 CPU 掌控的龐大 DDR5/CXL 內(nèi)存池中。GPU 只管埋頭計(jì)算，CPU 負(fù)責(zé)極速調(diào)取和維護(hù)這些上下文。

AI 的下半場，對 CPU 的要求并沒有降低，而是發(fā)生了極其深刻的“職能升級”。那些擁有強(qiáng)大調(diào)度架構(gòu)的高級 CPU，價值將面臨重構(gòu)。

目前的趨勢是：ARM 正在全面壓倒 x86。

功耗是死穴：AI 機(jī)柜的功耗已經(jīng)逼近物理極限（單柜 120kW+）。x86 的復(fù)雜指令集在能效比上天生吃虧，而 ARM 架構(gòu)在處理高頻、并行的 I/O 調(diào)度時，能省下巨額電費(fèi)。

定制化是絕殺：云巨頭（AWS, Google, Microsoft）現(xiàn)在都在自研 CPU。基于 ARM 的 IP 授權(quán)，他們可以像搭積木一樣，定制出最適合 CXL 鏈路和 DeepSeek 算法的私有 CPU（如 Graviton 系列）。

未來的王者，不再是那個“算力最強(qiáng)”的，而是那個“最懂得調(diào)度內(nèi)存”的。

八、尋找真正的 Alpha：產(chǎn)業(yè)鏈里的“四大關(guān)鍵節(jié)點(diǎn)”

當(dāng) AI 基礎(chǔ)設(shè)施的重心發(fā)生偏移，真正的利潤池，將開始向“Memory Movement（數(shù)據(jù)搬運(yùn)）”瘋狂遷移。

不要再死死盯著 GPU 和 CUDA。在即將到來的 CXL 內(nèi)存池化時代，這四個環(huán)節(jié)，才是未來 3 年最硬核的“賣水人”：

1. Retimer（高速信號修復(fù)芯片）：最先爆發(fā)的物理剛需

隨著 PCIe 5.0/6.0 和 CXL 傳輸速度的翻倍，高速信號在物理主板上極易衰減失真。 Retimer 就像是內(nèi)存長途運(yùn)輸線上的“加油站與放大器”。在未來的機(jī)架級（Rack-scale）AI 服務(wù)器中，它是根本繞不開的物理標(biāo)配。

核心標(biāo)的：Astera Labs (ALAB)、Credo Technology (CRDO)

2. CXL Switch（價值咽喉）：AI 時代的“內(nèi)存交換機(jī)”

未來，GPU 不再固定“焊死”在某塊內(nèi)存上。而是通過 CXL Switch 動態(tài)連接整個內(nèi)存織物（Memory Fabric）。誰能實(shí)現(xiàn)超低延遲、高一致性的內(nèi)存交換，誰就扼住了 AI 數(shù)據(jù)網(wǎng)絡(luò)的咽喉。這是整個硬件鏈條中溢價最高、壁壘最深的環(huán)節(jié)。

核心標(biāo)的：博通 (AVGO)、Marvell (MRVL)。

3. 被重估的 CPU 層：統(tǒng)籌全局的“總指揮部”

在傳統(tǒng)認(rèn)知里，CPU 在 AI 時代邊緣化了。錯！在 CXL 時代，CPU 成了統(tǒng)御龐大內(nèi)存池的“總調(diào)度交警”。現(xiàn)在的 Alpha，不再看 CPU 的單核算力，而是看它的I/O 通道數(shù)、低功耗，以及內(nèi)存調(diào)度效率。

藍(lán)圖統(tǒng)治者：Arm Holdings (ARM)。云巨頭拋棄 x86 自研芯片（如 AWS Graviton），統(tǒng)統(tǒng)要給 ARM 交底座授權(quán)費(fèi)。
定制化推手：世芯電子 (3661.TW)、Marvell、博通。他們是幫巨頭們代工設(shè)計(jì) AI 芯片的幕后刀客。
x86 的最后尊嚴(yán)：AMD (AMD)。憑借極高的 I/O 通道數(shù)和激進(jìn)的 CXL 擁抱策略，EPYC 依然是公有云上的硬通貨。
反直覺的贏家：Intel (INTC)。哪怕輸?shù)艉诵模瑧{借獨(dú)家的 EMIB 先進(jìn)封裝（IFS 代工），依然是云巨頭造芯繞不開的代工廠。

4. Memory Controller & Orchestration：真正的軟件護(hù)城河

把海量內(nèi)存連起來只是第一步。真正困難的，是“如何高效調(diào)度這些共享內(nèi)存”。這涉及到極度復(fù)雜的 OS 支持、工作負(fù)載遷移和多租戶隔離。這不僅是硬件的事，更是軟件生態(tài)的事。

核心標(biāo)的：Rambus (RMBS)。

生態(tài)玩家：能夠研發(fā)出類似于 Meta TMO（透明內(nèi)存卸載）底層軟件棧的科技巨頭，誰能做好 Memory Orchestration，誰就能建立起媲美英偉達(dá) CUDA 級別的“內(nèi)存軟件護(hù)城河”。

當(dāng) AI 基礎(chǔ)設(shè)施的重心發(fā)生偏移，真正的利潤池，將開始向“Memory Movement（數(shù)據(jù)搬運(yùn)）”瘋狂遷移。

不要再死死盯著 GPU 和 CUDA。在即將到來的 CXL 內(nèi)存池化時代，這四個環(huán)節(jié)，才是未來 3 年最硬核的“賣水人”：

1. Retimer（高速信號修復(fù)芯片）：最先爆發(fā)的物理剛需

核心標(biāo)的：Astera Labs (ALAB)、Credo Technology (CRDO)

2. CXL Switch（價值咽喉）：AI 時代的“內(nèi)存交換機(jī)”

核心標(biāo)的：博通 (AVGO)、Marvell (MRVL)。

3. 被重估的 CPU 層：統(tǒng)御全局的“總指揮部”

藍(lán)圖統(tǒng)治者：Arm Holdings (ARM)。云巨頭拋棄 x86 自研芯片（如 AWS Graviton），統(tǒng)統(tǒng)要給 ARM 交底座授權(quán)費(fèi)。
定制化推手：世芯電子 (3661.TW)、Marvell、博通。他們是幫巨頭們代工設(shè)計(jì) AI 芯片的幕后刀客。
x86 的最后尊嚴(yán)：AMD (AMD)。憑借極高的 I/O 通道數(shù)和激進(jìn)的 CXL 擁抱策略，EPYC 依然是公有云上的硬通貨。
反直覺的贏家：Intel (INTC)。哪怕輸?shù)艉诵模瑧{借獨(dú)家的 EMIB 先進(jìn)封裝（IFS 代工），依然是云巨頭造芯繞不開的代工廠。

4. Memory Controller & Orchestration：真正的軟件護(hù)城河

核心標(biāo)的：Rambus (RMBS)。

30年前，互聯(lián)網(wǎng)解決的是：“計(jì)算機(jī)之間的數(shù)據(jù)共享”；

20年前，云計(jì)算解決的是：“計(jì)算資源的彈性分配”；

5年前，大模型解決的是：“大尺度參數(shù)的注意力分配”；

1年前，智算中心解決的是：“萬卡集群的算力洪流分配”；

而今天，我們正在攻克 AI 皇冠上的最后一顆釘子：“AI 芯片之間的全域內(nèi)存共享”。

當(dāng)你還在為今天某個 AI Agent 運(yùn)行緩慢而抱怨算力不足時，當(dāng)你還在盯著英偉達(dá)的 K 線圖猜測天花板在哪里時；

另一場更底層、利潤更豐厚的系統(tǒng)級架構(gòu)變革，可能已經(jīng)開始了。

AI 的下一階段，也許不再只是“算力戰(zhàn)爭”，而是“Context Memory 戰(zhàn)爭”。

你認(rèn)為誰會成為 CXL 內(nèi)存池化時代的下一個“英偉達(dá)”？歡迎在評論區(qū)留下你的硬核觀點(diǎn)，我們一起探討 AI 基礎(chǔ)設(shè)施的下一個十年。

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.