網易首頁 > 網易號 > 正文申請入駐

PCIe、NVLink、CXL……誰才是芯片互聯界的“真·海王”？

2026-04-18 13:42:15　來源: EETOP半導體社區

北京舉報

分享至

1. 痛點開頭：算力堆得越多，卡在哪？

單顆芯片再猛，也是個孤狼。

真正決定系統性能天花板的，是這群“狼”能不能組隊開黑。

這就是所謂的“互聯墻”（Interconnect Wall）。翻譯成人話就是：芯片之間連得爽不爽，比你芯片自己厲不厲害，更重要。

現在的局面是，搞互聯的這幫人，已經卷出了新高度。什么PCIe、NVLink、CXL、UALink……各種協議滿天飛，各家都說自己是“真·海王”，能同時伺候好一群芯片。

今天，咱們就來扒一扒。

2. 傳統基石：PCIe的演進和天生瓶頸

PCIe是現在最通用的互聯標準，這么多年一直是CPU和各種加速器之間通信的骨干。

但現在GPU算力和顯存帶寬漲得太快，PCIe已經有點跟不上了。

先給大家看一下PCIe這些年的帶寬升級，變化非常直觀：

PCIe版本

單通道速率 (GT/s)

x16雙向帶寬 (GB/s)

編碼方式/信號技術

PCIe 3.0

31.5

128b/130b (NRZ)

PCIe 4.0

63.0

128b/130b (NRZ)

PCIe 5.0

128b/130b (NRZ)

PCIe 6.0

1b/1b (PAM4 + FLIT)

PCIe 7.0

128

1b/1b (PAM4 + FLIT)

PCIe 6.0其實已經做了大升級，用了PAM4四電平脈沖幅度調制，不用提高鏈路頻率就能把帶寬翻一倍，已經盡力了。

但問題出在架構設計上。PCIe用的是樹形層次拓撲，還是非一致性的存儲模型，優勢是兼容性好通用性強，但多GPU協同的時候，跨芯片交換數據大多要繞CPU中轉，或者靠軟件管理DMA，不僅軟件開銷大，延遲也降不下去。

更關鍵的是，PCIe在硬件層面原生不支持緩存一致性。

什么意思？簡單說就是不同芯片沒法直接共享同一個內存地址空間，要同步數據就得程序員手動控制緩存刷新，不僅寫代碼變復雜，還白白浪費了很多計算周期。

這個瓶頸，在訓練萬億參數大模型的時候尤其明顯——頻繁更新權重、同步梯度對帶寬和一致性要求太高了，PCIe頂不住。

3. 私有標桿：NVIDIA NVLink的閉環優勢

為了繞開PCIe的問題，NVIDIA做了自己的私有互聯協議NVLink，現在是行業性能標桿。

NVLink的設計思路很直接：繞開PCIe的層級結構，直接給GPU之間、GPU和兼容CPU之間做點對點的直連通道。

從2016年推出到現在，基本每代帶寬都翻一倍，升級路線很清晰：

NVLink版本

對應架構

每GPU總帶寬 (GB/s, 雙向)

最大擴展規模

NVLink 1.0

Pascal (P100)

160

8 GPUs

NVLink 2.0

Volta (V100)

300

16 GPUs

NVLink 3.0

Ampere (A100)

600

16-32 GPUs

NVLink 4.0

Hopper (H100)

900

256 GPUs

NVLink 5.0

Blackwell (B200)

1,800

576 GPUs

NVLink 6.0

Rubin

3,600

576+ GPUs

NVLink能做這么強，不只是物理層帶寬高，配套的NVSwitch芯片是關鍵。NVSwitch相當于GPU之間的全連接交換機，服務器里所有GPU都能全速無阻塞互相通信。

現在Blackwell架構用第五代NVLink加第三代NVSwitch，能拼出576個GPU的超級計算集群，整個機架總帶寬能到130TB/s，這個性能現在沒人能比。

后來推出的NVLink-C2C還把這個優勢擴展到了CPU和GPU之間，能做到900GB/s的超低延遲一致性連接，GPU能直接用CPU的系統內存，正好緩解了HBM顯存容量不夠的問題。

從軟件層面看，NVLink底層直接支持硬件級的內存語義，包括直接讀寫和原子操作。開發者用CUDA編程的時候，訪問別的GPU顯存就像訪問自己本地顯存一樣，效率提升非常明顯。

但缺點也很明顯：封閉生態帶來廠商鎖定，別的廠商用不了，所以整個行業都在找開放的替代方案。

4. 開放統一：CXL怎么對抗封閉生態？

為了打破NVIDIA的壟斷，Intel牽頭拉著AMD、ARM這些廠商搞了CXL開放標準，現在已經成了業界主流的開放方案。

CXL的設計很聰明，它直接復用現有的PCIe物理層和電氣標準，只在上面重新做了三套專門針對低延遲一致性優化的協議棧，不用徹底推翻現有產業鏈就能升級。

CXL根據設備類型，分了三個協議子集，動態啟用：

CXL.io：基于PCIe改的，用來做設備發現、初始化、配置，還有非一致性數據傳輸，是所有CXL設備都必須支持的基礎。

CXL.cache：讓加速器能用低延遲緩存主機的系統內存，適合做細粒度的指令級協作，SmartNIC和近內存計算設備用得最多。

CXL.mem：讓主機CPU能用標準讀寫指令訪問加速器自帶的內存，是實現內存池化、內存分解的核心基礎。

按支持的協議組合，CXL設備又分成三類：

Type 1一般是加速器或者SmartNIC，只用CXL.io和CXL.cache，大多沒有本地大容量內存，靠訪問主機內存工作。

Type 2是通用加速器，比如GPU、FPGA，三個協議全都支持，既能訪問主機內存，也能讓主機訪問自己本地的HBM，能拼出完全對稱的一致性空間。

Type 3是內存擴展器，只用CXL.io和CXL.mem，就是給系統額外加DRAM或者持久化內存，解決數據中心內存閑置、帶寬不夠的問題。

最新的CXL 3.1已經支持基于端口的路由和多層交換，能把互聯范圍從機架內擴展到整個數據中心，理論上能支持幾千個節點共享同一個內存池。這種內存池化能力，現在被認為是能降低數據中心總體擁有成本的革命性技術。

5. 各家方案：不止NVLink和CXL，還有這些選擇

除了上面兩個最主流的，AMD、華為、Intel都有自己的方案，各有各的思路。

AMD Infinity Fabric

AMD給Instinct系列加速器做的Infinity Fabric，前身叫XGMI，思路和NVLink差不多，主打高點對點帶寬，還能和自己的CPU架構深度集成。

現在的MI300X，每顆芯片帶7條Infinity Fabric鏈路，每條能提供128GB/s的雙向帶寬，支持8顆GPU用環形或者網格拓撲互聯。

而MI300A作為全球首款AI+HPC用的APU，單芯片封裝里直接集成了Zen 4 CPU和CDNA 3 GPU，這些核心通過片內Infinity Fabric直接共享同一組HBM3顯存，徹底省掉了CPU和GPU之間數據拷貝的延遲，FP64矩陣運算理論峰值能到122.6TFLOPS，性能非常強。

華為HCCS和下一代UB架構

華為升騰芯片用的是自研的HCCS緩存一致性系統做卡間互聯，升騰910單顆芯片就有3條HCCS鏈路，總帶寬最高能到90GB/s，用環形拓撲能把4顆或者8顆加速器拼成一個緊密協作的計算節點。

在2025年的Hot Chips大會上，華為公布了下一代互聯技術：統一總線UB，目標是把CPU、NPU、內存、網絡接口的協議統一，省掉傳統協議轉換帶來的延遲。針對超大規模集群，還做了UB-Mesh拓撲，是一種分層的局部全連接網絡。

這個架構專門利用了大模型訓練里數據有局部性的特點，能做到比傳統網絡高100倍的帶寬，還能通過非線性成本控制大幅降低互聯開銷。目標是拼出支持百萬顆芯片協同的超級節點，還專門在光學鏈路上做了自動重試，解決光互聯誤碼率高的問題。

6. 開放聯盟：UALink要挑戰NVLink壟斷

2024年AMD、Intel、谷歌、微軟這些巨頭湊在一起搞了UALink聯盟，推出了開放的Ultra Accelerator Link協議，就是沖著打破NVIDIA壟斷來的。

UALink 1.0的目標就是做一個開放、高性能、低延遲的擴展互聯標準，復用以太網的物理層，但重新設計了上層協議，支持加速器之間直接讀寫內存。

我們直接對比一下NVLink 5.0：

指標

UALink 1.0 (2025)

NVLink 5.0 (Blackwell)

每通道速率

200 GT/s

約 224 Gbps

單端口帶寬 (x4)

800 Gbps

1.8 TB/s (每GPU總和)

最大集群規模

1,024 節點

576 節點

往返延遲

< 1 微秒

極低 (私有優化)

生態開放度

完全開放標準

封閉私有

UALink 2.0已經開始規劃網內計算技術，目的是減少加速器之間調度任務的控制消息，把更多帶寬留給實際數據傳輸。

雖然量產進度比NVLink慢，但有整個行業背書，未來肯定是大規模AI集群的一個重要選項

8. 底層基礎：先進封裝和芯粒互聯標準

現在芯粒技術越來越成熟，芯片互聯已經不只是電路板上的事，已經延伸到封裝內部了，封裝技術本身就決定了物理層互聯的密度和能效比。

現在主流先進封裝主要兩個路線：

技術

開發商

結構特點

相對成本

主要應用

CoWoS-S

TSMC

全尺寸硅中介層 (Silicon Interposer)

1.0x

NVIDIA H100, AMD MI300

CoWoS-L

TSMC

有機基板 + 局部硅橋 (LSI Bridge)

1.2x

NVIDIA Blackwell (超大封裝)

EMIB

Intel

嵌入式多芯片互聯橋

0.7x - 0.9x

Intel Xeon, 加速器, ASIC

臺積電的CoWoS現在占市場主導，但產能不夠，成本還高——硅中介層經常要占封裝總成本的一半以上。Intel的EMIB只在需要的地方嵌硅橋，省硅料，成本能降30%到40%，散熱和尺寸擴展性還更好，各有優勢。

要讓不同廠商的芯粒能拼在一起用，就得有通用的互聯標準，所以Intel、AMD、NVIDIA、臺積電、三星這些廠商一起搞了UCIe通用芯粒互聯標準。

UCIe基于CXL和PCIe的協議層，但物理層做得非常精簡，每比特能耗只有0.25到0.5pJ，比傳統的PCIe這類封裝外互聯低一個數量級。

先進封裝下，UCIe 1.0能做到1.35TB/s/mm2的帶寬密度，后續的2.0、3.0版本已經把速率提到了48GT/s和64GT/s，還支持3D堆疊封裝，以后AI芯片能在單封裝里集成更多計算核心和HBM堆棧。

9. 趨勢總結：互聯已經變成核心戰略資源

現在異構計算的互聯方案，已經呈現出幾個非常明確的趨勢：

第一，硬件一致性是準入門檻。不管是開放的CXL還是私有的NVLink-C2C，要做深度融合的異構系統，硬件級緩存一致性已經是必須的，沒有這個就做不了細粒度并行。

第二，以太網化和開放標準化是大方向。集群規模越來越大，要做到百萬卡級別，用以太網物理層做低成本擴展已經擋不住了，UALink這類開放標準起來之后，專有協議的市場空間會越來越受挑戰。

第三，光互聯很快就要落地。銅纜超過2到4米信號衰減就扛不住了，硅光子和共封裝光學已經從實驗室走向數據中心，現在華為等廠商已經開始在協議層做文章，解決光模塊誤碼率高的問題。

第四，封裝本身就是網絡。UCIe正在把整個封裝變成一個低延遲高速網絡，大芯片能通過芯粒拼接突破制造極限，以后會越來越普及。

總的來說，現在異構芯片的互聯早就不是單純的接插件了，已經變成整個系統架構里最重要的戰略資源。

選什么互聯方案，不只是看帶寬數字，還要看軟件生態成熟度、集群可擴展性，還有長期的總體擁有成本。

未來的計算系統，不會再有明確的處理器和存儲器的邊界，最后就是一張用高速低功耗互聯織出來的巨大計算網絡。

對于想做異構算力的團隊來說，早點摸清楚不同互聯方案的優缺點，選對路線比單純堆算力重要得多。

海王的終極形態，是讓你沒得選。

寫了這么多，劃個重點：

PCIe：公交車，哪都能去，但慢。適合當“備用方案”和“控制通道”。

NVLink：私人飛機，巨快，但貴且封閉。老黃的護城河。

CXL：共享單車+月老，想撮合所有芯片搞內存池化。理想很大，但受限于物理層。

UALink：巨頭們組隊干NVLink的產物。紙面很強，等落地。

UCIe：封裝內的膠水，讓芯粒像樂高一樣拼。未來所有超大芯片的標配。

光互聯：終極解決方案。等成本降下來，銅線就可以退休了。

趨勢也很明顯：一致性、以太網化、標準化、光進銅退。

未來的計算系統，不會再是“CPU在這里，GPU在那里，內存在那一邊”。而是一個由高速互聯織成的巨大網絡，計算、存儲、通信的邊界全部模糊掉。

從“計算為王”，到“互聯為王”。

時代變了。

文章來源于歪睿老哥，作者歪睿老哥

技術大會報名倒計時（免費午餐）

224G SerDes｜GAN｜FPGA｜AI信號處理等

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

EETOP半導體社區

國內著名的電子工程師社區

7495文章數 15648關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

健康

本地

手機

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

PCIe、NVLink、CXL……誰才是芯片互聯界的“真·海王”？

創造4萬億帝國、訪華20次，庫克留下了什么

媒體：急于擺脫對華稀土依賴 美企28億美元在巴西搶礦

媒體：急于擺脫對華稀土依賴 美企28億美元在巴西搶礦

62歲，成為中國足壇最火的人

周潤發時隔16年再賣樓，變現數億資產

現實是最大的荒誕:千億平臺的沖突始末

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

浪姐七年，被這位姐姐掀桌了

干細胞抗衰4大誤區,90%的人都中招

春色滿城關不住｜白鵑梅浪漫盛放，吳山藏了一片四月雪

OPPO Find X9 Ultra旗艦手機發布，7499元起

媒體：急于擺脫對華稀土依賴美企28億美元在巴西搶礦

媒體：急于擺脫對華稀土依賴美企28億美元在巴西搶礦

全新坦克700正式上市售價42.8萬-50.8萬元