1. 痛點開頭:算力堆得越多,卡在哪?
單顆芯片再猛,也是個孤狼。
真正決定系統性能天花板的,是這群“狼”能不能組隊開黑。
這就是所謂的“互聯墻”(Interconnect Wall)。翻譯成人話就是:芯片之間連得爽不爽,比你芯片自己厲不厲害,更重要。
現在的局面是,搞互聯的這幫人,已經卷出了新高度。什么PCIe、NVLink、CXL、UALink……各種協議滿天飛,各家都說自己是“真·海王”,能同時伺候好一群芯片。
今天,咱們就來扒一扒。
2. 傳統基石:PCIe的演進和天生瓶頸
PCIe是現在最通用的互聯標準,這么多年一直是CPU和各種加速器之間通信的骨干。
![]()
但現在GPU算力和顯存帶寬漲得太快,PCIe已經有點跟不上了。
先給大家看一下PCIe這些年的帶寬升級,變化非常直觀:
PCIe版本
單通道速率 (GT/s)
x16雙向帶寬 (GB/s)
編碼方式/信號技術
PCIe 3.0
8
31.5
128b/130b (NRZ)
PCIe 4.0
16
63.0
128b/130b (NRZ)
PCIe 5.0
32
128b/130b (NRZ)
PCIe 6.0
64
1b/1b (PAM4 + FLIT)
PCIe 7.0
128
1b/1b (PAM4 + FLIT)
PCIe 6.0其實已經做了大升級,用了PAM4四電平脈沖幅度調制,不用提高鏈路頻率就能把帶寬翻一倍,已經盡力了。
但問題出在架構設計上。PCIe用的是樹形層次拓撲,還是非一致性的存儲模型,優勢是兼容性好通用性強,但多GPU協同的時候,跨芯片交換數據大多要繞CPU中轉,或者靠軟件管理DMA,不僅軟件開銷大,延遲也降不下去。
更關鍵的是,PCIe在硬件層面原生不支持緩存一致性。
什么意思?簡單說就是不同芯片沒法直接共享同一個內存地址空間,要同步數據就得程序員手動控制緩存刷新,不僅寫代碼變復雜,還白白浪費了很多計算周期。
這個瓶頸,在訓練萬億參數大模型的時候尤其明顯——頻繁更新權重、同步梯度對帶寬和一致性要求太高了,PCIe頂不住。
3. 私有標桿:NVIDIA NVLink的閉環優勢
為了繞開PCIe的問題,NVIDIA做了自己的私有互聯協議NVLink,現在是行業性能標桿。
NVLink的設計思路很直接:繞開PCIe的層級結構,直接給GPU之間、GPU和兼容CPU之間做點對點的直連通道。
![]()
從2016年推出到現在,基本每代帶寬都翻一倍,升級路線很清晰:
NVLink版本
對應架構
每GPU總帶寬 (GB/s, 雙向)
最大擴展規模
NVLink 1.0
Pascal (P100)
160
8 GPUs
NVLink 2.0
Volta (V100)
300
16 GPUs
NVLink 3.0
Ampere (A100)
600
16-32 GPUs
NVLink 4.0
Hopper (H100)
900
256 GPUs
NVLink 5.0
Blackwell (B200)
1,800
576 GPUs
NVLink 6.0
Rubin
3,600
576+ GPUs
NVLink能做這么強,不只是物理層帶寬高,配套的NVSwitch芯片是關鍵。NVSwitch相當于GPU之間的全連接交換機,服務器里所有GPU都能全速無阻塞互相通信。
現在Blackwell架構用第五代NVLink加第三代NVSwitch,能拼出576個GPU的超級計算集群,整個機架總帶寬能到130TB/s,這個性能現在沒人能比。
后來推出的NVLink-C2C還把這個優勢擴展到了CPU和GPU之間,能做到900GB/s的超低延遲一致性連接,GPU能直接用CPU的系統內存,正好緩解了HBM顯存容量不夠的問題。
從軟件層面看,NVLink底層直接支持硬件級的內存語義,包括直接讀寫和原子操作。開發者用CUDA編程的時候,訪問別的GPU顯存就像訪問自己本地顯存一樣,效率提升非常明顯。
但缺點也很明顯:封閉生態帶來廠商鎖定,別的廠商用不了,所以整個行業都在找開放的替代方案。
4. 開放統一:CXL怎么對抗封閉生態?
為了打破NVIDIA的壟斷,Intel牽頭拉著AMD、ARM這些廠商搞了CXL開放標準,現在已經成了業界主流的開放方案。
CXL的設計很聰明,它直接復用現有的PCIe物理層和電氣標準,只在上面重新做了三套專門針對低延遲一致性優化的協議棧,不用徹底推翻現有產業鏈就能升級。
CXL根據設備類型,分了三個協議子集,動態啟用:
CXL.io:基于PCIe改的,用來做設備發現、初始化、配置,還有非一致性數據傳輸,是所有CXL設備都必須支持的基礎。
CXL.cache:讓加速器能用低延遲緩存主機的系統內存,適合做細粒度的指令級協作,SmartNIC和近內存計算設備用得最多。
CXL.mem:讓主機CPU能用標準讀寫指令訪問加速器自帶的內存,是實現內存池化、內存分解的核心基礎。
按支持的協議組合,CXL設備又分成三類:
Type 1一般是加速器或者SmartNIC,只用CXL.io和CXL.cache,大多沒有本地大容量內存,靠訪問主機內存工作。
Type 2是通用加速器,比如GPU、FPGA,三個協議全都支持,既能訪問主機內存,也能讓主機訪問自己本地的HBM,能拼出完全對稱的一致性空間。
Type 3是內存擴展器,只用CXL.io和CXL.mem,就是給系統額外加DRAM或者持久化內存,解決數據中心內存閑置、帶寬不夠的問題。
最新的CXL 3.1已經支持基于端口的路由和多層交換,能把互聯范圍從機架內擴展到整個數據中心,理論上能支持幾千個節點共享同一個內存池。這種內存池化能力,現在被認為是能降低數據中心總體擁有成本的革命性技術。
5. 各家方案:不止NVLink和CXL,還有這些選擇
除了上面兩個最主流的,AMD、華為、Intel都有自己的方案,各有各的思路。
AMD Infinity Fabric
AMD給Instinct系列加速器做的Infinity Fabric,前身叫XGMI,思路和NVLink差不多,主打高點對點帶寬,還能和自己的CPU架構深度集成。
現在的MI300X,每顆芯片帶7條Infinity Fabric鏈路,每條能提供128GB/s的雙向帶寬,支持8顆GPU用環形或者網格拓撲互聯。
而MI300A作為全球首款AI+HPC用的APU,單芯片封裝里直接集成了Zen 4 CPU和CDNA 3 GPU,這些核心通過片內Infinity Fabric直接共享同一組HBM3顯存,徹底省掉了CPU和GPU之間數據拷貝的延遲,FP64矩陣運算理論峰值能到122.6TFLOPS,性能非常強。
華為HCCS和下一代UB架構
華為升騰芯片用的是自研的HCCS緩存一致性系統做卡間互聯,升騰910單顆芯片就有3條HCCS鏈路,總帶寬最高能到90GB/s,用環形拓撲能把4顆或者8顆加速器拼成一個緊密協作的計算節點。
在2025年的Hot Chips大會上,華為公布了下一代互聯技術:統一總線UB,目標是把CPU、NPU、內存、網絡接口的協議統一,省掉傳統協議轉換帶來的延遲。針對超大規模集群,還做了UB-Mesh拓撲,是一種分層的局部全連接網絡。
![]()
這個架構專門利用了大模型訓練里數據有局部性的特點,能做到比傳統網絡高100倍的帶寬,還能通過非線性成本控制大幅降低互聯開銷。目標是拼出支持百萬顆芯片協同的超級節點,還專門在光學鏈路上做了自動重試,解決光互聯誤碼率高的問題。
6. 開放聯盟:UALink要挑戰NVLink壟斷
2024年AMD、Intel、谷歌、微軟這些巨頭湊在一起搞了UALink聯盟,推出了開放的Ultra Accelerator Link協議,就是沖著打破NVIDIA壟斷來的。
UALink 1.0的目標就是做一個開放、高性能、低延遲的擴展互聯標準,復用以太網的物理層,但重新設計了上層協議,支持加速器之間直接讀寫內存。
我們直接對比一下NVLink 5.0:
指標
UALink 1.0 (2025)
NVLink 5.0 (Blackwell)
每通道速率
200 GT/s
約 224 Gbps
單端口帶寬 (x4)
800 Gbps
1.8 TB/s (每GPU總和)
最大集群規模
1,024 節點
576 節點
往返延遲
< 1 微秒
極低 (私有優化)
生態開放度
完全開放標準
封閉私有
UALink 2.0已經開始規劃網內計算技術,目的是減少加速器之間調度任務的控制消息,把更多帶寬留給實際數據傳輸。
雖然量產進度比NVLink慢,但有整個行業背書,未來肯定是大規模AI集群的一個重要選項
8. 底層基礎:先進封裝和芯粒互聯標準
現在芯粒技術越來越成熟,芯片互聯已經不只是電路板上的事,已經延伸到封裝內部了,封裝技術本身就決定了物理層互聯的密度和能效比。
現在主流先進封裝主要兩個路線:
技術
開發商
結構特點
相對成本
主要應用
CoWoS-S
TSMC
全尺寸硅中介層 (Silicon Interposer)
1.0x
NVIDIA H100, AMD MI300
CoWoS-L
TSMC
有機基板 + 局部硅橋 (LSI Bridge)
1.2x
NVIDIA Blackwell (超大封裝)
EMIB
Intel
嵌入式多芯片互聯橋
0.7x - 0.9x
Intel Xeon, 加速器, ASIC
臺積電的CoWoS現在占市場主導,但產能不夠,成本還高——硅中介層經常要占封裝總成本的一半以上。Intel的EMIB只在需要的地方嵌硅橋,省硅料,成本能降30%到40%,散熱和尺寸擴展性還更好,各有優勢。
要讓不同廠商的芯粒能拼在一起用,就得有通用的互聯標準,所以Intel、AMD、NVIDIA、臺積電、三星這些廠商一起搞了UCIe通用芯粒互聯標準。
UCIe基于CXL和PCIe的協議層,但物理層做得非常精簡,每比特能耗只有0.25到0.5pJ,比傳統的PCIe這類封裝外互聯低一個數量級。
![]()
先進封裝下,UCIe 1.0能做到1.35TB/s/mm2的帶寬密度,后續的2.0、3.0版本已經把速率提到了48GT/s和64GT/s,還支持3D堆疊封裝,以后AI芯片能在單封裝里集成更多計算核心和HBM堆棧。
9. 趨勢總結:互聯已經變成核心戰略資源
現在異構計算的互聯方案,已經呈現出幾個非常明確的趨勢:
第一,硬件一致性是準入門檻。不管是開放的CXL還是私有的NVLink-C2C,要做深度融合的異構系統,硬件級緩存一致性已經是必須的,沒有這個就做不了細粒度并行。
第二,以太網化和開放標準化是大方向。集群規模越來越大,要做到百萬卡級別,用以太網物理層做低成本擴展已經擋不住了,UALink這類開放標準起來之后,專有協議的市場空間會越來越受挑戰。
第三,光互聯很快就要落地。銅纜超過2到4米信號衰減就扛不住了,硅光子和共封裝光學已經從實驗室走向數據中心,現在華為等廠商已經開始在協議層做文章,解決光模塊誤碼率高的問題。
第四,封裝本身就是網絡。UCIe正在把整個封裝變成一個低延遲高速網絡,大芯片能通過芯粒拼接突破制造極限,以后會越來越普及。
總的來說,現在異構芯片的互聯早就不是單純的接插件了,已經變成整個系統架構里最重要的戰略資源。
選什么互聯方案,不只是看帶寬數字,還要看軟件生態成熟度、集群可擴展性,還有長期的總體擁有成本。
未來的計算系統,不會再有明確的處理器和存儲器的邊界,最后就是一張用高速低功耗互聯織出來的巨大計算網絡。
對于想做異構算力的團隊來說,早點摸清楚不同互聯方案的優缺點,選對路線比單純堆算力重要得多。
海王的終極形態,是讓你沒得選。
寫了這么多,劃個重點:
PCIe:公交車,哪都能去,但慢。適合當“備用方案”和“控制通道”。
NVLink:私人飛機,巨快,但貴且封閉。老黃的護城河。
CXL:共享單車+月老,想撮合所有芯片搞內存池化。理想很大,但受限于物理層。
UALink:巨頭們組隊干NVLink的產物。紙面很強,等落地。
UCIe:封裝內的膠水,讓芯粒像樂高一樣拼。未來所有超大芯片的標配。
光互聯:終極解決方案。等成本降下來,銅線就可以退休了。
趨勢也很明顯:一致性、以太網化、標準化、光進銅退。
未來的計算系統,不會再是“CPU在這里,GPU在那里,內存在那一邊”。而是一個由高速互聯織成的巨大網絡,計算、存儲、通信的邊界全部模糊掉。
從“計算為王”,到“互聯為王”。
時代變了。
文章來源于歪睿老哥,作者歪睿老哥
技術大會報名倒計時(免費午餐)
224G SerDes|GAN|FPGA|AI信號處理等
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.