網易首頁 > 網易號 > 正文 申請入駐

PCIe、NVLink、CXL……誰才是芯片互聯界的“真·海王”?

0
分享至

1. 痛點開頭:算力堆得越多,卡在哪?

單顆芯片再猛,也是個孤狼。

真正決定系統性能天花板的,是這群“狼”能不能組隊開黑。

這就是所謂的“互聯墻”(Interconnect Wall)。翻譯成人話就是:芯片之間連得爽不爽,比你芯片自己厲不厲害,更重要。

現在的局面是,搞互聯的這幫人,已經卷出了新高度。什么PCIe、NVLink、CXL、UALink……各種協議滿天飛,各家都說自己是“真·海王”,能同時伺候好一群芯片。

今天,咱們就來扒一扒。

2. 傳統基石:PCIe的演進和天生瓶頸

PCIe是現在最通用的互聯標準,這么多年一直是CPU和各種加速器之間通信的骨干。


但現在GPU算力和顯存帶寬漲得太快,PCIe已經有點跟不上了。

先給大家看一下PCIe這些年的帶寬升級,變化非常直觀:

PCIe版本

單通道速率 (GT/s)

x16雙向帶寬 (GB/s)

編碼方式/信號技術

PCIe 3.0

8

31.5

128b/130b (NRZ)

PCIe 4.0

16

63.0

128b/130b (NRZ)

PCIe 5.0

32

128b/130b (NRZ)

PCIe 6.0

64

1b/1b (PAM4 + FLIT)

PCIe 7.0

128

1b/1b (PAM4 + FLIT)

PCIe 6.0其實已經做了大升級,用了PAM4四電平脈沖幅度調制,不用提高鏈路頻率就能把帶寬翻一倍,已經盡力了。

但問題出在架構設計上。PCIe用的是樹形層次拓撲,還是非一致性的存儲模型,優勢是兼容性好通用性強,但多GPU協同的時候,跨芯片交換數據大多要繞CPU中轉,或者靠軟件管理DMA,不僅軟件開銷大,延遲也降不下去。

更關鍵的是,PCIe在硬件層面原生不支持緩存一致性。

什么意思?簡單說就是不同芯片沒法直接共享同一個內存地址空間,要同步數據就得程序員手動控制緩存刷新,不僅寫代碼變復雜,還白白浪費了很多計算周期。

這個瓶頸,在訓練萬億參數大模型的時候尤其明顯——頻繁更新權重、同步梯度對帶寬和一致性要求太高了,PCIe頂不住。

3. 私有標桿:NVIDIA NVLink的閉環優勢

為了繞開PCIe的問題,NVIDIA做了自己的私有互聯協議NVLink,現在是行業性能標桿。

NVLink的設計思路很直接:繞開PCIe的層級結構,直接給GPU之間、GPU和兼容CPU之間做點對點的直連通道。


從2016年推出到現在,基本每代帶寬都翻一倍,升級路線很清晰:

NVLink版本

對應架構

每GPU總帶寬 (GB/s, 雙向)

最大擴展規模

NVLink 1.0

Pascal (P100)

160

8 GPUs

NVLink 2.0

Volta (V100)

300

16 GPUs

NVLink 3.0

Ampere (A100)

600

16-32 GPUs

NVLink 4.0

Hopper (H100)

900

256 GPUs

NVLink 5.0

Blackwell (B200)

1,800

576 GPUs

NVLink 6.0

Rubin

3,600

576+ GPUs

NVLink能做這么強,不只是物理層帶寬高,配套的NVSwitch芯片是關鍵。NVSwitch相當于GPU之間的全連接交換機,服務器里所有GPU都能全速無阻塞互相通信。

現在Blackwell架構用第五代NVLink加第三代NVSwitch,能拼出576個GPU的超級計算集群,整個機架總帶寬能到130TB/s,這個性能現在沒人能比。

后來推出的NVLink-C2C還把這個優勢擴展到了CPU和GPU之間,能做到900GB/s的超低延遲一致性連接,GPU能直接用CPU的系統內存,正好緩解了HBM顯存容量不夠的問題。

從軟件層面看,NVLink底層直接支持硬件級的內存語義,包括直接讀寫和原子操作。開發者用CUDA編程的時候,訪問別的GPU顯存就像訪問自己本地顯存一樣,效率提升非常明顯。

但缺點也很明顯:封閉生態帶來廠商鎖定,別的廠商用不了,所以整個行業都在找開放的替代方案。

4. 開放統一:CXL怎么對抗封閉生態?

為了打破NVIDIA的壟斷,Intel牽頭拉著AMD、ARM這些廠商搞了CXL開放標準,現在已經成了業界主流的開放方案。

CXL的設計很聰明,它直接復用現有的PCIe物理層和電氣標準,只在上面重新做了三套專門針對低延遲一致性優化的協議棧,不用徹底推翻現有產業鏈就能升級。

CXL根據設備類型,分了三個協議子集,動態啟用:

CXL.io:基于PCIe改的,用來做設備發現、初始化、配置,還有非一致性數據傳輸,是所有CXL設備都必須支持的基礎。

CXL.cache:讓加速器能用低延遲緩存主機的系統內存,適合做細粒度的指令級協作,SmartNIC和近內存計算設備用得最多。

CXL.mem:讓主機CPU能用標準讀寫指令訪問加速器自帶的內存,是實現內存池化、內存分解的核心基礎。

按支持的協議組合,CXL設備又分成三類:

Type 1一般是加速器或者SmartNIC,只用CXL.io和CXL.cache,大多沒有本地大容量內存,靠訪問主機內存工作。

Type 2是通用加速器,比如GPU、FPGA,三個協議全都支持,既能訪問主機內存,也能讓主機訪問自己本地的HBM,能拼出完全對稱的一致性空間。

Type 3是內存擴展器,只用CXL.io和CXL.mem,就是給系統額外加DRAM或者持久化內存,解決數據中心內存閑置、帶寬不夠的問題。

最新的CXL 3.1已經支持基于端口的路由和多層交換,能把互聯范圍從機架內擴展到整個數據中心,理論上能支持幾千個節點共享同一個內存池。這種內存池化能力,現在被認為是能降低數據中心總體擁有成本的革命性技術。

5. 各家方案:不止NVLink和CXL,還有這些選擇

除了上面兩個最主流的,AMD、華為、Intel都有自己的方案,各有各的思路。

AMD Infinity Fabric

AMD給Instinct系列加速器做的Infinity Fabric,前身叫XGMI,思路和NVLink差不多,主打高點對點帶寬,還能和自己的CPU架構深度集成。

現在的MI300X,每顆芯片帶7條Infinity Fabric鏈路,每條能提供128GB/s的雙向帶寬,支持8顆GPU用環形或者網格拓撲互聯。

而MI300A作為全球首款AI+HPC用的APU,單芯片封裝里直接集成了Zen 4 CPU和CDNA 3 GPU,這些核心通過片內Infinity Fabric直接共享同一組HBM3顯存,徹底省掉了CPU和GPU之間數據拷貝的延遲,FP64矩陣運算理論峰值能到122.6TFLOPS,性能非常強。

華為HCCS和下一代UB架構

華為升騰芯片用的是自研的HCCS緩存一致性系統做卡間互聯,升騰910單顆芯片就有3條HCCS鏈路,總帶寬最高能到90GB/s,用環形拓撲能把4顆或者8顆加速器拼成一個緊密協作的計算節點。

在2025年的Hot Chips大會上,華為公布了下一代互聯技術:統一總線UB,目標是把CPU、NPU、內存、網絡接口的協議統一,省掉傳統協議轉換帶來的延遲。針對超大規模集群,還做了UB-Mesh拓撲,是一種分層的局部全連接網絡。


這個架構專門利用了大模型訓練里數據有局部性的特點,能做到比傳統網絡高100倍的帶寬,還能通過非線性成本控制大幅降低互聯開銷。目標是拼出支持百萬顆芯片協同的超級節點,還專門在光學鏈路上做了自動重試,解決光互聯誤碼率高的問題。

6. 開放聯盟:UALink要挑戰NVLink壟斷

2024年AMD、Intel、谷歌、微軟這些巨頭湊在一起搞了UALink聯盟,推出了開放的Ultra Accelerator Link協議,就是沖著打破NVIDIA壟斷來的。

UALink 1.0的目標就是做一個開放、高性能、低延遲的擴展互聯標準,復用以太網的物理層,但重新設計了上層協議,支持加速器之間直接讀寫內存。

我們直接對比一下NVLink 5.0:

指標

UALink 1.0 (2025)

NVLink 5.0 (Blackwell)

每通道速率

200 GT/s

約 224 Gbps

單端口帶寬 (x4)

800 Gbps

1.8 TB/s (每GPU總和)

最大集群規模

1,024 節點

576 節點

往返延遲

< 1 微秒

極低 (私有優化)

生態開放度

完全開放標準

封閉私有

UALink 2.0已經開始規劃網內計算技術,目的是減少加速器之間調度任務的控制消息,把更多帶寬留給實際數據傳輸。

雖然量產進度比NVLink慢,但有整個行業背書,未來肯定是大規模AI集群的一個重要選項

8. 底層基礎:先進封裝和芯粒互聯標準

現在芯粒技術越來越成熟,芯片互聯已經不只是電路板上的事,已經延伸到封裝內部了,封裝技術本身就決定了物理層互聯的密度和能效比。

現在主流先進封裝主要兩個路線:

技術

開發商

結構特點

相對成本

主要應用

CoWoS-S

TSMC

全尺寸硅中介層 (Silicon Interposer)

1.0x

NVIDIA H100, AMD MI300

CoWoS-L

TSMC

有機基板 + 局部硅橋 (LSI Bridge)

1.2x

NVIDIA Blackwell (超大封裝)

EMIB

Intel

嵌入式多芯片互聯橋

0.7x - 0.9x

Intel Xeon, 加速器, ASIC

臺積電的CoWoS現在占市場主導,但產能不夠,成本還高——硅中介層經常要占封裝總成本的一半以上。Intel的EMIB只在需要的地方嵌硅橋,省硅料,成本能降30%到40%,散熱和尺寸擴展性還更好,各有優勢。

要讓不同廠商的芯粒能拼在一起用,就得有通用的互聯標準,所以Intel、AMD、NVIDIA、臺積電、三星這些廠商一起搞了UCIe通用芯粒互聯標準。

UCIe基于CXL和PCIe的協議層,但物理層做得非常精簡,每比特能耗只有0.25到0.5pJ,比傳統的PCIe這類封裝外互聯低一個數量級。


先進封裝下,UCIe 1.0能做到1.35TB/s/mm2的帶寬密度,后續的2.0、3.0版本已經把速率提到了48GT/s和64GT/s,還支持3D堆疊封裝,以后AI芯片能在單封裝里集成更多計算核心和HBM堆棧。

9. 趨勢總結:互聯已經變成核心戰略資源

現在異構計算的互聯方案,已經呈現出幾個非常明確的趨勢:

第一,硬件一致性是準入門檻。不管是開放的CXL還是私有的NVLink-C2C,要做深度融合的異構系統,硬件級緩存一致性已經是必須的,沒有這個就做不了細粒度并行。

第二,以太網化和開放標準化是大方向。集群規模越來越大,要做到百萬卡級別,用以太網物理層做低成本擴展已經擋不住了,UALink這類開放標準起來之后,專有協議的市場空間會越來越受挑戰。

第三,光互聯很快就要落地。銅纜超過2到4米信號衰減就扛不住了,硅光子和共封裝光學已經從實驗室走向數據中心,現在華為等廠商已經開始在協議層做文章,解決光模塊誤碼率高的問題。

第四,封裝本身就是網絡。UCIe正在把整個封裝變成一個低延遲高速網絡,大芯片能通過芯粒拼接突破制造極限,以后會越來越普及。

總的來說,現在異構芯片的互聯早就不是單純的接插件了,已經變成整個系統架構里最重要的戰略資源。

選什么互聯方案,不只是看帶寬數字,還要看軟件生態成熟度、集群可擴展性,還有長期的總體擁有成本。

未來的計算系統,不會再有明確的處理器和存儲器的邊界,最后就是一張用高速低功耗互聯織出來的巨大計算網絡。

對于想做異構算力的團隊來說,早點摸清楚不同互聯方案的優缺點,選對路線比單純堆算力重要得多。

海王的終極形態,是讓你沒得選。

寫了這么多,劃個重點:

PCIe:公交車,哪都能去,但慢。適合當“備用方案”和“控制通道”。

NVLink:私人飛機,巨快,但貴且封閉。老黃的護城河。

CXL:共享單車+月老,想撮合所有芯片搞內存池化。理想很大,但受限于物理層。

UALink:巨頭們組隊干NVLink的產物。紙面很強,等落地。

UCIe:封裝內的膠水,讓芯粒像樂高一樣拼。未來所有超大芯片的標配。

光互聯:終極解決方案。等成本降下來,銅線就可以退休了。

趨勢也很明顯:一致性、以太網化、標準化、光進銅退。

未來的計算系統,不會再是“CPU在這里,GPU在那里,內存在那一邊”。而是一個由高速互聯織成的巨大網絡,計算、存儲、通信的邊界全部模糊掉。

從“計算為王”,到“互聯為王”。

時代變了。

文章來源于歪睿老哥,作者歪睿老哥

技術大會報名倒計時(免費午餐)

224G SerDes|GAN|FPGA|AI信號處理等


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
內塔尼亞胡計劃訪問匈牙利,匈當選總理:他入境就會被抓!

內塔尼亞胡計劃訪問匈牙利,匈當選總理:他入境就會被抓!

每日經濟新聞
2026-04-21 18:39:15
最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
龍珠,日本男子花160萬還原布爾瑪19,簡直太絕了!

龍珠,日本男子花160萬還原布爾瑪19,簡直太絕了!

動漫心世界
2026-04-21 17:33:31
女子21萬全款購車后發現該車為“展車”,4S店稱“工作失誤” 當地市監部門已介入

女子21萬全款購車后發現該車為“展車”,4S店稱“工作失誤” 當地市監部門已介入

紅星新聞
2026-04-21 14:51:54
多地出臺政策,鼓勵技校招收大學畢業生

多地出臺政策,鼓勵技校招收大學畢業生

21世紀經濟報道
2026-04-21 09:00:05
特朗普已做好開戰準備?王毅曾警告:中美一旦沖突,結局只剩一個

特朗普已做好開戰準備?王毅曾警告:中美一旦沖突,結局只剩一個

蜉蝣說
2026-04-21 11:23:11
鄭麗文成功了!國民黨3位元老出山,朱立倫的反撲計劃宣告失敗

鄭麗文成功了!國民黨3位元老出山,朱立倫的反撲計劃宣告失敗

米果說識
2026-04-21 16:58:00
我和 AI 搭子工作了一周,再也回不去了

我和 AI 搭子工作了一周,再也回不去了

愛范兒
2026-04-21 17:31:39
虧慘了!車管所正式提醒,2026 新規后只買交強加三者險行不通

虧慘了!車管所正式提醒,2026 新規后只買交強加三者險行不通

夜深愛雜談
2026-04-21 07:42:53
震驚!上海成人展身著短裙絲襪女性從業者,被質問是否遭男性凝視

震驚!上海成人展身著短裙絲襪女性從業者,被質問是否遭男性凝視

火山詩話
2026-04-21 10:13:36
港媒曝張曼玉“五官徹底分離”,61歲生圖惹爭議,倆部位面目全非

港媒曝張曼玉“五官徹底分離”,61歲生圖惹爭議,倆部位面目全非

冷紫葉
2026-04-20 17:12:17
“當場就吐了”,山姆一網紅產品被曝吃出蛆蟲!市民稱“門店很傲慢”

“當場就吐了”,山姆一網紅產品被曝吃出蛆蟲!市民稱“門店很傲慢”

深圳晚報
2026-04-21 15:01:34
追到1-1!華子30+10森林狼19分逆轉掘金 約基奇24+15+8穆雷30分

追到1-1!華子30+10森林狼19分逆轉掘金 約基奇24+15+8穆雷30分

醉臥浮生
2026-04-21 13:26:05
勞務派遣在央國企殺瘋了!

勞務派遣在央國企殺瘋了!

燈錦年
2026-04-21 17:56:52
恒大集團許家印牽連的12個女人

恒大集團許家印牽連的12個女人

地產微資訊
2026-04-21 17:02:14
笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發給老師

笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發給老師

火山詩話
2026-04-21 09:46:21
生姜立大功?美國研究發現:生姜可在48小時內清除50%老化細胞?

生姜立大功?美國研究發現:生姜可在48小時內清除50%老化細胞?

芹姐說生活
2026-04-21 14:45:08
注意!6月1日起大醫院不再隨意接診,看病不按規矩可能白跑

注意!6月1日起大醫院不再隨意接診,看病不按規矩可能白跑

夜深愛雜談
2026-04-21 07:45:20
A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

另子維愛讀史
2026-04-21 19:44:48
余承東:我們成本扛不住了,希望大家早點購買

余承東:我們成本扛不住了,希望大家早點購買

映射生活的身影
2026-04-20 21:53:17
2026-04-21 21:43:00
EETOP半導體社區 incentive-icons
EETOP半導體社區
國內著名的電子工程師社區
7495文章數 15648關注度
往期回顧 全部

科技要聞

創造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

媒體:急于擺脫對華稀土依賴 美企28億美元在巴西搶礦

頭條要聞

媒體:急于擺脫對華稀土依賴 美企28億美元在巴西搶礦

體育要聞

62歲,成為中國足壇最火的人

娛樂要聞

周潤發時隔16年再賣樓,變現數億資產

財經要聞

現實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

時尚
健康
本地
手機
公開課

浪姐七年,被這位姐姐掀桌了

干細胞抗衰4大誤區,90%的人都中招

本地新聞

春色滿城關不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

手機要聞

OPPO Find X9 Ultra旗艦手機發布,7499元起

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版