網易首頁 > 網易號 > 正文申請入駐

互聯網大廠的高性能網絡，簡直卷上天了

2026-01-14 17:58:17　來源: AI全球總部

北京舉報

分享至

你沒想到吧，AI這波大浪，讓沉寂許久的網絡也跟著浪起來了，現在互聯網大廠都在卷HPN網絡。

所謂HPN，其實就是高性能網絡（High Performance Network），對比HPC高性能計算，你從字面意思就能理解HPN想干啥。

大廠為什么要卷HPN？

首先，網工們熟悉的TCP，在GPU并行計算的世界里已經徹底被拋棄。

并行計算需要網絡把分布式的內存、GPU顯存也給并行起來，會丟包的傳統以太網、能夠自適應丟包傳輸的TCP統統都是不合格的。

必須是不丟包的、能夠繞過內核冗長協議棧的才能把GPU昂貴的算力利用起來。

很湊巧，最好的GPU和最適配的網絡竟然出自同一家，這樣的網絡就是IB。

[又是“那個男人”]

用IB很省事，只需要銀子夠就行，搞成N記全家桶，后面基本上啥事都不用管了。

可是這樣一來，網工的價值和尊嚴簡直就是被按在地上摩擦，還不如當個采購去壓價。

是可忍孰不可忍啊。

所以，大廠網工們首先嗅到了機會的味道，創造一個可以替代IB的命題，自己的價值不就出來了嗎？

大家都希望給決策者們一個明確的信號，IB是可以被平替的，而且只是個工程問題。

當然，大廠決策者也不傻，不會光給試驗場讓網工刷存在感，畢竟IB是封閉的，價格又那么刀，自家牛馬如果有實力搞平替，那么順水推舟是明智之舉。

一邊是業務倒逼，一邊是網工自驅，大廠HPN就這樣卷起來了。

HPN的up與out之戰

具體卷成什么樣了呢？

目前的HPN，已經分化成了用于超節點互聯的scale-up和代替IB互聯的scale-out。

其實這也是N記定義并引領的↓

▋Scale-up網絡

一機8卡的GPU內部nvl互聯叫scale-up，從NVL72開始，又把nvl技術從機內拓展到機柜內，整機柜都用scale-up網絡互聯的GPU就是超節點superpod。

這個變化就像是網工們熟悉的盒式交換機和機框交換機一樣，機框交換機那必定是交換機王冠上的明珠。

超節點對模型推理非常有幫助，因為內存語義通信的范圍從8卡變成了幾十上百卡嘛。

[國內外廠商的“超節點”們]

Scale-up中算力卡是內存出IO，因此scale-up基本上就是算力卡說了算，說到技術原理基本上是大同小異，都是在抄nvl的作業↓

①物理層

都是以太網的serdes，產業化最好，供應最好，開放程度最高；

②鏈路層

也用以太網的封裝結構，這層和物理層耦合密切，自己搞一套和整個產業界對抗，是誰給你自信；

③網絡層和和傳輸層

這里就有門道了，通常會有上下游credit分發和回收流控、固定信元長度、鏈路層重傳之類的高級玩意兒。

目的就是高仿一個CPU無損訪問內存（CPU訪問內存如果異常，就是常見的藍屏、夯機等致命故障）的網絡，區別是各家都會有些實現上的細節差異；

④控制面

N家用的IB控制面，其余都是BGP這個最后的路由集大成者；

⑤標準和供應

UALink是一條路線，主要是N家的對手們在干。

大善人阿B，提供的SUE解決方案（提供網絡，未來可能也提供算力卡IO）還能支持魔改；

菊花的UB，也開放了，國內外還有eth+和eth×開放體系……

百家爭鳴吧，就看誰能先搶到一個有影響力的應用，然后擴大份額。

對強算力卡廠商而言，scale-up是不可商量的禁臠，是算力卡集群不可分割的一部分。

小算力卡廠商則身段柔軟，無論是誰家的scale-up都能適配，也有自己的方案去小廠或者傳統行業客戶那里……

就像是路由收斂一樣，最終的方案一定會收斂。

▋Scale-out網絡

GPU通過pcie連接網卡，網卡再跑RDMA（不管IB還是RoCE），這種模式就是Scale-out。

兩年前，Scale-out也是HPN領域的小甜甜，但自從超節點出來后，小甜甜就變成牛夫人。

原因不只是技術，Scale-out火是因為scaling-law。

這個law讓所有玩家都覺得只要能融資買足夠大的GPU算力集群，訓練出一個超級牛×的模型就能交差了。

但DeepSeek讓這些law的信徒們有點失去信仰，道心破碎的業者們也被逼去做推理賣token，所以焦點就轉移到Scale-up。

當然，真正有追求的大廠們必須要擁有自己的模型，這個是玩AI的底牌，自然也是要繼續研究scale-out的。

同樣的，Scale-out把N記作為抄作業對象就可以了↓

PCIe SW直接集成到網卡，GPU、CPU、NVMe都是掛在網卡上的，不需要看主板臉色了，也不用看CPU臉色了；
網卡直接支持多個網絡接口，實現多平面，網卡可以在多個網絡接口上實現動態LB，網卡對應用層只提供1個RDMA IP，屏蔽多個網絡接口；
網卡接收上支持亂序，只要是多平面、多路徑的，亂序是基操，當然借用一下iWarp的DDP也是很覺的，做工程架構嘛，本身就是找成熟的工藝組裝的事情，并不丟人；
交換機支持逐包均勻地噴射在多個ECMP鏈路上，也可以按動態權重噴射；
新的協議棧都可帶良好的CC，可以容忍丟包，可以拋棄缺陷明顯的PFC，當然scale-out不丟包是更好了。

Scale-out也是各個大廠中非常熱鬧的話題，幾乎都有自己的魔改版本RoCE，運行在自己的DPU或者智能網卡上。

這個作業抄的是Google的TPU和OCS系統，TPU自帶DPU IO，OCS是純光交換。

在這里就不評價各個大廠同行，誰家做得好誰家不好，因為我說好不好，一點也不客觀，絲毫影響不了他們的績效，同行的績效而是靠戰功↓

?這個CC好厲害，有沒有論文，有沒有sigcomm
?自己的CC算法，能不能運行在CX-7網卡上啊
?能不能不用CX-7網卡，也能跑得和CX-7一樣酣暢淋漓
?能不能別老用實驗室數據啊，現網有沒有用起來
?現網用的量怎么樣，占比如何，頭牌應用有沒有主力用這個
?頭牌應用能不能打

自上至下，「戰功」依次遞增。

從技術角度來看，Out和Up也有共同的地方↓

Lossy RDMA（允許網絡丟包的RDMA），就是把煩人的PFC干掉，交換機頂多跑個ECN；

更有甚者，交換機啥都不跑，由端側自己測量時延變化。

總之，CC和交換機無關，漂亮活兒都是端側網卡的事情。

從無PFC、支持網絡丟包這個技術點出發，設計這套CC的網工自然而然就想把scale-out網絡和傳統的dcn網絡合并了，這個想法我放到最后一節了。

Scale-out在自帶網絡的強算力卡廠商那里，必然是賣方的囊中之物，大廠網工們只能去拿捏那些沒有網絡的小算力卡或者自研算力卡。

技術評價指標：

在一個常丟包網絡，一個新的技術評價體系，在a%丟包率的網絡中達到b%的傳輸效率，a+b越接近100，就說明這個魔改的RoCE協議棧更優秀。

Scale-out和機頭網絡能合并嗎

Scale-out和機頭dcn網絡合并，這個天才般的想法現實中并沒有真實地發生。

客觀技術原因是scale-out所需要的帶寬和收斂比和dcn帶寬并不一致，如果dcn要硬做，變化帶來的適配代價會遠超收益。

但機頭dcn網絡也確實有rdma的需求：云存儲和AI推理。

先說存儲↓

宿主機提供一個云磁盤掛載到云主機或者容器，宿主機訪問云存儲集群是underlay。

underlay跑rdma就是干掉內核tcp棧的處理時延，收益非常明確，也是應用最早的rdma。

云主機或者容器訪問云盤時是跑在overlay里，這就要求魔改的RoCE跑在Overlay里，這個是近期的熱點，大廠最近喜歡在這里吹點nb。

再說AI推理↓

自從PD分離和AF分離被驗證是有效的后，不同任務可以用不同的算力卡。

不同任務之間傳遞的的是KV，KV存儲在調整存儲集群如HDFS里，任務運行在容器里。

所以容器去訪問HDFS的KV，天然就是overlay rdma場景，這也推動了dcn內rdma的普及。

dcn內的rdma將會是各路英雄們大秀身段的舞臺，因為這里沒有算力卡綁定，是網工們最穩定的基本盤。

現在明確的需求來了，就看自己能不能接住，并且率先拿到階段性驗證成果、擴大驗證贏得內部賽馬、外部PR同步跟上……

拜將封侯時不我待

HPN最初是從HPC的RDMA網絡開始，進入大廠變成是IB和RoCE之爭，隨著NVL擺脫機框的束縛殺向機柜變成了scale-up網絡。

原有的RDMA網絡矮化成了scale-out網絡，scale-out網絡棧又入侵（賦能）了dcn，并在dcn領域得到了自由設計的機會。

也有網工想把這幾種協議棧融合在一起的，還是看業務結果吧，路要一步一步走，貪天之功人盡想，眼前之福勿相忘。

我們可以把最終的評價標準撂在這面：老外講de facto，老中講成王敗寇，其實就是看應用量：

①你出來的HPN在大廠內部的覆蓋率怎么樣，如果10%都不到，你覺得自己是頭猛虎還是個小卡拉咪？
②什么模型訓練或者推理跑在你的HPN上，是跑個自娛自樂的玩具，還是跑個日活上百萬、千萬、過億的應用？

達不成這2個標準，無論你怎么吹我這技術體系這好那好，都是虛的。

關于作者

鐵籠牛馬，一個誤入江湖20多年的老網工，在鐵籠中享受著互聯工業技術的變遷，為了讓網工們也能獲得這份“享受”，他決定寫點什么。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.