你沒想到吧,AI這波大浪,讓沉寂許久的網絡也跟著浪起來了,現在互聯網大廠都在卷HPN網絡。
所謂HPN,其實就是高性能網絡(High Performance Network),對比HPC高性能計算,你從字面意思就能理解HPN想干啥。
![]()
大廠為什么要卷HPN?
首先,網工們熟悉的TCP,在GPU并行計算的世界里已經徹底被拋棄。
并行計算需要網絡把分布式的內存、GPU顯存也給并行起來,會丟包的傳統以太網、能夠自適應丟包傳輸的TCP統統都是不合格的。
必須是不丟包的、能夠繞過內核冗長協議棧的才能把GPU昂貴的算力利用起來。
很湊巧,最好的GPU和最適配的網絡竟然出自同一家,這樣的網絡就是IB。
![]()
[又是“那個男人”]
用IB很省事,只需要銀子夠就行,搞成N記全家桶,后面基本上啥事都不用管了。
可是這樣一來,網工的價值和尊嚴簡直就是被按在地上摩擦,還不如當個采購去壓價。
是可忍孰不可忍啊。
![]()
所以,大廠網工們首先嗅到了機會的味道,創造一個可以替代IB的命題,自己的價值不就出來了嗎?
大家都希望給決策者們一個明確的信號,IB是可以被平替的,而且只是個工程問題。
當然,大廠決策者也不傻,不會光給試驗場讓網工刷存在感,畢竟IB是封閉的,價格又那么刀,自家牛馬如果有實力搞平替,那么順水推舟是明智之舉。
一邊是業務倒逼,一邊是網工自驅,大廠HPN就這樣卷起來了。
![]()
HPN的up與out之戰
具體卷成什么樣了呢?
目前的HPN,已經分化成了用于超節點互聯的scale-up和代替IB互聯的scale-out。
其實這也是N記定義并引領的↓
▋Scale-up網絡
一機8卡的GPU內部nvl互聯叫scale-up,從NVL72開始,又把nvl技術從機內拓展到機柜內,整機柜都用scale-up網絡互聯的GPU就是超節點superpod。
這個變化就像是網工們熟悉的盒式交換機和機框交換機一樣,機框交換機那必定是交換機王冠上的明珠。
超節點對模型推理非常有幫助,因為內存語義通信的范圍從8卡變成了幾十上百卡嘛。
![]()
[國內外廠商的“超節點”們]
Scale-up中算力卡是內存出IO,因此scale-up基本上就是算力卡說了算,說到技術原理基本上是大同小異,都是在抄nvl的作業↓
①物理層
都是以太網的serdes,產業化最好,供應最好,開放程度最高;
②鏈路層
也用以太網的封裝結構,這層和物理層耦合密切,自己搞一套和整個產業界對抗,是誰給你自信;
③網絡層和和傳輸層
這里就有門道了,通常會有上下游credit分發和回收流控、固定信元長度、鏈路層重傳之類的高級玩意兒。
目的就是高仿一個CPU無損訪問內存(CPU訪問內存如果異常,就是常見的藍屏、夯機等致命故障)的網絡,區別是各家都會有些實現上的細節差異;
④控制面
N家用的IB控制面,其余都是BGP這個最后的路由集大成者;
⑤標準和供應
UALink是一條路線,主要是N家的對手們在干。
大善人阿B,提供的SUE解決方案(提供網絡,未來可能也提供算力卡IO)還能支持魔改;
菊花的UB,也開放了,國內外還有eth+和eth×開放體系……
百家爭鳴吧,就看誰能先搶到一個有影響力的應用,然后擴大份額。
對強算力卡廠商而言,scale-up是不可商量的禁臠,是算力卡集群不可分割的一部分。
小算力卡廠商則身段柔軟,無論是誰家的scale-up都能適配,也有自己的方案去小廠或者傳統行業客戶那里……
就像是路由收斂一樣,最終的方案一定會收斂。
▋Scale-out網絡
GPU通過pcie連接網卡,網卡再跑RDMA(不管IB還是RoCE),這種模式就是Scale-out。
兩年前,Scale-out也是HPN領域的小甜甜,但自從超節點出來后,小甜甜就變成牛夫人。
原因不只是技術,Scale-out火是因為scaling-law。
這個law讓所有玩家都覺得只要能融資買足夠大的GPU算力集群,訓練出一個超級牛×的模型就能交差了。
但DeepSeek讓這些law的信徒們有點失去信仰,道心破碎的業者們也被逼去做推理賣token,所以焦點就轉移到Scale-up。
當然,真正有追求的大廠們必須要擁有自己的模型,這個是玩AI的底牌,自然也是要繼續研究scale-out的。
同樣的,Scale-out把N記作為抄作業對象就可以了↓
PCIe SW直接集成到網卡,GPU、CPU、NVMe都是掛在網卡上的,不需要看主板臉色了,也不用看CPU臉色了;
網卡直接支持多個網絡接口,實現多平面,網卡可以在多個網絡接口上實現動態LB,網卡對應用層只提供1個RDMA IP,屏蔽多個網絡接口;
網卡接收上支持亂序,只要是多平面、多路徑的,亂序是基操,當然借用一下iWarp的DDP也是很覺的,做工程架構嘛,本身就是找成熟的工藝組裝的事情,并不丟人;
交換機支持逐包均勻地噴射在多個ECMP鏈路上,也可以按動態權重噴射;
新的協議棧都可帶良好的CC,可以容忍丟包,可以拋棄缺陷明顯的PFC,當然scale-out不丟包是更好了。
Scale-out也是各個大廠中非常熱鬧的話題,幾乎都有自己的魔改版本RoCE,運行在自己的DPU或者智能網卡上。
這個作業抄的是Google的TPU和OCS系統,TPU自帶DPU IO,OCS是純光交換。
在這里就不評價各個大廠同行,誰家做得好誰家不好,因為我說好不好,一點也不客觀,絲毫影響不了他們的績效,同行的績效而是靠戰功↓
?這個CC好厲害,有沒有論文,有沒有sigcomm
?自己的CC算法,能不能運行在CX-7網卡上啊
?能不能不用CX-7網卡,也能跑得和CX-7一樣酣暢淋漓
?能不能別老用實驗室數據啊,現網有沒有用起來
?現網用的量怎么樣,占比如何,頭牌應用有沒有主力用這個
?頭牌應用能不能打
自上至下,「戰功」依次遞增。
從技術角度來看,Out和Up也有共同的地方↓
Lossy RDMA(允許網絡丟包的RDMA),就是把煩人的PFC干掉,交換機頂多跑個ECN;
更有甚者,交換機啥都不跑,由端側自己測量時延變化。
總之,CC和交換機無關,漂亮活兒都是端側網卡的事情。
從無PFC、支持網絡丟包這個技術點出發,設計這套CC的網工自然而然就想把scale-out網絡和傳統的dcn網絡合并了,這個想法我放到最后一節了。
Scale-out在自帶網絡的強算力卡廠商那里,必然是賣方的囊中之物,大廠網工們只能去拿捏那些沒有網絡的小算力卡或者自研算力卡。
技術評價指標:
在一個常丟包網絡,一個新的技術評價體系,在a%丟包率的網絡中達到b%的傳輸效率,a+b越接近100,就說明這個魔改的RoCE協議棧更優秀。
Scale-out和機頭網絡能合并嗎
Scale-out和機頭dcn網絡合并,這個天才般的想法現實中并沒有真實地發生。
客觀技術原因是scale-out所需要的帶寬和收斂比和dcn帶寬并不一致,如果dcn要硬做,變化帶來的適配代價會遠超收益。
但機頭dcn網絡也確實有rdma的需求:云存儲和AI推理。
先說存儲↓
宿主機提供一個云磁盤掛載到云主機或者容器,宿主機訪問云存儲集群是underlay。
underlay跑rdma就是干掉內核tcp棧的處理時延,收益非常明確,也是應用最早的rdma。
云主機或者容器訪問云盤時是跑在overlay里,這就要求魔改的RoCE跑在Overlay里,這個是近期的熱點,大廠最近喜歡在這里吹點nb。
再說AI推理↓
自從PD分離和AF分離被驗證是有效的后,不同任務可以用不同的算力卡。
不同任務之間傳遞的的是KV,KV存儲在調整存儲集群如HDFS里,任務運行在容器里。
所以容器去訪問HDFS的KV,天然就是overlay rdma場景,這也推動了dcn內rdma的普及。
dcn內的rdma將會是各路英雄們大秀身段的舞臺,因為這里沒有算力卡綁定,是網工們最穩定的基本盤。
現在明確的需求來了,就看自己能不能接住,并且率先拿到階段性驗證成果、擴大驗證贏得內部賽馬、外部PR同步跟上……
拜將封侯時不我待
![]()
HPN最初是從HPC的RDMA網絡開始,進入大廠變成是IB和RoCE之爭,隨著NVL擺脫機框的束縛殺向機柜變成了scale-up網絡。
原有的RDMA網絡矮化成了scale-out網絡,scale-out網絡棧又入侵(賦能)了dcn,并在dcn領域得到了自由設計的機會。
也有網工想把這幾種協議棧融合在一起的,還是看業務結果吧,路要一步一步走,貪天之功人盡想,眼前之福勿相忘。
我們可以把最終的評價標準撂在這面:老外講de facto,老中講成王敗寇,其實就是看應用量:
①你出來的HPN在大廠內部的覆蓋率怎么樣,如果10%都不到,你覺得自己是頭猛虎還是個小卡拉咪?
②什么模型訓練或者推理跑在你的HPN上,是跑個自娛自樂的玩具,還是跑個日活上百萬、千萬、過億的應用?
達不成這2個標準,無論你怎么吹我這技術體系這好那好,都是虛的。
![]()
關于作者
鐵籠牛馬,一個誤入江湖20多年的老網工,在鐵籠中享受著互聯工業技術的變遷,為了讓網工們也能獲得這份“享受”,他決定寫點什么。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.