今天的大模型,早就不是“一張顯卡跑天下”的時(shí)代了。
當(dāng)模型參數(shù)從幾十億、幾百億,卷到千億、萬(wàn)億級(jí)別時(shí),真正的問(wèn)題已經(jīng)不再是:
“單塊 GPU 有多強(qiáng)?”
而是:
“幾百?gòu)垺浊?GPU,能不能像一臺(tái)機(jī)器一樣協(xié)同工作?”
這才是 AI 基礎(chǔ)設(shè)施的核心戰(zhàn)場(chǎng)。
你可以把 GPU 想象成工人。一個(gè)工人再?gòu)?qiáng),也搬不動(dòng)一座山。真正的難點(diǎn),是讓幾百個(gè)工人站在同一個(gè)工地上,不搶路、不撞車、不等人、不空轉(zhuǎn)。
英偉達(dá)的 SuperPOD,本質(zhì)上就是為這個(gè)問(wèn)題設(shè)計(jì)的。
它不是簡(jiǎn)單地把 GPU 堆在機(jī)房里,而是通過(guò) NVLink、NVSwitch、InfiniBand、RDMA 等一整套互聯(lián)技術(shù),把很多 GPU 編織成一個(gè)巨大的計(jì)算網(wǎng)絡(luò)。
這篇文章,我們沿著英偉達(dá)三代架構(gòu)往上看:
第一代:H100,如何把 256 張 GPU 連起來(lái)。
第二代:GH200,如何把 CPU 和 GPU 更緊地綁在一起。
第三代:GB200 NVL72,如何把一個(gè)機(jī)柜變成一臺(tái)“超級(jí) GPU”。
看懂這條線,你就能理解:為什么 AI 算力競(jìng)爭(zhēng),已經(jīng)從“芯片戰(zhàn)爭(zhēng)”升級(jí)成了“系統(tǒng)戰(zhàn)爭(zhēng)”。
一、H100 SuperPOD:先把 256 張 GPU 變成一個(gè)團(tuán)隊(duì)
先從 H100 說(shuō)起。
H100 是英偉達(dá) Hopper 架構(gòu)時(shí)代的代表產(chǎn)品,也是這一輪大模型訓(xùn)練浪潮里的核心硬件之一。
但 H100 真正厲害的地方,不只是單卡算力,而是它可以被組織起來(lái)。
在 DGX H100 系統(tǒng)里,一臺(tái)服務(wù)器內(nèi)部通常有 8 張 H100 GPU。
這 8 張 GPU 之間,并不是靠普通 PCIe 慢悠悠地交換數(shù)據(jù),而是通過(guò) NVLink 和 NVSwitch 進(jìn)行高速互聯(lián)。
![]()
可以這樣理解:
NVLink 是 GPU 之間的高速公路。
NVSwitch 是高速公路上的立交橋。
![]()
有了它,8 張 GPU 之間可以高帶寬、低延遲地互相通信。對(duì)于大模型訓(xùn)練來(lái)說(shuō),這件事極其重要。
因?yàn)橛?xùn)練一個(gè)大模型時(shí),參數(shù)、梯度、激活值并不會(huì)老老實(shí)實(shí)待在一張卡里。它們會(huì)在 GPU 之間頻繁流動(dòng)。通信速度慢,GPU 就會(huì)干等。GPU 一干等,昂貴的算力就變成了機(jī)房里的暖氣片。
這也是為什么,在 AI 超算里,“通信能力”幾乎和“計(jì)算能力”同樣重要。
到了 DGX H100 SuperPOD,英偉達(dá)進(jìn)一步把這種互聯(lián)從“服務(wù)器內(nèi)部”擴(kuò)展到了“服務(wù)器之間”。
一臺(tái) DGX H100 是 8 張 GPU。
32 臺(tái) DGX H100,就是 256 張 GPU。
這 256 張 GPU 通過(guò) NVLink Switch System 連接起來(lái),就形成了一個(gè) H100 SuperPOD。
![]()
這里的關(guān)鍵變化是:過(guò)去 NVLink 主要解決單機(jī)內(nèi)部 GPU 互聯(lián),而 H100 SuperPOD 開(kāi)始把 NVLink 的能力推向跨節(jié)點(diǎn)連接。
也就是說(shuō),英偉達(dá)不再滿足于讓一臺(tái)服務(wù)器內(nèi)部的 8 張 GPU 高速通信,而是希望 32 臺(tái)服務(wù)器里的 256 張 GPU,也能盡可能像一個(gè)整體一樣協(xié)同工作。
這就是 SuperPOD 的第一層邏輯:
不是賣 GPU,而是賣“GPU 集群的組織方式”。
不過(guò),H100 SuperPOD 也不是完美無(wú)缺。
它的瓶頸在于:?jiǎn)闻_(tái) DGX H100 內(nèi)部的 GPU 總帶寬很高,但跨節(jié)點(diǎn)連接資源仍然有限。
也就是說(shuō),服務(wù)器內(nèi)部像城市內(nèi)環(huán),車道寬、紅綠燈少;服務(wù)器之間像跨城高速,雖然很快,但車道數(shù)沒(méi)那么奢侈。
所以 H100 這一代的 SuperPOD,已經(jīng)完成了從“單機(jī) GPU”到“256 GPU 集群”的飛躍,但它仍然帶著一個(gè)問(wèn)題:
當(dāng) GPU 數(shù)量繼續(xù)增加,網(wǎng)絡(luò)還能不能撐住?
這就引出了 GH200。
二、GH200 SuperPOD:CPU 和 GPU 不再是鄰居,而是室友
到了 GH200,英偉達(dá)做了一個(gè)很重要的改變:
把 Grace CPU 和 Hopper GPU 放在一起,做成 Grace Hopper Superchip。
簡(jiǎn)單說(shuō),GH200 不是單純的一張 GPU,而是一個(gè) CPU + GPU 的超級(jí)芯片組合。
過(guò)去,CPU 和 GPU 更像住在同一個(gè)小區(qū)的鄰居。它們可以互相訪問(wèn),但中間要經(jīng)過(guò) PCIe 等通道。數(shù)據(jù)搬來(lái)搬去,總有開(kāi)銷。
而 GH200 的思路是:
別當(dāng)鄰居了,直接住一屋。
Grace CPU 和 Hopper GPU 之間通過(guò) NVLink-C2C 高速互聯(lián),CPU 和 GPU 的關(guān)系變得更緊密。
![]()
這對(duì) AI 和 HPC 工作負(fù)載有很大意義。
很多任務(wù)不是純計(jì)算問(wèn)題,而是“計(jì)算 + 內(nèi)存 + 數(shù)據(jù)搬運(yùn)”的綜合問(wèn)題。尤其是大模型訓(xùn)練、推薦系統(tǒng)、圖計(jì)算、科學(xué)計(jì)算里,數(shù)據(jù)規(guī)模大,訪問(wèn)模式復(fù)雜。如果 CPU 和 GPU 之間的通道太窄,就會(huì)形成“算力在前面狂奔,數(shù)據(jù)在后面騎共享單車”的尷尬局面。
GH200 要解決的,就是這個(gè)問(wèn)題。
在 DGX GH200 SuperPOD 中,英偉達(dá)進(jìn)一步使用 NVLink Switch System,把多個(gè) GH200 連接起來(lái),形成更大的 GPU 域。
![]()
這和 H100 SuperPOD 的差別在于:
H100 更像是把很多 GPU 服務(wù)器連起來(lái)。
GH200 則是先把 CPU 和 GPU 深度融合,再把這些融合后的超級(jí)芯片連起來(lái)。
這一步很關(guān)鍵。
因?yàn)?AI 超算的競(jìng)爭(zhēng),已經(jīng)不是單純比 GPU 核心數(shù)量,而是比整個(gè)系統(tǒng)的數(shù)據(jù)流動(dòng)能力。
數(shù)據(jù)能不能快速到達(dá) GPU?
GPU 之間能不能快速交換結(jié)果?
CPU 能不能高效參與調(diào)度和內(nèi)存管理?
這些問(wèn)題,決定了昂貴 GPU 的利用率。
一臺(tái) AI 超算最怕的不是沒(méi)有 GPU,而是 GPU 在等數(shù)據(jù)。
GPU 一等,老板心碎,電表狂笑。
三、GH200 NVL32:把“節(jié)點(diǎn)”做大,把機(jī)柜變成計(jì)算單元
GH200 之后,還有一個(gè)很有意思的形態(tài):GH200 NVL32。
它的思路是把 32 個(gè) GH200 組織在一個(gè)更緊密的機(jī)柜級(jí)系統(tǒng)里。
如果說(shuō) DGX H100 的基本單元是一臺(tái) 8 GPU 服務(wù)器,那么 GH200 NVL32 的思路,就是把基本單元進(jìn)一步放大。
![]()
過(guò)去我們討論 AI 集群,常常是:
一臺(tái)服務(wù)器有幾張卡?
一個(gè)機(jī)柜有幾臺(tái)服務(wù)器?
一個(gè)集群有多少個(gè)機(jī)柜?
但到了 GH200 NVL32 這一類設(shè)計(jì),機(jī)柜本身開(kāi)始變成一個(gè)重要的計(jì)算單元。
這背后的趨勢(shì)很清楚:
AI 系統(tǒng)正在從“服務(wù)器級(jí)設(shè)計(jì)”走向“機(jī)柜級(jí)設(shè)計(jì)”。
為什么?
因?yàn)榇竽P吞罅恕?/p>
如果還按照傳統(tǒng)服務(wù)器思路,一臺(tái)一臺(tái)服務(wù)器拼起來(lái),通信路徑會(huì)越來(lái)越長(zhǎng),網(wǎng)絡(luò)拓?fù)鋾?huì)越來(lái)越復(fù)雜,延遲和帶寬都會(huì)成為瓶頸。
所以英偉達(dá)開(kāi)始把更多 GPU 放進(jìn)一個(gè)更緊密的 NVLink 域里,讓它們?cè)谖锢砭嚯x和通信拓?fù)渖细咏?/p>
你可以把它理解成城市規(guī)劃:
早期是一個(gè)個(gè)小區(qū),各自獨(dú)立。
后來(lái)修路,把小區(qū)連成城區(qū)。
再后來(lái),干脆重新規(guī)劃,把住宅、地鐵、商業(yè)、學(xué)校一起設(shè)計(jì)。
H100 是把 GPU 連起來(lái)。
GH200 是把 CPU 和 GPU 融合起來(lái)。
GH200 NVL32 則是把機(jī)柜變成更大的計(jì)算單元。
這條路繼續(xù)往前走,就到了 GB200 NVL72。
四、GB200 NVL72:一個(gè)機(jī)柜,就是一臺(tái)“巨型 GPU”
GB200 是 Blackwell 時(shí)代的核心平臺(tái)。
和 GH200 不同,GB200 的結(jié)構(gòu)更激進(jìn):
一個(gè) Grace CPU 搭配兩個(gè) Blackwell GPU。
也就是說(shuō),一個(gè) GB200 Superchip 里面,是 1 個(gè) CPU + 2 個(gè) GPU 的組合。
到了 GB200 NVL72,英偉達(dá)直接把 36 個(gè) Grace CPU 和 72 個(gè) Blackwell GPU 放進(jìn)一個(gè)液冷機(jī)柜級(jí)系統(tǒng)里。
![]()
這就是 NVL72 名字里的 “72”:
72 張 Blackwell GPU。
這已經(jīng)不是普通服務(wù)器概念了。
這更像是一臺(tái)機(jī)柜大小的超級(jí)計(jì)算機(jī)。
更關(guān)鍵的是,英偉達(dá)希望這 72 張 GPU 通過(guò) NVLink 和 NVLink Switch System 組成一個(gè)巨大的 NVLink 域,讓它們?cè)谲浖屯ㄐ艑用娓褚粋€(gè)整體。
![]()
這對(duì)大模型尤其重要。
因?yàn)榇竽P驮絹?lái)越大,單卡顯存不夠,多卡顯存也不一定夠。真正需要的是一個(gè)巨大的、低延遲、高帶寬的共享計(jì)算空間。
如果 72 張 GPU 能更緊密地協(xié)同,它就不再只是“72 張卡”,而更像是一塊被拆成 72 個(gè)部分的巨型 GPU。
這就是 GB200 NVL72 最有想象力的地方。
它不是在回答:
“單張 GPU 多強(qiáng)?”
而是在回答:
“能不能把一個(gè)機(jī)柜變成一塊超級(jí)芯片?”
這也是為什么英偉達(dá)強(qiáng)調(diào) rack-scale architecture,也就是機(jī)柜級(jí)架構(gòu)。
以前的服務(wù)器設(shè)計(jì),是把芯片裝進(jìn)服務(wù)器。
現(xiàn)在的 AI 服務(wù)器設(shè)計(jì),是把整個(gè)機(jī)柜當(dāng)成芯片來(lái)設(shè)計(jì)。
芯片、封裝、板卡、服務(wù)器、機(jī)柜、網(wǎng)絡(luò)、液冷、電源、軟件調(diào)度,全部一起協(xié)同。
這已經(jīng)不是單點(diǎn)創(chuàng)新了,而是系統(tǒng)工程。
五、從 72 到 576:GB200 SuperPOD 的真正野心
如果說(shuō) GB200 NVL72 是一個(gè)機(jī)柜里的 72 GPU 系統(tǒng),那么 GB200 SuperPOD 要做的事情,就是把多個(gè) NVL72 進(jìn)一步連接起來(lái)。
按照公開(kāi)資料,一個(gè) GB200 SuperPOD 可以擴(kuò)展到 576 張 Blackwell GPU。
![]()
576 是什么概念?
它不是把 576 張卡簡(jiǎn)單塞進(jìn)機(jī)房。
它的難點(diǎn)在于:
這些 GPU 之間如何通信?
數(shù)據(jù)如何同步?
訓(xùn)練任務(wù)如何切分?
某個(gè) GPU 或鏈路異常時(shí),系統(tǒng)如何保持穩(wěn)定?
網(wǎng)絡(luò)如何避免擁塞?
散熱和供電如何支撐?
到了這個(gè)規(guī)模,AI 超算已經(jīng)像一座小型城市。
GPU 是大樓。
NVLink 是地鐵。
NVSwitch 是換乘站。
InfiniBand / RDMA 是城際高鐵。
液冷系統(tǒng)是地下水網(wǎng)。
調(diào)度軟件是城市大腦。
任何一個(gè)環(huán)節(jié)跟不上,整座城市都會(huì)堵車。
所以 GB200 SuperPOD 的意義,不只是 GPU 數(shù)量變多,而是英偉達(dá)把系統(tǒng)邊界繼續(xù)往外推了一層:
從單卡,到服務(wù)器。
從服務(wù)器,到機(jī)柜。
從機(jī)柜,到 SuperPOD。
這就是 AI 超算的演化方向。
掃碼報(bào)名參會(huì),現(xiàn)場(chǎng)簽到有禮 + 抽獎(jiǎng)福利,席位有限,先到先得!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.