網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

從 H100、GH200 到 GB200：英偉達(dá)如何把 GPU 堆成 AI 超級(jí)計(jì)算機(jī)？

2026-06-07 10:01:00　來(lái)源: EETOP半導(dǎo)體社區(qū)

北京舉報(bào)

分享至

今天的大模型，早就不是“一張顯卡跑天下”的時(shí)代了。

當(dāng)模型參數(shù)從幾十億、幾百億，卷到千億、萬(wàn)億級(jí)別時(shí)，真正的問(wèn)題已經(jīng)不再是：

“單塊 GPU 有多強(qiáng)？”

而是：

“幾百?gòu)垺浊?GPU，能不能像一臺(tái)機(jī)器一樣協(xié)同工作？”

這才是 AI 基礎(chǔ)設(shè)施的核心戰(zhàn)場(chǎng)。

你可以把 GPU 想象成工人。一個(gè)工人再?gòu)?qiáng)，也搬不動(dòng)一座山。真正的難點(diǎn)，是讓幾百個(gè)工人站在同一個(gè)工地上，不搶路、不撞車、不等人、不空轉(zhuǎn)。

英偉達(dá)的 SuperPOD，本質(zhì)上就是為這個(gè)問(wèn)題設(shè)計(jì)的。

它不是簡(jiǎn)單地把 GPU 堆在機(jī)房里，而是通過(guò) NVLink、NVSwitch、InfiniBand、RDMA 等一整套互聯(lián)技術(shù)，把很多 GPU 編織成一個(gè)巨大的計(jì)算網(wǎng)絡(luò)。

這篇文章，我們沿著英偉達(dá)三代架構(gòu)往上看：

第一代：H100，如何把 256 張 GPU 連起來(lái)。

第二代：GH200，如何把 CPU 和 GPU 更緊地綁在一起。

第三代：GB200 NVL72，如何把一個(gè)機(jī)柜變成一臺(tái)“超級(jí) GPU”。

看懂這條線，你就能理解：為什么 AI 算力競(jìng)爭(zhēng)，已經(jīng)從“芯片戰(zhàn)爭(zhēng)”升級(jí)成了“系統(tǒng)戰(zhàn)爭(zhēng)”。

一、H100 SuperPOD：先把 256 張 GPU 變成一個(gè)團(tuán)隊(duì)

先從 H100 說(shuō)起。

H100 是英偉達(dá) Hopper 架構(gòu)時(shí)代的代表產(chǎn)品，也是這一輪大模型訓(xùn)練浪潮里的核心硬件之一。

但 H100 真正厲害的地方，不只是單卡算力，而是它可以被組織起來(lái)。

在 DGX H100 系統(tǒng)里，一臺(tái)服務(wù)器內(nèi)部通常有 8 張 H100 GPU。

這 8 張 GPU 之間，并不是靠普通 PCIe 慢悠悠地交換數(shù)據(jù)，而是通過(guò) NVLink 和 NVSwitch 進(jìn)行高速互聯(lián)。

可以這樣理解：

NVLink 是 GPU 之間的高速公路。

NVSwitch 是高速公路上的立交橋。

有了它，8 張 GPU 之間可以高帶寬、低延遲地互相通信。對(duì)于大模型訓(xùn)練來(lái)說(shuō)，這件事極其重要。

因?yàn)橛?xùn)練一個(gè)大模型時(shí)，參數(shù)、梯度、激活值并不會(huì)老老實(shí)實(shí)待在一張卡里。它們會(huì)在 GPU 之間頻繁流動(dòng)。通信速度慢，GPU 就會(huì)干等。GPU 一干等，昂貴的算力就變成了機(jī)房里的暖氣片。

這也是為什么，在 AI 超算里，“通信能力”幾乎和“計(jì)算能力”同樣重要。

到了 DGX H100 SuperPOD，英偉達(dá)進(jìn)一步把這種互聯(lián)從“服務(wù)器內(nèi)部”擴(kuò)展到了“服務(wù)器之間”。

一臺(tái) DGX H100 是 8 張 GPU。

32 臺(tái) DGX H100，就是 256 張 GPU。

這 256 張 GPU 通過(guò) NVLink Switch System 連接起來(lái)，就形成了一個(gè) H100 SuperPOD。

這里的關(guān)鍵變化是：過(guò)去 NVLink 主要解決單機(jī)內(nèi)部 GPU 互聯(lián)，而 H100 SuperPOD 開(kāi)始把 NVLink 的能力推向跨節(jié)點(diǎn)連接。

也就是說(shuō)，英偉達(dá)不再滿足于讓一臺(tái)服務(wù)器內(nèi)部的 8 張 GPU 高速通信，而是希望 32 臺(tái)服務(wù)器里的 256 張 GPU，也能盡可能像一個(gè)整體一樣協(xié)同工作。

這就是 SuperPOD 的第一層邏輯：

不是賣 GPU，而是賣“GPU 集群的組織方式”。

不過(guò)，H100 SuperPOD 也不是完美無(wú)缺。

它的瓶頸在于：?jiǎn)闻_(tái) DGX H100 內(nèi)部的 GPU 總帶寬很高，但跨節(jié)點(diǎn)連接資源仍然有限。

也就是說(shuō)，服務(wù)器內(nèi)部像城市內(nèi)環(huán)，車道寬、紅綠燈少；服務(wù)器之間像跨城高速，雖然很快，但車道數(shù)沒(méi)那么奢侈。

所以 H100 這一代的 SuperPOD，已經(jīng)完成了從“單機(jī) GPU”到“256 GPU 集群”的飛躍，但它仍然帶著一個(gè)問(wèn)題：

當(dāng) GPU 數(shù)量繼續(xù)增加，網(wǎng)絡(luò)還能不能撐住？

這就引出了 GH200。

二、GH200 SuperPOD：CPU 和 GPU 不再是鄰居，而是室友

到了 GH200，英偉達(dá)做了一個(gè)很重要的改變：

把 Grace CPU 和 Hopper GPU 放在一起，做成 Grace Hopper Superchip。

簡(jiǎn)單說(shuō)，GH200 不是單純的一張 GPU，而是一個(gè) CPU + GPU 的超級(jí)芯片組合。

過(guò)去，CPU 和 GPU 更像住在同一個(gè)小區(qū)的鄰居。它們可以互相訪問(wèn)，但中間要經(jīng)過(guò) PCIe 等通道。數(shù)據(jù)搬來(lái)搬去，總有開(kāi)銷。

而 GH200 的思路是：

別當(dāng)鄰居了，直接住一屋。

Grace CPU 和 Hopper GPU 之間通過(guò) NVLink-C2C 高速互聯(lián)，CPU 和 GPU 的關(guān)系變得更緊密。

這對(duì) AI 和 HPC 工作負(fù)載有很大意義。

很多任務(wù)不是純計(jì)算問(wèn)題，而是“計(jì)算 + 內(nèi)存 + 數(shù)據(jù)搬運(yùn)”的綜合問(wèn)題。尤其是大模型訓(xùn)練、推薦系統(tǒng)、圖計(jì)算、科學(xué)計(jì)算里，數(shù)據(jù)規(guī)模大，訪問(wèn)模式復(fù)雜。如果 CPU 和 GPU 之間的通道太窄，就會(huì)形成“算力在前面狂奔，數(shù)據(jù)在后面騎共享單車”的尷尬局面。

GH200 要解決的，就是這個(gè)問(wèn)題。

在 DGX GH200 SuperPOD 中，英偉達(dá)進(jìn)一步使用 NVLink Switch System，把多個(gè) GH200 連接起來(lái)，形成更大的 GPU 域。

這和 H100 SuperPOD 的差別在于：

H100 更像是把很多 GPU 服務(wù)器連起來(lái)。

GH200 則是先把 CPU 和 GPU 深度融合，再把這些融合后的超級(jí)芯片連起來(lái)。

這一步很關(guān)鍵。

因?yàn)?AI 超算的競(jìng)爭(zhēng)，已經(jīng)不是單純比 GPU 核心數(shù)量，而是比整個(gè)系統(tǒng)的數(shù)據(jù)流動(dòng)能力。

數(shù)據(jù)能不能快速到達(dá) GPU？

GPU 之間能不能快速交換結(jié)果？

CPU 能不能高效參與調(diào)度和內(nèi)存管理？

這些問(wèn)題，決定了昂貴 GPU 的利用率。

一臺(tái) AI 超算最怕的不是沒(méi)有 GPU，而是 GPU 在等數(shù)據(jù)。

GPU 一等，老板心碎，電表狂笑。

三、GH200 NVL32：把“節(jié)點(diǎn)”做大，把機(jī)柜變成計(jì)算單元

GH200 之后，還有一個(gè)很有意思的形態(tài)：GH200 NVL32。

它的思路是把 32 個(gè) GH200 組織在一個(gè)更緊密的機(jī)柜級(jí)系統(tǒng)里。

如果說(shuō) DGX H100 的基本單元是一臺(tái) 8 GPU 服務(wù)器，那么 GH200 NVL32 的思路，就是把基本單元進(jìn)一步放大。

過(guò)去我們討論 AI 集群，常常是：

一臺(tái)服務(wù)器有幾張卡？

一個(gè)機(jī)柜有幾臺(tái)服務(wù)器？

一個(gè)集群有多少個(gè)機(jī)柜？

但到了 GH200 NVL32 這一類設(shè)計(jì)，機(jī)柜本身開(kāi)始變成一個(gè)重要的計(jì)算單元。

這背后的趨勢(shì)很清楚：

AI 系統(tǒng)正在從“服務(wù)器級(jí)設(shè)計(jì)”走向“機(jī)柜級(jí)設(shè)計(jì)”。

為什么？

因?yàn)榇竽Ｐ吞罅恕?/p>

如果還按照傳統(tǒng)服務(wù)器思路，一臺(tái)一臺(tái)服務(wù)器拼起來(lái)，通信路徑會(huì)越來(lái)越長(zhǎng)，網(wǎng)絡(luò)拓?fù)鋾?huì)越來(lái)越復(fù)雜，延遲和帶寬都會(huì)成為瓶頸。

所以英偉達(dá)開(kāi)始把更多 GPU 放進(jìn)一個(gè)更緊密的 NVLink 域里，讓它們?cè)谖锢砭嚯x和通信拓?fù)渖细咏?/p>

你可以把它理解成城市規(guī)劃：

早期是一個(gè)個(gè)小區(qū)，各自獨(dú)立。

后來(lái)修路，把小區(qū)連成城區(qū)。

再后來(lái)，干脆重新規(guī)劃，把住宅、地鐵、商業(yè)、學(xué)校一起設(shè)計(jì)。

H100 是把 GPU 連起來(lái)。

GH200 是把 CPU 和 GPU 融合起來(lái)。

GH200 NVL32 則是把機(jī)柜變成更大的計(jì)算單元。

這條路繼續(xù)往前走，就到了 GB200 NVL72。

四、GB200 NVL72：一個(gè)機(jī)柜，就是一臺(tái)“巨型 GPU”

GB200 是 Blackwell 時(shí)代的核心平臺(tái)。

和 GH200 不同，GB200 的結(jié)構(gòu)更激進(jìn)：

一個(gè) Grace CPU 搭配兩個(gè) Blackwell GPU。

也就是說(shuō)，一個(gè) GB200 Superchip 里面，是 1 個(gè) CPU + 2 個(gè) GPU 的組合。

到了 GB200 NVL72，英偉達(dá)直接把 36 個(gè) Grace CPU 和 72 個(gè) Blackwell GPU 放進(jìn)一個(gè)液冷機(jī)柜級(jí)系統(tǒng)里。

這就是 NVL72 名字里的 “72”：

72 張 Blackwell GPU。

這已經(jīng)不是普通服務(wù)器概念了。

這更像是一臺(tái)機(jī)柜大小的超級(jí)計(jì)算機(jī)。

更關(guān)鍵的是，英偉達(dá)希望這 72 張 GPU 通過(guò) NVLink 和 NVLink Switch System 組成一個(gè)巨大的 NVLink 域，讓它們?cè)谲浖屯ㄐ艑用娓褚粋€(gè)整體。

這對(duì)大模型尤其重要。

因?yàn)榇竽Ｐ驮絹?lái)越大，單卡顯存不夠，多卡顯存也不一定夠。真正需要的是一個(gè)巨大的、低延遲、高帶寬的共享計(jì)算空間。

如果 72 張 GPU 能更緊密地協(xié)同，它就不再只是“72 張卡”，而更像是一塊被拆成 72 個(gè)部分的巨型 GPU。

這就是 GB200 NVL72 最有想象力的地方。

它不是在回答：

“單張 GPU 多強(qiáng)？”

而是在回答：

“能不能把一個(gè)機(jī)柜變成一塊超級(jí)芯片？”

這也是為什么英偉達(dá)強(qiáng)調(diào) rack-scale architecture，也就是機(jī)柜級(jí)架構(gòu)。

以前的服務(wù)器設(shè)計(jì)，是把芯片裝進(jìn)服務(wù)器。

現(xiàn)在的 AI 服務(wù)器設(shè)計(jì)，是把整個(gè)機(jī)柜當(dāng)成芯片來(lái)設(shè)計(jì)。

芯片、封裝、板卡、服務(wù)器、機(jī)柜、網(wǎng)絡(luò)、液冷、電源、軟件調(diào)度，全部一起協(xié)同。

這已經(jīng)不是單點(diǎn)創(chuàng)新了，而是系統(tǒng)工程。

五、從 72 到 576：GB200 SuperPOD 的真正野心

如果說(shuō) GB200 NVL72 是一個(gè)機(jī)柜里的 72 GPU 系統(tǒng)，那么 GB200 SuperPOD 要做的事情，就是把多個(gè) NVL72 進(jìn)一步連接起來(lái)。

按照公開(kāi)資料，一個(gè) GB200 SuperPOD 可以擴(kuò)展到 576 張 Blackwell GPU。

576 是什么概念？

它不是把 576 張卡簡(jiǎn)單塞進(jìn)機(jī)房。

它的難點(diǎn)在于：

這些 GPU 之間如何通信？

數(shù)據(jù)如何同步？

訓(xùn)練任務(wù)如何切分？

某個(gè) GPU 或鏈路異常時(shí)，系統(tǒng)如何保持穩(wěn)定？

網(wǎng)絡(luò)如何避免擁塞？

散熱和供電如何支撐？

到了這個(gè)規(guī)模，AI 超算已經(jīng)像一座小型城市。

GPU 是大樓。

NVLink 是地鐵。

NVSwitch 是換乘站。

InfiniBand / RDMA 是城際高鐵。

液冷系統(tǒng)是地下水網(wǎng)。

調(diào)度軟件是城市大腦。

任何一個(gè)環(huán)節(jié)跟不上，整座城市都會(huì)堵車。

所以 GB200 SuperPOD 的意義，不只是 GPU 數(shù)量變多，而是英偉達(dá)把系統(tǒng)邊界繼續(xù)往外推了一層：

從單卡，到服務(wù)器。

從服務(wù)器，到機(jī)柜。

從機(jī)柜，到 SuperPOD。

這就是 AI 超算的演化方向。

掃碼報(bào)名參會(huì)，現(xiàn)場(chǎng)簽到有禮 + 抽獎(jiǎng)福利，席位有限，先到先得！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.