如果你覺得英偉達(dá)的GB200機(jī)架式系統(tǒng)已經(jīng)夠龐大了,那么CEO黃仁勛的野心才剛剛開始。在上個(gè)月的GTC大會(huì)上,這家全球市值最高的公司公布了計(jì)劃,擬利用光子互連技術(shù),在2028年前將超過一千個(gè)GPU集成到一個(gè)巨型系統(tǒng)中。
該公司并未坐等供應(yīng)鏈的穩(wěn)定。過去一個(gè)月,這家GPU巨頭已向Marvell、Coherent和Lumentum等光學(xué)和互連技術(shù)公司投資數(shù)十億美元,為這些系統(tǒng)的廣泛部署做好準(zhǔn)備。
黃仁勛在GTC主題演講中表示:“對于我們生態(tài)系統(tǒng)中的所有參與者來說,我們需要更大的產(chǎn)能。我們需要更大的銅纜產(chǎn)能;我們需要更大的光器件產(chǎn)能;我們需要更大的CPO產(chǎn)能;正因如此,我們一直在與大家合作,為實(shí)現(xiàn)這一增長水平奠定基礎(chǔ)。”
英偉達(dá)走到今天這一步的歷程其實(shí)開始得更早。事實(shí)上,早在2022年底OpenAI向世界發(fā)布ChatGPT時(shí),英偉達(dá)就已經(jīng)意識(shí)到自己遇到了問題。
當(dāng)時(shí),這家GPU巨頭最強(qiáng)大的系統(tǒng)也只有8個(gè)GPU,而推動(dòng)人工智能蓬勃發(fā)展的模型卻需要數(shù)千個(gè)GPU進(jìn)行訓(xùn)練。英偉達(dá)需要更大的處理器,或者至少需要一個(gè)速度更快的網(wǎng)絡(luò),能夠有效地將工作負(fù)載分配到數(shù)十個(gè)芯片上。
我們在2023年英偉達(dá)的Grace Hopper超級(jí)芯片上首次窺見了這種技術(shù)的雛形,但直到2024年初,其全貌才得以展現(xiàn)。同年在GTC大會(huì)上亮相的Grace Blackwell NVL72,是一款功率高達(dá)120千瓦的巨型機(jī)器,它采用銅質(zhì)背板,內(nèi)部布滿數(shù)英里的線纜,使36個(gè)節(jié)點(diǎn)和72個(gè)GPU能夠像一個(gè)巨大的AI加速器一樣協(xié)同工作。
Nvidia 網(wǎng)絡(luò)高級(jí)副總裁 Gilad Shainer 告訴El Reg ,銅是實(shí)現(xiàn)這一目標(biāo)的自然選擇。
“如果條件允許,銅線是最佳的連接方式,”他說。“它非常經(jīng)濟(jì)實(shí)惠,價(jià)格低廉,而且零功耗。它非常可靠,也沒有任何有源元件。”
但銅線并非完美無缺。在 1.8 TB/s 的傳輸速率下,由于 GPU 之間通信,銅線只能延伸幾英尺,信號(hào)就會(huì)開始衰減。如果你曾經(jīng)好奇為什么 NVL72 的 NVSwitch 都位于機(jī)架中央,那是因?yàn)榫€路長度有限。銅線傳輸距離的局限性也意味著英偉達(dá)必須盡可能多地將 GPU 塞進(jìn)單個(gè)機(jī)架中。
兩年后,英偉達(dá)正迅速接近銅的極限,如果想要組裝更大的 GPU 系統(tǒng),就需要采用光學(xué)技術(shù)。
可插拔問題
當(dāng)黃先生首次展示代號(hào)為 Oberon 的 NVL72 機(jī)架時(shí),將兩個(gè)加速器進(jìn)行光學(xué)連接的唯一商業(yè)可行方法是使用可插拔光學(xué)器件。
這些模塊的大小和一包口香糖差不多,包含了將電信號(hào)轉(zhuǎn)換成光信號(hào)以及將光信號(hào)轉(zhuǎn)換回電信號(hào)所需的所有激光器、定時(shí)器和數(shù)字信號(hào)處理裝置。
可插拔設(shè)備在數(shù)據(jù)中心網(wǎng)絡(luò)中并不新鮮,但將其用于像英偉達(dá)的 NVLink 這樣的縱向擴(kuò)展計(jì)算架構(gòu),會(huì)帶來一些問題。
為了達(dá)到 1.8 TB/s 的帶寬,每塊 Blackwell GPU 需要 18 個(gè) 800 Gbps 的可插拔模塊:9 個(gè)用于加速器,另外 9 個(gè)用于交換機(jī)。這些可插拔模塊本身功耗并不高——大約 10-15 瓦——但 72 塊 GPU 加起來,功耗就相當(dāng)可觀了。
正如黃在 2024 年 GTC 主題演講中指出的那樣,光學(xué)器件需要額外的 20,000 瓦功率。
自 Oberon 機(jī)架首次亮相以來,很多情況都發(fā)生了變化。共封裝光學(xué)器件 (CPO) 技術(shù)的進(jìn)步,將光引擎直接集成到交換機(jī) ASIC 旁邊,有助于降低功耗。
2025年,英偉達(dá)成為首批采用CPO技術(shù)的AI基礎(chǔ)設(shè)施提供商之一,將其直接集成到Spectrum以太網(wǎng)和Quantum InfiniBand交換機(jī)中。(博通旗下的Micas Networks也在采取類似舉措。)
這大大減少了構(gòu)建人工智能訓(xùn)練集群所需的可插拔組件數(shù)量。直到最近,該公司才開始探討在其NVSwitch架構(gòu)中使用光模塊和CPO(光纖通道模塊)。
NVLink 實(shí)現(xiàn)光纖化
兩年前,黃仁勛還對光互連過于耗電嗤之以鼻,但今年春天在GTC大會(huì)上,他又重新審視了這一話題,推出了Vera Rubin NVL576和Rosa Feynman NVL1152,這兩個(gè)多機(jī)架系統(tǒng)將利用光子學(xué)技術(shù)將其計(jì)算域擴(kuò)展八倍。
如果您覺得 NVL576 這個(gè)數(shù)字耳熟,那是因?yàn)樗熬统霈F(xiàn)過。事實(shí)上,在最初的 NVL72 機(jī)架式顯卡發(fā)布時(shí),Nvidia就曾預(yù)告過一款配置了這么多 GPU 的顯卡,但據(jù)我們所知,這樣的系統(tǒng)從未在實(shí)際應(yīng)用中部署過。
Nvidia 也曾短暫地以 NVL576 品牌銷售其 Vera Rubin Ultra Kyber 機(jī)架,但后來決定實(shí)際上并不想將每個(gè)單獨(dú)的 GPU 芯片計(jì)為一個(gè)獨(dú)立的加速器。
除非英偉達(dá)的市場營銷或路線圖再次發(fā)生變化,否則真正的 Vera Rubin NVL576 將采用銅和光纖互連的組合。
黃仁勛在本次 GTC 主題演講中表示:“現(xiàn)在有很多關(guān)于‘英偉達(dá)是會(huì)擴(kuò)大銅纜規(guī)模還是擴(kuò)大光纜規(guī)模?’的討論。我們將兩者都做。”
據(jù)英偉達(dá)超大規(guī)模和高性能計(jì)算副總裁伊恩·巴克 (Ian Buck) 介紹,網(wǎng)絡(luò)的第一層將采用機(jī)架內(nèi)的銅纜互連,這意味著GPU無需任何改動(dòng)。第二層主干網(wǎng)將采用可插拔模塊。
我們尚不清楚英偉達(dá)計(jì)劃為此使用哪種拓?fù)浣Y(jié)構(gòu),但兩層胖樹肯定符合要求,并且脊柱層只需要一個(gè)機(jī)架的交換機(jī)(總共 72 個(gè) ASIC)。
對于模塊本身而言,可插拔模塊是最簡單的選擇,但英偉達(dá)也可以選擇近封裝光學(xué)器件 (NPO),就像Lightmatter上個(gè)月展示的那樣。
Vera Rubin 認(rèn)為,英偉達(dá)目前只談?wù)撈?Oberon NVL72 機(jī)架的光學(xué)縮放,而不是其 NVL144 Kyber 系統(tǒng)。
我們不太清楚英偉達(dá)做出這個(gè)決定的具體原因,但值得注意的是,如果支持光刻擴(kuò)展,就不需要把所有東西都塞進(jìn)一個(gè)機(jī)架里。因此,從散熱和功耗的角度來看,支持跨越八個(gè)機(jī)架的光刻擴(kuò)展可能更合理。
Nvidia Feynman 采用共封裝
真正有趣的地方在于英偉達(dá)的費(fèi)曼一代產(chǎn)品,預(yù)計(jì)將于 2028 年中后期開始出貨。據(jù)悉,這些系統(tǒng)將提供銅纜或共封裝光纖 NVLink 互連兩種選擇。
英偉達(dá)對這一切將如何運(yùn)作守口如瓶,但有幾種可能的途徑。
最簡單的選擇是將 CPO 集成到 NVLink 交換機(jī) ASIC 中,并繼續(xù)在機(jī)架中使用銅互連。
這將需要一個(gè)兩層 NVSwitch 架構(gòu)和兩到三個(gè)不同的交換機(jī) ASIC:一個(gè)半光纖的,一個(gè)全光纖的,以及一個(gè)可能沒有 CPO 的。
這樣做可以讓英偉達(dá)通過簡單地更換 NVLink 交換機(jī)托架或根據(jù)需要推入脊柱機(jī)架來支持多種配置。
更有趣的方案是將CPO集成到交換機(jī)和GPU封裝中。這幾乎肯定會(huì)導(dǎo)致Feynman GPU推出多個(gè)SKU——一個(gè)帶光模塊,一個(gè)不帶——但可以將網(wǎng)絡(luò)架構(gòu)簡化為單層結(jié)構(gòu)。
上個(gè)月在 GTC 大會(huì)上,Shainer 在接受El Reg采訪時(shí)拒絕評(píng)論公司計(jì)劃采用哪種方法,但他強(qiáng)調(diào)了單層計(jì)算架構(gòu)的優(yōu)勢。
他說:“如果沒有必要,就不要構(gòu)建多個(gè)層級(jí),因?yàn)橐M量減少計(jì)算引擎之間的延遲。”
雖然可以將CPO集成到GPU中,但單層NVL1152系統(tǒng)需要一個(gè)極其高階的交換機(jī)。不過,考慮到Feynman芯片不太可能在2028年中后期上市,我們認(rèn)為這并非不可能。
保障生產(chǎn)資料
無論哪種方案,都需要充足的激光模塊供應(yīng)。雖然CPO(集成光刻)技術(shù)將大部分光學(xué)和信號(hào)處理功能集成到封裝中,但為了便于維護(hù),激光器通常仍保持獨(dú)立。這或許可以解釋英偉達(dá)上個(gè)月為何向Coherent和Lumentum這兩家專注于光學(xué)激光器的公司分別投資40億美元(各20億美元)。如果英偉達(dá)想要真正有效地采用CPO技術(shù),其供應(yīng)鏈必須做好準(zhǔn)備。
進(jìn)一步的證據(jù)表明,英偉達(dá)正在轉(zhuǎn)向加速器上的CPO策略,例如該公司本周早些時(shí)候宣布與Marvell達(dá)成20億美元的合作協(xié)議。
作為這項(xiàng)投資的一部分,英偉達(dá)將與 Marvell 合作,將 NVLink Fusion(其高速互連技術(shù)的授權(quán)版本)集成到定制的 XPU 中,供英偉達(dá) Vera CPU 使用。雙方還將合作開發(fā)光纖 I/O 技術(shù),但具體合作范圍并未透露。
正如The Next Platform本周早些時(shí)候 討論的那樣,Marvell 以 32.5 億美元收購 Celestial AI 的交易可能與此有關(guān)。
這家初創(chuàng)公司的光子互連技術(shù)可用于構(gòu)建跨多個(gè)機(jī)架的相干存儲(chǔ)網(wǎng)絡(luò),這對于英偉達(dá)來說可能極具吸引力,正如它對Marvell最大的客戶之一(包括AWS)一樣。您可能還記得,AWS是英偉達(dá)NVLink Fusion的最大客戶之一,并計(jì)劃在其下一代Trainium4計(jì)算集群中使用這項(xiàng)技術(shù)。
總之,英偉達(dá)顯然已經(jīng)意識(shí)到光學(xué)擴(kuò)展的重要性,我們可以預(yù)期CPO將在其未來的系統(tǒng)設(shè)計(jì)中發(fā)揮更大的作用。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.