英偉達(dá)80億布局光互連，2028年AI算力將漲16倍

2026-04-10 04:23:36　來源: 夢在深巷aqa

四川舉報(bào)

分享至

如果你覺得英偉達(dá)的GB200機(jī)架式系統(tǒng)已經(jīng)夠龐大了，那么CEO黃仁勛的野心才剛剛開始。在上個(gè)月的GTC大會(huì)上，這家全球市值最高的公司公布了計(jì)劃，擬利用光子互連技術(shù)，在2028年前將超過一千個(gè)GPU集成到一個(gè)巨型系統(tǒng)中。

該公司并未坐等供應(yīng)鏈的穩(wěn)定。過去一個(gè)月，這家GPU巨頭已向Marvell、Coherent和Lumentum等光學(xué)和互連技術(shù)公司投資數(shù)十億美元，為這些系統(tǒng)的廣泛部署做好準(zhǔn)備。

黃仁勛在GTC主題演講中表示：“對于我們生態(tài)系統(tǒng)中的所有參與者來說，我們需要更大的產(chǎn)能。我們需要更大的銅纜產(chǎn)能；我們需要更大的光器件產(chǎn)能；我們需要更大的CPO產(chǎn)能；正因如此，我們一直在與大家合作，為實(shí)現(xiàn)這一增長水平奠定基礎(chǔ)。”

英偉達(dá)走到今天這一步的歷程其實(shí)開始得更早。事實(shí)上，早在2022年底OpenAI向世界發(fā)布ChatGPT時(shí)，英偉達(dá)就已經(jīng)意識(shí)到自己遇到了問題。

當(dāng)時(shí)，這家GPU巨頭最強(qiáng)大的系統(tǒng)也只有8個(gè)GPU，而推動(dòng)人工智能蓬勃發(fā)展的模型卻需要數(shù)千個(gè)GPU進(jìn)行訓(xùn)練。英偉達(dá)需要更大的處理器，或者至少需要一個(gè)速度更快的網(wǎng)絡(luò)，能夠有效地將工作負(fù)載分配到數(shù)十個(gè)芯片上。

我們在2023年英偉達(dá)的Grace Hopper超級(jí)芯片上首次窺見了這種技術(shù)的雛形，但直到2024年初，其全貌才得以展現(xiàn)。同年在GTC大會(huì)上亮相的Grace Blackwell NVL72，是一款功率高達(dá)120千瓦的巨型機(jī)器，它采用銅質(zhì)背板，內(nèi)部布滿數(shù)英里的線纜，使36個(gè)節(jié)點(diǎn)和72個(gè)GPU能夠像一個(gè)巨大的AI加速器一樣協(xié)同工作。

Nvidia 網(wǎng)絡(luò)高級(jí)副總裁 Gilad Shainer 告訴El Reg ，銅是實(shí)現(xiàn)這一目標(biāo)的自然選擇。

“如果條件允許，銅線是最佳的連接方式，”他說。“它非常經(jīng)濟(jì)實(shí)惠，價(jià)格低廉，而且零功耗。它非常可靠，也沒有任何有源元件。”

但銅線并非完美無缺。在 1.8 TB/s 的傳輸速率下，由于 GPU 之間通信，銅線只能延伸幾英尺，信號(hào)就會(huì)開始衰減。如果你曾經(jīng)好奇為什么 NVL72 的 NVSwitch 都位于機(jī)架中央，那是因?yàn)榫€路長度有限。銅線傳輸距離的局限性也意味著英偉達(dá)必須盡可能多地將 GPU 塞進(jìn)單個(gè)機(jī)架中。

兩年后，英偉達(dá)正迅速接近銅的極限，如果想要組裝更大的 GPU 系統(tǒng)，就需要采用光學(xué)技術(shù)。

可插拔問題

當(dāng)黃先生首次展示代號(hào)為 Oberon 的 NVL72 機(jī)架時(shí)，將兩個(gè)加速器進(jìn)行光學(xué)連接的唯一商業(yè)可行方法是使用可插拔光學(xué)器件。

這些模塊的大小和一包口香糖差不多，包含了將電信號(hào)轉(zhuǎn)換成光信號(hào)以及將光信號(hào)轉(zhuǎn)換回電信號(hào)所需的所有激光器、定時(shí)器和數(shù)字信號(hào)處理裝置。

可插拔設(shè)備在數(shù)據(jù)中心網(wǎng)絡(luò)中并不新鮮，但將其用于像英偉達(dá)的 NVLink 這樣的縱向擴(kuò)展計(jì)算架構(gòu)，會(huì)帶來一些問題。

為了達(dá)到 1.8 TB/s 的帶寬，每塊 Blackwell GPU 需要 18 個(gè) 800 Gbps 的可插拔模塊：9 個(gè)用于加速器，另外 9 個(gè)用于交換機(jī)。這些可插拔模塊本身功耗并不高——大約 10-15 瓦——但 72 塊 GPU 加起來，功耗就相當(dāng)可觀了。

正如黃在 2024 年 GTC 主題演講中指出的那樣，光學(xué)器件需要額外的 20,000 瓦功率。

自 Oberon 機(jī)架首次亮相以來，很多情況都發(fā)生了變化。共封裝光學(xué)器件 (CPO) 技術(shù)的進(jìn)步，將光引擎直接集成到交換機(jī) ASIC 旁邊，有助于降低功耗。

2025年，英偉達(dá)成為首批采用CPO技術(shù)的AI基礎(chǔ)設(shè)施提供商之一，將其直接集成到Spectrum以太網(wǎng)和Quantum InfiniBand交換機(jī)中。（博通旗下的Micas Networks也在采取類似舉措。）

這大大減少了構(gòu)建人工智能訓(xùn)練集群所需的可插拔組件數(shù)量。直到最近，該公司才開始探討在其NVSwitch架構(gòu)中使用光模塊和CPO（光纖通道模塊）。

NVLink 實(shí)現(xiàn)光纖化

兩年前，黃仁勛還對光互連過于耗電嗤之以鼻，但今年春天在GTC大會(huì)上，他又重新審視了這一話題，推出了Vera Rubin NVL576和Rosa Feynman NVL1152，這兩個(gè)多機(jī)架系統(tǒng)將利用光子學(xué)技術(shù)將其計(jì)算域擴(kuò)展八倍。

如果您覺得 NVL576 這個(gè)數(shù)字耳熟，那是因?yàn)樗熬统霈F(xiàn)過。事實(shí)上，在最初的 NVL72 機(jī)架式顯卡發(fā)布時(shí)，Nvidia就曾預(yù)告過一款配置了這么多 GPU 的顯卡，但據(jù)我們所知，這樣的系統(tǒng)從未在實(shí)際應(yīng)用中部署過。

Nvidia 也曾短暫地以 NVL576 品牌銷售其 Vera Rubin Ultra Kyber 機(jī)架，但后來決定實(shí)際上并不想將每個(gè)單獨(dú)的 GPU 芯片計(jì)為一個(gè)獨(dú)立的加速器。

除非英偉達(dá)的市場營銷或路線圖再次發(fā)生變化，否則真正的 Vera Rubin NVL576 將采用銅和光纖互連的組合。

黃仁勛在本次 GTC 主題演講中表示：“現(xiàn)在有很多關(guān)于‘英偉達(dá)是會(huì)擴(kuò)大銅纜規(guī)模還是擴(kuò)大光纜規(guī)模？’的討論。我們將兩者都做。”

據(jù)英偉達(dá)超大規(guī)模和高性能計(jì)算副總裁伊恩·巴克 (Ian Buck) 介紹，網(wǎng)絡(luò)的第一層將采用機(jī)架內(nèi)的銅纜互連，這意味著GPU無需任何改動(dòng)。第二層主干網(wǎng)將采用可插拔模塊。

我們尚不清楚英偉達(dá)計(jì)劃為此使用哪種拓?fù)浣Y(jié)構(gòu)，但兩層胖樹肯定符合要求，并且脊柱層只需要一個(gè)機(jī)架的交換機(jī)（總共 72 個(gè) ASIC）。

對于模塊本身而言，可插拔模塊是最簡單的選擇，但英偉達(dá)也可以選擇近封裝光學(xué)器件 (NPO)，就像Lightmatter上個(gè)月展示的那樣。

Vera Rubin 認(rèn)為，英偉達(dá)目前只談?wù)撈?Oberon NVL72 機(jī)架的光學(xué)縮放，而不是其 NVL144 Kyber 系統(tǒng)。

我們不太清楚英偉達(dá)做出這個(gè)決定的具體原因，但值得注意的是，如果支持光刻擴(kuò)展，就不需要把所有東西都塞進(jìn)一個(gè)機(jī)架里。因此，從散熱和功耗的角度來看，支持跨越八個(gè)機(jī)架的光刻擴(kuò)展可能更合理。

Nvidia Feynman 采用共封裝

真正有趣的地方在于英偉達(dá)的費(fèi)曼一代產(chǎn)品，預(yù)計(jì)將于 2028 年中后期開始出貨。據(jù)悉，這些系統(tǒng)將提供銅纜或共封裝光纖 NVLink 互連兩種選擇。

英偉達(dá)對這一切將如何運(yùn)作守口如瓶，但有幾種可能的途徑。

最簡單的選擇是將 CPO 集成到 NVLink 交換機(jī) ASIC 中，并繼續(xù)在機(jī)架中使用銅互連。

這將需要一個(gè)兩層 NVSwitch 架構(gòu)和兩到三個(gè)不同的交換機(jī) ASIC：一個(gè)半光纖的，一個(gè)全光纖的，以及一個(gè)可能沒有 CPO 的。

這樣做可以讓英偉達(dá)通過簡單地更換 NVLink 交換機(jī)托架或根據(jù)需要推入脊柱機(jī)架來支持多種配置。

更有趣的方案是將CPO集成到交換機(jī)和GPU封裝中。這幾乎肯定會(huì)導(dǎo)致Feynman GPU推出多個(gè)SKU——一個(gè)帶光模塊，一個(gè)不帶——但可以將網(wǎng)絡(luò)架構(gòu)簡化為單層結(jié)構(gòu)。

上個(gè)月在 GTC 大會(huì)上，Shainer 在接受El Reg采訪時(shí)拒絕評(píng)論公司計(jì)劃采用哪種方法，但他強(qiáng)調(diào)了單層計(jì)算架構(gòu)的優(yōu)勢。

他說：“如果沒有必要，就不要構(gòu)建多個(gè)層級(jí)，因?yàn)橐M量減少計(jì)算引擎之間的延遲。”

雖然可以將CPO集成到GPU中，但單層NVL1152系統(tǒng)需要一個(gè)極其高階的交換機(jī)。不過，考慮到Feynman芯片不太可能在2028年中后期上市，我們認(rèn)為這并非不可能。

保障生產(chǎn)資料

無論哪種方案，都需要充足的激光模塊供應(yīng)。雖然CPO（集成光刻）技術(shù)將大部分光學(xué)和信號(hào)處理功能集成到封裝中，但為了便于維護(hù)，激光器通常仍保持獨(dú)立。這或許可以解釋英偉達(dá)上個(gè)月為何向Coherent和Lumentum這兩家專注于光學(xué)激光器的公司分別投資40億美元（各20億美元）。如果英偉達(dá)想要真正有效地采用CPO技術(shù)，其供應(yīng)鏈必須做好準(zhǔn)備。

進(jìn)一步的證據(jù)表明，英偉達(dá)正在轉(zhuǎn)向加速器上的CPO策略，例如該公司本周早些時(shí)候宣布與Marvell達(dá)成20億美元的合作協(xié)議。

作為這項(xiàng)投資的一部分，英偉達(dá)將與 Marvell 合作，將 NVLink Fusion（其高速互連技術(shù)的授權(quán)版本）集成到定制的 XPU 中，供英偉達(dá) Vera CPU 使用。雙方還將合作開發(fā)光纖 I/O 技術(shù)，但具體合作范圍并未透露。

正如The Next Platform本周早些時(shí)候討論的那樣，Marvell 以 32.5 億美元收購 Celestial AI 的交易可能與此有關(guān)。

這家初創(chuàng)公司的光子互連技術(shù)可用于構(gòu)建跨多個(gè)機(jī)架的相干存儲(chǔ)網(wǎng)絡(luò)，這對于英偉達(dá)來說可能極具吸引力，正如它對Marvell最大的客戶之一（包括AWS）一樣。您可能還記得，AWS是英偉達(dá)NVLink Fusion的最大客戶之一，并計(jì)劃在其下一代Trainium4計(jì)算集群中使用這項(xiàng)技術(shù)。

總之，英偉達(dá)顯然已經(jīng)意識(shí)到光學(xué)擴(kuò)展的重要性，我們可以預(yù)期CPO將在其未來的系統(tǒng)設(shè)計(jì)中發(fā)揮更大的作用。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.