![]()
GPU巨頭轉(zhuǎn)向光互聯(lián)擴容,已是必然選擇。
如果你覺得英偉達GB200機架系統(tǒng)已經(jīng)足夠龐大,那CEO黃仁勛的布局才剛剛開始。在上個月的GTC大會上,這家全球市值最高的芯片企業(yè)公布了一項重磅計劃:到2028年,將利用光子互聯(lián)技術(shù),把超過1000顆GPU集成到一套超大規(guī)模系統(tǒng)中。
英偉達也沒有坐等供應(yīng)鏈成熟。過去一個月里,這家GPU巨頭已向Marvell、Coherent、Lumentum等專注于光通信與互聯(lián)技術(shù)的企業(yè)投入數(shù)十億美元,為這類系統(tǒng)的大規(guī)模部署做好準(zhǔn)備。
“對于我們生態(tài)中的所有伙伴來說,我們需要更多的算力容量,”黃仁勛在GTC主題演講中表示,“我們需要更多銅互聯(lián)容量,需要更多光互聯(lián)容量,需要更多共封裝光學(xué)(CPO)容量。這也是我們與各方合作,為這一量級的增長打下基礎(chǔ)的原因。”
然而,英偉達走到這一步的歷程,其實早在更早之前就已開啟。事實上,當(dāng)OpenAI在2022年底向世界推出ChatGPT時,英偉達就已經(jīng)意識到自己面臨一個難題。
當(dāng)時,英偉達性能最強的系統(tǒng)僅支持8顆GPU,而推動AI爆發(fā)的大模型,卻需要數(shù)千顆GPU才能完成訓(xùn)練。英偉達需要更大的系統(tǒng),或者至少是更快的網(wǎng)絡(luò),能夠高效地將任務(wù)分發(fā)到數(shù)十顆芯片上。
我們最早在2023年英偉達的Grace Hopper超級芯片上看到了這一方向的嘗試,但直到2024年初,完整的布局才浮出水面。同年GTC上發(fā)布的Grace Blackwell NVL72是一臺功耗高達120千瓦的巨型機器,它通過搭載長達數(shù)米線纜的銅質(zhì)背板,讓36個節(jié)點、72顆GPU協(xié)同工作,如同一臺巨型AI加速器。
英偉達網(wǎng)絡(luò)高級副總裁吉拉德·謝納表示,銅材是當(dāng)時最順理成章的選擇。
“如果能用,銅就是最好的連接方式,”他說,“成本極低、幾乎不耗電、可靠性極高,也沒有有源器件。”
但銅互聯(lián)并非完美。在1.8TB/s的速率下,線纜只能延伸數(shù)英尺,信號就會因GPU之間的通信而衰減。如果你曾好奇NVL72的NVSwitch為何都放在機架中央,原因就是線纜長度限制極短。銅材有限的傳輸距離,也迫使英偉達必須在單個機架內(nèi)塞進盡可能多的GPU。
兩年后的今天,英偉達正快速逼近銅互聯(lián)的物理極限。如果想要搭建規(guī)模更大的GPU系統(tǒng),就必須轉(zhuǎn)向光互聯(lián)。
可插拔光模塊的難題
當(dāng)黃仁勛首次展示代號Oberon的NVL72機架時,業(yè)界唯一商用可行的GPU光互聯(lián)方案,只有可插拔光模塊。
這類模塊大小接近一包口香糖,集成了激光器、重定時器、數(shù)字信號處理單元,負(fù)責(zé)將電信號轉(zhuǎn)為光信號,再轉(zhuǎn)回電信號。
可插拔模塊在數(shù)據(jù)中心網(wǎng)絡(luò)中早已普及,但將其用于NVLink這類大規(guī)模計算架構(gòu),卻存在一系列問題。
要達到1.8TB/s帶寬,每顆Blackwell GPU需要18個800Gbps可插拔模塊:加速器端9個,交換機端9個。單個模塊功耗僅10–15瓦,但72顆GPU規(guī)模下,總功耗會迅速飆升。
正如黃仁勛在2024年GTC主題演講中指出,光互聯(lián)方案會額外增加約2萬瓦功耗。
但自O(shè)beron機架發(fā)布以來,行業(yè)發(fā)生了巨大變化。共封裝光學(xué)(CPO) 技術(shù)取得突破,它將光引擎直接與交換ASIC集成,顯著降低了功耗。
2025年,英偉達成為首批擁抱CPO的AI基礎(chǔ)設(shè)施廠商之一,將其直接整合進Spectrum以太網(wǎng)與Quantum InfiniBand交換機(基于博通方案的Micas Networks也采取了類似路線)。
這大幅減少了搭建AI訓(xùn)練集群所需的可插拔模塊數(shù)量。不過,直到近期,英偉達才開始公開討論在NVSwitch架構(gòu)中使用光互聯(lián)與CPO。
NVLink走向光互聯(lián)
兩年前還認(rèn)為光互聯(lián)功耗過高的黃仁勛,在今年春季GTC上重新提及這一話題,并發(fā)布了Vera Rubin NVL576與Rosa Feynman NVL1152兩款多機架系統(tǒng),它們將通過光子技術(shù),將計算域規(guī)模擴大8倍。
NVL576這個名字聽起來并不陌生。事實上,在初代NVL72機架發(fā)布時,英偉達就曾預(yù)告過這一GPU數(shù)量的配置,只是據(jù)我們所知,該系統(tǒng)從未實際部署。英偉達也曾短暫以NVL576命名Vera Rubin Ultra Kyber機架,后來才決定不再將每一顆獨立GPU裸片算作單獨加速器。
除非英偉達的市場策略或路線圖再次調(diào)整,真正的Vera Rubin NVL576將采用銅互聯(lián)+光互聯(lián)混合方案。“外界一直在討論‘英偉達會走銅互聯(lián)擴容還是光互聯(lián)擴容?’——我們兩者都會做。”黃仁勛在本屆GTC上表示。
據(jù)英偉達超算與高性能計算副總裁伊恩·巴克介紹,網(wǎng)絡(luò)第一層將在機架內(nèi)使用銅互聯(lián),GPU無需改動;第二層骨干網(wǎng)絡(luò)則采用可插拔模塊。
目前尚不清楚英偉達具體采用何種拓?fù)浣Y(jié)構(gòu),但兩層胖樹架構(gòu)非常契合,且僅需一個機架的交換機(共72顆ASIC)作為骨干層。在光模塊方案上,可插拔模塊是最簡單的選擇,但英偉達也可能采用近封裝光學(xué)(NPO),就像Lightmatter上月展示的技術(shù)。
對于Vera Rubin,英偉達僅明確在Oberon NVL72機架上支持光擴容,而非NVL144 Kyber系統(tǒng)。
我們尚無法確定英偉達做出這一選擇的具體原因,但值得注意的是:一旦支持光擴容,就不必把所有硬件塞進單一機架。從散熱與功耗角度看,支持8個機架之間的光互聯(lián)擴容,顯然更為合理。
Feynman世代全面走向共封裝光學(xué)
真正令人期待的是英偉達Feynman世代產(chǎn)品,預(yù)計2028年中后期開始出貨。據(jù)悉,這些系統(tǒng)將同時支持銅互聯(lián)或共封裝光NVLink互聯(lián)。
英偉達對具體實現(xiàn)細(xì)節(jié)仍相對保密,但大致有兩條技術(shù)路徑。
最簡單的方案是:將CPO集成到NVLink交換ASIC中,機架內(nèi)部繼續(xù)使用銅互聯(lián)。這需要兩層NVSwitch架構(gòu),以及兩到三款不同ASIC:半光、全光,以及不含CPO的型號。這種方式可以讓英偉達通過更換NVLink交換機托盤或增加骨干機架,靈活支持多種配置。
更具顛覆性的可能是:將CPO同時集成到交換機與GPU封裝中。這幾乎必然會推出多款Feynman GPU型號(帶光口與不帶光口),但可以將整個架構(gòu)壓縮為單層。謝納在上月GTC期間接受采訪時,拒絕對具體路線置評,但強調(diào)了單層計算架構(gòu)的優(yōu)勢。
“如果可以避免,擴容架構(gòu)最好不要設(shè)計多層,因為要盡可能降低計算引擎之間的延遲。”他說。
盡管將CPO集成進GPU在技術(shù)上可行,但單層NVL1152系統(tǒng)需要極高端口數(shù)的大型交換機。考慮到Feynman要到2028年中后期才會出貨,這一目標(biāo)并非不可能實現(xiàn)。
鎖定供應(yīng)鏈產(chǎn)能
無論采用哪種方案,都需要充足的激光模塊供應(yīng)。雖然CPO將大量光學(xué)與信號處理功能集成到封裝中,但激光器通常仍獨立設(shè)計,以方便維護。
這也解釋了為何英偉達在上個月向兩家激光巨頭Coherent、Lumentum分別注資20億美元,合計40億美元。如果要大規(guī)模落地CPO,供應(yīng)鏈必須提前做好準(zhǔn)備。另一項顯示英偉達正推進加速器端CPO的證據(jù),是本周宣布對Marvell投資20億美元。
根據(jù)合作內(nèi)容,英偉達將與Marvell合作,把高速互聯(lián)技術(shù)授權(quán)版NVLink Fusion集成到定制XPU中,用于英偉達Vera CPU。雙方還將合作開發(fā)光I/O技術(shù),具體細(xì)節(jié)未披露。
這家初創(chuàng)公司的光子互聯(lián)技術(shù),可用于搭建跨機架的一致性內(nèi)存網(wǎng)絡(luò),對英偉達的吸引力,不亞于對Marvell大客戶(包括AWS)的吸引力。眾所周知,AWS是NVLink Fusion的重要客戶,計劃在下一代Trainium4計算集群中采用該技術(shù)。
無論如何,英偉達已經(jīng)看清光互聯(lián)擴容的大勢。可以預(yù)見,CPO將在其未來系統(tǒng)設(shè)計中扮演越來越核心的角色。
*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個人觀點,我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認(rèn)同,如有異議,請聯(lián)系后臺。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.