![]()
過去幾年,光鏈路速度取得了令人矚目的進(jìn)步,從100 Gbps迅速提升至 400 Gbps、800 Gbps,并逐漸發(fā)展到 1.6 Tbps。
人工智能正在從根本上改變數(shù)據(jù)中心內(nèi)部連接的角色,以至于數(shù)據(jù)中心內(nèi)部網(wǎng)絡(luò)的重要性與計(jì)算本身不相上下。數(shù)據(jù)中心內(nèi)部后端網(wǎng)絡(luò)(將人工智能加速器彼此連接并與內(nèi)存連接以進(jìn)行工作負(fù)載分配)實(shí)際上正在成為計(jì)算系統(tǒng)的延伸。
那么,我們面臨的是數(shù)據(jù)中心內(nèi)部網(wǎng)絡(luò)的革命還是演進(jìn)?或許兩者兼而有之。
人工智能工作負(fù)載的革命性激增推動(dòng)了新技術(shù)的發(fā)展,但這些技術(shù)利用了現(xiàn)有方法,建立在多年來不斷創(chuàng)新的基礎(chǔ)上。
幾十年來,銅纜一直是數(shù)據(jù)中心內(nèi)部連接的默認(rèn)選擇。銅纜價(jià)格低廉、易于施工,并且在短距離傳輸中效果良好。但隨著數(shù)據(jù)傳輸速率的提高和傳輸距離的增加,銅纜的劣勢(shì)就顯現(xiàn)出來了,信號(hào)完整性會(huì)因衰減和電磁干擾而下降。
另一方面,光纖能夠在更遠(yuǎn)的距離上傳輸更高的數(shù)據(jù)速率,且信號(hào)損耗極小,也沒有電磁干擾。目前,幾乎所有超過約 5 米的 400 Gbps 數(shù)據(jù)中心連接(即任何超出單個(gè)機(jī)架的高性能連接)都已過渡到光纖連接。速度更快的 AI 加速器也正在推動(dòng)機(jī)架內(nèi)部連接轉(zhuǎn)向光纖。最終,AI 工廠數(shù)據(jù)中心內(nèi)的所有連接都將采用光纖。
過去幾年,光鏈路速度取得了令人矚目的進(jìn)步,從 100 Gbps 迅速提升至 400 Gbps、800 Gbps,并逐漸發(fā)展到 1.6 Tbps。然而,要滿足人工智能訓(xùn)練和推理的需求,僅僅提高端口速度是不夠的。
人工智能重新定義數(shù)據(jù)中心網(wǎng)絡(luò)
歷史上,數(shù)據(jù)中心通常采用縱向擴(kuò)展策略來實(shí)現(xiàn)增長(zhǎng):即在機(jī)架中添加更大的服務(wù)器或更多處理器。然而,現(xiàn)代人工智能挑戰(zhàn)了這種模式。大型人工智能模型和分布式訓(xùn)練需要協(xié)調(diào)數(shù)千個(gè)處理器/加速器協(xié)同工作。這意味著數(shù)據(jù)中心的建設(shè)需要橫向擴(kuò)展,將機(jī)架、行和相鄰建筑物中的無數(shù)節(jié)點(diǎn)連接起來,形成一個(gè)統(tǒng)一的計(jì)算架構(gòu),共同處理各項(xiàng)任務(wù)。
分布式計(jì)算雖然并非新生事物,但這些人工智能架構(gòu)的規(guī)模和性能卻是前所未有的。龐大的人工智能訓(xùn)練集群正在構(gòu)建中,其橫向擴(kuò)展網(wǎng)絡(luò)能夠以個(gè)位數(shù)微秒的延遲處理每秒太比特級(jí)的流量,連接著數(shù)千個(gè)機(jī)架,每個(gè)機(jī)架都配備數(shù)十個(gè)GPU。公開的估算表明,大型人工智能集群(基于整個(gè)架構(gòu)的平均光模塊數(shù)量)每個(gè)GPU可能需要三到六個(gè)光收發(fā)器。這意味著在一個(gè)擁有數(shù)十萬個(gè)GPU的數(shù)據(jù)中心內(nèi),需要超過一百萬個(gè)短距離光收發(fā)器來連接服務(wù)器和機(jī)架頂部葉交換機(jī),以及機(jī)架頂部葉交換機(jī)和脊交換機(jī)。
事實(shí)上,LightCounting等行業(yè)分析機(jī)構(gòu)預(yù)測(cè),未來五年以太網(wǎng)光收發(fā)器和共封裝光器件的銷量將翻一番,其中數(shù)據(jù)中心內(nèi)部應(yīng)用將貢獻(xiàn)大部分增長(zhǎng)。預(yù)計(jì)未來幾年全球需求量將達(dá)到每年數(shù)億件,以支持人工智能集群的大規(guī)模部署。
當(dāng)今的可插拔光學(xué)器件:FRO、LRO、LPO
為了支持人工智能光通信的爆炸式增長(zhǎng),創(chuàng)新不僅著眼于更快的連接速度,更關(guān)注光模塊本身的設(shè)計(jì)和部署方式。在數(shù)據(jù)中心內(nèi)部,能效和密度至關(guān)重要。這催生了新型光架構(gòu),它們?cè)诮档凸暮涂s小體積的同時(shí),增強(qiáng)了部署的靈活性。
傳統(tǒng)的可插拔光模塊采用全時(shí)序光模塊 (FRO),將信號(hào)處理集成在發(fā)送和接收路徑上。這雖然能提供強(qiáng)大的性能和遠(yuǎn)距離傳輸,但代價(jià)是功耗和延遲。而新型方案則更加輕量級(jí)。線性接收光模塊 (LRO)通過依賴交換機(jī)專用集成電路 (ASIC) 中的信號(hào)處理來簡(jiǎn)化接收路徑,從而顯著降低模塊功耗和延遲。更進(jìn)一步,線性可插拔光模塊 (LPO,或線性驅(qū)動(dòng))完全移除了可插拔模塊中的主動(dòng)信號(hào)處理,在主機(jī)支持該模型的前提下,為短距離鏈路提供極低的功耗和最小的延遲。
重要的是,這三種方法在現(xiàn)代數(shù)據(jù)中心網(wǎng)絡(luò)中并存。FRO 繼續(xù)服務(wù)于對(duì)傳輸距離和魯棒性要求較高的應(yīng)用,而 LRO 和 LPO 則在高容量、短距離的數(shù)據(jù)中心內(nèi)部鏈路中迅速發(fā)展,在這些鏈路中,效率和密度至關(guān)重要。這些方法共同展現(xiàn)了光通信技術(shù)的演進(jìn)路徑,在革命性的數(shù)據(jù)中心網(wǎng)絡(luò)為人工智能擴(kuò)展的過程中,它們?cè)谛阅芎凸闹g取得了平衡。
明日光學(xué)發(fā)展趨勢(shì):NPO、CPO、XPO
光模塊技術(shù)不斷革新。2026年初,一個(gè)行業(yè)聯(lián)盟推出了一種名為超高密度可插拔光模塊(XPO)的新型概念,旨在顯著提升光模塊前面板的密度,而光模塊密度是數(shù)據(jù)中心內(nèi)部連接的關(guān)鍵限制因素。XPO模塊可提供前所未有的12.8 Tbps帶寬,雖然其尺寸大于八腳小型可插拔模塊(OSFP),但與現(xiàn)有可插拔解決方案相比,其前面板密度仍可提升約四倍。由于XPO集成了液冷技術(shù),這些模塊還能支持功耗更高的相干光模塊。
與此同時(shí),業(yè)界也在探索更激進(jìn)的光集成模型。這種轉(zhuǎn)變的核心是一個(gè)簡(jiǎn)單的想法:將光學(xué)器件靠近計(jì)算或交換器件,可以減少信號(hào)損耗和補(bǔ)償這些損耗所需的功率,同時(shí)克服前面板的空間限制。
近封裝光學(xué)元件(NPO,也稱為板載光學(xué)元件)將光引擎從前面板移至更靠近開關(guān)硅片的位置,從而縮短電氣距離并提高效率。這種方法顯著降低了功耗并提高了信號(hào)質(zhì)量,但由于光學(xué)元件不再易于更換,因此犧牲了靈活性。
共封裝光器件 (CPO) 將這一概念進(jìn)一步發(fā)展,直接將光器件集成到交換芯片封裝中。通過大幅減少電氣互連,CPO 有望實(shí)現(xiàn)超低延遲和卓越的能效。同時(shí),它也挑戰(zhàn)了人們對(duì)可維護(hù)性、制造工藝和互操作性的固有認(rèn)知。
XPO、NPO 和 CPO 共同表明,數(shù)據(jù)中心內(nèi)部光學(xué)技術(shù)的演進(jìn)不再僅僅是更快的鏈路,而是從根本上重新設(shè)計(jì)光學(xué)、電子和計(jì)算在人工智能時(shí)代如何結(jié)合在一起。
人工智能時(shí)代的數(shù)據(jù)中心連接正在經(jīng)歷一場(chǎng)革命,無論是在需求還是規(guī)模方面;同時(shí)也在數(shù)十年的光學(xué)技術(shù)進(jìn)步的基礎(chǔ)上不斷發(fā)展演進(jìn)。
*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個(gè)人觀點(diǎn),我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認(rèn)同,如有異議,請(qǐng)聯(lián)系后臺(tái)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.