大家留意沒,阿里云發(fā)布了一款102.4T的國產(chǎn)芯片NPO交換機(jī),這款交換機(jī)最早在去年云棲大會亮出諜照,近期阿里又披露了一些細(xì)節(jié)。
![]()
今天,本牛馬就來深度扒一下這款交換機(jī),看看阿里的道行深不深。
![]()
基于NPO的國產(chǎn)四芯片交換機(jī)硬件架構(gòu)圖
![]()
基于NPO的交換模組實物圖(包含散熱器)
阿里102.4T NPO交換機(jī)最核心的幾個亮點(diǎn):
①國產(chǎn)芯:4顆25.6T國產(chǎn)交換芯片組成102.4T。
②NPO:近封裝光學(xué)技術(shù)(Near-Packaged Optics),即把光模塊從傳統(tǒng)「可插拔」形態(tài),搬到離交換芯片更近的位置。
③內(nèi)置shufflebox:光纖映射盒,這是一個光纖布線與映射管理部件,阿里直接內(nèi)置了。
為什么要4顆國產(chǎn)芯片
目前國產(chǎn)交換機(jī)單芯片最大的能力也就51.2T(還是菊廠自用,商用芯片市場最大只有25.6T)。
這跟CNMB組合(Cisco、Nvidia、Marvell、Broadcom)還有不小差距,他們都有單芯片102.4T的方案了。
怎么辦呢,1顆不夠、2顆也不夠,只能拿4顆25.6T組團(tuán)群毆…
但組團(tuán)有學(xué)問,群毆也很講究陣法,主要有這么幾種↓
?01 、CLOS擴(kuò)展陣法
![]()
傳統(tǒng)的CLOS方式無阻塞4倍擴(kuò)容(牛馬手搓)
通過圖可以算出來,CLOS方式擴(kuò)容到4倍端口數(shù)量,芯片數(shù)量需要擴(kuò)容到12倍,效率不高。
做單體設(shè)備的話,組團(tuán)成本極高,在市場上不可能有競爭力。
?02、平面擴(kuò)展陣法
CLOS法的核心是層級之間通過Full-Mesh連接實現(xiàn)全網(wǎng)的無阻塞,缺點(diǎn)就是代價太高,6倍芯片換取2倍端口,12倍芯片換取4倍端口。
這里介紹的平面法就是一種線性擴(kuò)容法,我們來看一下這個例子。
![]()
平行擴(kuò)展法示意圖(牛馬手搓)
平面法只需2臺交換機(jī)就實現(xiàn)了組網(wǎng)的翻倍,所以這就是線性擴(kuò)容。
但這種方法有1個前提條件互聯(lián)端口必須可以拆分,本質(zhì)還是通過拆分端口讓交換機(jī)具備更大的radix,也就可以擁有更多的鄰居。
同樣的,這么做需要解決一個難題,就是現(xiàn)實布線中:
光模塊本身尺寸太小,無法在光模塊上拆分,即使拆分了,也無法人工操作連接。
可以在MPO線纜實現(xiàn)拆分,比如400G qsfp112,MPO使用8纖芯實現(xiàn)4收4發(fā),那就可以拆分成4對1收1發(fā)LC尾纖,每一對LC尾纖連接一個鄰居。
![]()
拆分要在2側(cè)都做,再通過LC連接器把2側(cè)拆分后的LC尾纖連接在一起。
這種方式的壞處也是顯而易見,由于拆分后對接,布線工程量是4倍。
同時由于互聯(lián)中段存在LC開放連接,會增加端面插損、同時光纖端口受環(huán)境臟污的風(fēng)險概率增加,也給運(yùn)行時排障增加了復(fù)雜度。
工程上可以引入無源光器件shufflebox簡化布線復(fù)雜度,但shufflebox作為一種生產(chǎn)線組裝的固定交叉連接器,使用中并不靈活,依賴確定性的拆分方案。
在智算項目瞬息萬變的狀況中,這點(diǎn)很難做到。
同時shufflebox無法避免開放連接器引入的問題,在故障場景中的定位也受限于shufflebox的封裝,并不高效。
![]()
?03、阿里的NPO陣法
阿里這套NPO方案,針對上述平面法中拆分后再開放連接的弊端做出了優(yōu)化。
![]()
阿里的NPO方案(牛馬手搓)
可以看到,這個方案在布線上的簡化:
使用NPO代替可插拔光模塊,內(nèi)置在交換機(jī)PCB上,在交換機(jī)內(nèi)部就實現(xiàn)了電/光轉(zhuǎn)換。
NPO的光部分使用封閉的光纖跳線通過固定的分配規(guī)則交叉連接到交換機(jī)面板的MPO連接器。
內(nèi)部連接都通過專用膠水等工藝封閉處理,避免了開放連接的臟污問題,同時可以將插損控制在最小的范圍。
網(wǎng)卡和交換機(jī)互聯(lián)則回到了熟悉的1根MPO光纖的方式,即無須有布線工程上進(jìn)行拆分,保證了施工界面。
當(dāng)然,阿里這個方案的核心價值在于戰(zhàn)略上的意義:
戰(zhàn)略意義1:可以使用較小規(guī)格的交換芯片以最小的代價搭建出大規(guī)格的交換機(jī)。
這次的例子是4顆國產(chǎn)25.6Tbps交換芯片搭建出1臺102.4Tbps規(guī)格的交換機(jī),至少在解決方案上可以對齊海外的102.4T交換機(jī)。
當(dāng)然這個技術(shù)并不是老中獨(dú)有的,老美也可以這么玩,比如大黃他們就用了4顆102.4Tbps的Spectrum6交換芯片搭出了一個409.6Tbps的怪物SN6800。
![]()
戰(zhàn)略意義2:在NPO-CPO迭代道路上作出了關(guān)鍵驗證。
同時NPO可以最大程度保留阿里在可插拔光模塊領(lǐng)域培育多年的供應(yīng)生態(tài),供應(yīng)鏈能力借NPO演進(jìn)還得到了進(jìn)一步深化。
?04、華為的電shuffle陣法
“大菊”的XH9330-128EO用了2顆51.2Tbps的交換芯片組成102.4T交換機(jī),區(qū)別是沒有用NPO,用的是PCB上的電交叉式的shuffle。
![]()
華為的電shuffle方案(牛馬手搓)
以“菊花”廠強(qiáng)大的軟硬件垂直整合能力,很有可能做到了使用不需要端口拆分,2個芯片工作上是完全同步對齊的(代價是實現(xiàn)復(fù)雜度)。
可以100%兼容可插拔光模塊的生態(tài);
可以完全兼容原有使用方式,不需要端口拆分;
如果使用封閉端面的AOC線纜互聯(lián),可以避免任何開放光纖端面,最大程度隔絕環(huán)境臟污的問題。
代價是AOC由于2頭帶著沉重的光模塊,布線工程需要更仔細(xì)、小心,工程造價也會略有上升,但在老中這里,布線工作成本占比極低,不會是障礙。
![]()
華為XH9330-128EO交換機(jī)
個人覺得,“大菊”完全可以把這個方案再擴(kuò)展一下,變成4 × 51.2T方案,直接干出204.8T交換機(jī),在國內(nèi)做到絕對的“遙遙領(lǐng)先”。
但有可能是控制面不一定能hold住這么大的方案,所以菊廠暫時還沒有出,也請粉絲朋友們討論一下。
![]()
寫在最后
看一下架構(gòu)不能只看正常運(yùn)行時的上限,還需要考慮運(yùn)維場景中的下限,一個能夠上量的產(chǎn)品首先保的是下限比較高,其次再看上限。
按這個原則,其實很多PR稿都普遍講上限,幾乎不講下限,和汽車PR一個套路。
很多看似美好的技術(shù)都是上限極高、通常是說很脆弱或者不耐操(直接說“下限很低”顯得很沒情商)。
作為一個深諳臟活的資深牛馬,看東西寫東西就不會按這種常規(guī)套路來,一定是從遇到的問題著手、同時會展開一下可靠性的下限。
那就來挑點(diǎn)小刺吧,這種高度集成化后的故障維護(hù),就沒辦法延續(xù)網(wǎng)工壞了哪里修哪里的摳索思路了。
直接按102.4T單芯片交換機(jī)一樣處理,壞了就整機(jī)替換。
另外,拆分后端口數(shù)量變多,不同平面的IP地址分配管理、鄰居狀態(tài)監(jiān)控、告警策略等運(yùn)維能力是需要重新設(shè)計的,肯定不能用老思路去處理。
好了,今天就吐槽到這里。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.