![]()
AWS 已開始在其云基礎設施中部署一種全新的數據中心網絡架構,以更扁平化的系統取代沿用數十年的設計模式。
AWS 表示,新系統能夠提供更高的吞吐量和更低的能耗。
該架構名為彈性網絡圖(RNG),目前已在 AWS 愛爾蘭、德國和西班牙的數據中心投入使用。
![]()
AWS 表示,該設計現已成為大多數新建數據中心的標準網絡方案,并支持其大部分云工作負載。
與 GPU 或 AI 加速器相比,數據中心網絡如同幕后英雄,常被人忽視。然而,它在云性能中扮演著至關重要的角色,決定著信息在龐大的服務器集群中傳輸的效率。隨著云和 AI 工作負載日益繁重,網絡瓶頸帶來了一大堆難題。
幾十年來,超大規模數據中心一直依賴一種名為胖樹拓撲(fat-tree topology)的層級結構。在這種設計中,數據流經過多層交換機和路由器傳輸,這些交換機和路由器則以樹狀層級結構排列。
![]()
這是一種胖樹網絡拓撲。圖中的每個節點都代表一臺擁有 4 個端口的路由器,其中 T1 到 T12 這些節點各自保留 2 個端口,用來連接服務器。
這種模式的缺點在于,它將數據流集中在幾條有限的路徑上,容易導致擁塞,即使其他地方有未使用的網絡容量。
AWS 工程師于是采用了一種基于隨機圖理論(random graph theory)的替代方案。隨機圖理論這個概念在學術研究界已被探究多年,但應用于實際環境中很困難。
![]()
圖中展示了 12 臺路由器(T1 至 T12)在兩種網絡中的連接方式:左側是胖樹網絡,右側是扁平網絡。每臺路由器都有 4 個端口,其中 T1 至 T12 各自保留 2 個端口,用來連接服務器。
新設計不再以固定的層級排列路由器,而是通過分布式路徑網狀網連接諸網絡設備,從而在端點之間創建多種可能的路徑。
據 AWS 聲稱,與傳統設計相比,新架構可將數據吞吐量提高多達 33%,網絡設備的功耗降低了 40%。
ShuffleBox 和 Spraypoint
這一轉變需要解決幾個工程技術難題,這些難題一直以來阻礙著隨機圖網絡在超大規模數據中心的部署。
一大挑戰是管理數據中心內數量龐大的光纜。
AWS 估計其全球基礎設施包含約 2000 萬公里長的光纖。隨機網絡設計帶來的布線模式遠比傳統架構復雜得多,這使得部署和維護困難重重。
為了解決這個問題,AWS 開發了一種名為 ShuffleBox 的無源光設備。該硬件無需電源,實現電纜互連標準化,同時保持網絡的準隨機結構。
![]()
圖中有三個服務器機房,用虛線方框表示;每個機房配有兩個 ShuffleBox,用梯形表示。ShuffleBox 的一側連接服務器,也就是黃色圓點;另一側只負責連接其他 ShuffleBox。
AWS 表示,這種方法簡化了部署,并允許在數據中心之間一致地復制該架構。
然而,在擁有數千條可能路徑的網絡中路由傳輸數據帶來了另一個挑戰。
傳統的路由方法通常選擇數量有限的優選路徑。
AWS 轉而開發了一種名為 Spraypoint 的協議,該協議將數據流分配到眾多可用路徑上,然后再將其傳向目的地。
ShuffleBox 和 Spraypoint 的結合能夠更好地利用網絡容量,同時降低數據流集中在幾個特定點的可能性。
![]()
圖中展示了一個采用該路由協議的示例網絡。橙色節點是目標路由器(t),黃色節點組成路徑點環(wi),藍色節點和灰色節點則分別代表內環(ri)和外環(oi)。該說明來自 AWS 對 RNG/Spraypoint 路由機制的介紹。
AWS 報告稱,RNG 所需的網絡硬件比以往的設計大幅減少。
AWS 數據顯示,網絡設備減少了 69%,而與網絡相關的基礎設施成本最多可降低 45%。
AWS 還估計運營成本可降低約 27%。
云頭條聲明:如以上內容有誤或侵犯到你公司、機構、單位或個人權益,請聯系我們說明理由,我們會配合,無條件刪除處理。
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.