![]()
AI時代,數據傳輸有了更多選擇。
近日,新思科技技術產品管理高級總監Madhumita Sanyal、英特爾高級首席工程師Swadesh Choudhary、三星SSI高級首席工程師Siamak Tavallaei、科睿奧科技技術高級總監Mohsen Asad,圍繞存儲接口、芯片互連技術以及存儲訪問擴容等議題展開交流。
![]()
從左至右依次為:新思科技 Sanyal、英特爾 Choudhary、科睿奧 Asad、三星 Tavallaei
提問:現實場景中,數據傳輸遠比互連標準定義的更為復雜。各類數據傳輸速率不一,傳輸通道數量眾多且性能存在差異,同時硬件老化速度也各不相同,行業該如何應對這類問題?
Madhumita Sanyal:可行思路之一是在整體系統正式搭建完成前開展端到端仿真測試。也就是搭建包含各類接口、傳輸通道在內的系統仿真模型,充分考量不同加速單元之間、加速單元與主控端之間數據通路存在的性能波動與傳輸異常問題。借助端到端仿真能夠有效規避研發風險,同時全面掌握整系統運行狀態。
提問:當下AI智能體應用快速普及,相關業務場景持續迭代變化,還會產生各類溫度梯度差異問題。仿真測試固然至關重要,但長期來看,這套方案能否切實解決上述各類實際難題?
Mohsen Asad:這正是目前面臨的核心痛點。很多系統初期運行狀態良好,但在高負載工況下出現升溫異常,甚至直接宕機,這類情況十分普遍。實際硬件工況并非僅由0和1兩種數字狀態構成,各類參數波動無處不在。產品研發階段必須實現快速迭代、快速搭建樣機、快速完成測試,在大批量產品交付客戶前盡早排查故障。研發人員要主動提前排查問題,發現故障后配套對應的糾錯機制與信號均衡優化方案。部分異常現象看似屬于故障問題,實則是容性電路特性所致;有些核心架構預留的冗余容量甚至超出實際需求八倍之多,但這類設計空間也能催生出全新商業機遇。
Madhumita Sanyal:如果能夠對整系統運行狀態進行實時健康監測,便可提前預判故障隱患,實現故障前置預警。
Swadesh Choudhary:在此類技術研發中,簡化設計邏輯、搭建分層抽象架構愈發重要。系統可靠性、可用性與可維護性相關設計極易變得繁雜無序。行業亟需打造簡潔通用模型,適配愈發復雜的硬件系統,實現故障精準定位,預留充足處置時間,避免整體系統全面癱瘓,保障運維人員及時檢修故障部件、完成系統故障恢復。
提問:如今芯片設計中商用芯粒應用愈發普及,行業能否精準預判各類芯粒的運行表現,以及其對整體系統帶來的實際影響?
Swadesh Choudhary:想要精準預判難度極大,尤其在混搭不同工藝節點、不同封裝工藝的芯粒組合場景下。接口兼容性與互連互通性是首要考量重點。在定義DDR內存規格參數時,必須預留充足性能余量。目前行業正不斷完善各類調試功能、開展眼圖余量測試、搭建實時運行監測機制,力求在系統宕機前及時推送異常告警。多芯粒集成封裝模式大幅提升了現場運維難度,因此需要在芯粒內部增設冗余設計與應急備用功能,確保系統異常時備用單元可快速接管運行。從封裝層面來看,行業需要統一通用測試信號與狀態變量標準,實現異常狀態統一上報與全局同步預警。
Siamak Tavallaei:隨著相關產品出貨量持續走高,墨菲定律體現得愈發明顯,各類潛在故障都會陸續顯現。該問題最初源自行業規格標準制定層面:書面制定的規范標準劃定了統一執行框架與架構設計準則,而實際落地應用中總會出現各類偏離標準的意外狀況。企業會結合自身業務需求、客戶訴求,選擇性落地標準內的可選功能模塊,優先落地高價值技術方案,這便是基礎規格標準的落地邏輯。在此之上還會形成細分設計規范,最終落地形成終端產品。企業以盈利和長期運維為目標研發產品,勢必會嚴格把控設計指標,避免因參數不達標、標準化缺失引發客戶投訴。
提問:CXL與PCIe協議未來能否實現整機柜層級全域貫通應用?
Siamak Tavallaei:所有互連協議均采用分層架構,最底層為物理層,向上依次為鏈路層、事務層及各類高層應用架構。CXL協議演進依托PCIe發展而來,PCIe則承襲自更早的PCI架構,再往前可追溯至EISA、ISA架構,這類技術最早源自IBM個人電腦體系。在物理層架構不變的基礎上,行業陸續開發出配套固件、調試工具、協議分析儀以及多層級軟件管理體系。底層硬件架構可以迭代升級,目前市場已推出成熟CXL設備、CXL內存控制器及配套交換芯片,企業均可依托現有硬件產品搭建方案、打磨上層軟件生態,后續再靈活切換其他互連架構。而內存池化部署、安全機制、系統可靠性統籌調度等高層應用邏輯,無需隨底層硬件同步變更。
提問:行業未來是傾向于在同一系統內兼容多種不同互連方案,還是依托成熟現有生態構建整體技術方案?
Siamak Tavallaei:大型云服務商單座數據中心內設備數量動輒數十萬級,若每一臺機柜硬件架構、通信標準都互不統一,后期故障排查難度將急劇攀升。從技術層面而言多方案兼容具備可行性,但統一設計標準、完成批量資質認證落地效率更高。企業沒有充足精力完成全品類產品適配認證,優選一套成熟方案完成全流程認證后批量復制落地,是更務實的選擇。
Madhumita Sanyal:目前市場主流主控端與固態硬盤、主控端與加速芯片之間,普遍采用PCIe與CXL互連方案。現階段啟動新項目研發的企業,未來在加速芯片之間互連場景中或許會引入UALink,但依舊會兼容CXL協議。短期之內,UALink很難全面替代CXL與UCIe協議。
Siamak Tavallaei:你的意思是CXL內存設備會持續普及,但CXL加速芯片普及節奏會相對滯后嗎?
Madhumita Sanyal:我所指的是主控端與加速芯片、主控端與固態硬盤之間的通信鏈路,這類場景依舊以CXL為主流。企業自研加速芯片時,通常會同時集成CXL、PCIe、UALink多種接口;部分高帶寬需求場景還會將單顆加速芯片拆分做多顆同尺寸裸片組合使用,裸片之間依靠UCIe互連,而加速芯片對接主控端依舊沿用CXL協議。
Siamak Tavallaei:想要充分釋放硬件性能,就必須走定制化、專業化路線。企業會針對不同應用場景做技術深耕,只要定制化接口方案具備商業價值,相關定制化研發就會持續推進。但行業很難形成一套大一統的全能互連協議,未來依舊會并存各類細分場景專屬解決方案。如今超大規模云廠商采購需求龐大,各類小眾定制化硬件方案也能實現規模化量產落地。
*聲明:本文系原作者創作。文章內容系其個人觀點,我方轉載僅為分享與討論,不代表我方贊成或認同,如有異議,請聯系后臺。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.