前段時間在MWC巴塞展上,華為高調展示了自家最新的智算超節點產品——Atlas 950 SuperPoD,吸引了行業內外的關注。
![]()
說到超節點,大家應該都不會陌生。去年,華為昇騰384超節點全網刷屏,讓很多人建立了對這個概念的認知。說白了,超節點就是一個擁有很多GPU/NPU算卡的超級智算服務器,是一個高度集成的基礎算力集群單元。
那么,華為Atlas 950超節點和昇騰384有哪些不同?性能有怎樣的提升?華為頻繁發力超節點,意欲何為?
今天這篇文章,小棗君就來做一個深入解讀。
█ Atlas 950,到底有多強?
我們先來了解一下Atlas 950 超節點的一些技術細節。
Atlas 950超節點的技術指標非常強大。它基于“靈衢(UnifiedBus,UB)2.0”全光互聯協議,采用“單柜64卡”的模塊化基本單元。基于UB-Mesh遞歸直連拓撲網絡架構,支持單板內、單板間和機架間的NPU全互聯,最大可擴展至8192張昇騰950DT卡。
內存容量方面,Atlas 950超節點也達到1152TB。其FP8算力達到8 EFLOPS,FP4算力達到16 EFLOPS,互聯帶寬達到16PB/s。
![]()
16PB/s意味著什么?今天全球互聯網峰值帶寬也就不到1.6PB/s。Atlas 950一個產品的總互聯帶寬,已經是其10倍有余。
剛才我們提到的昇騰384,其實就是Atlas 900 超節點,滿配384卡,采用靈衢1.0協議。Atlas 950超節點支持的算卡規模是昇騰384的20多倍,算力等各方面指標都大幅提升。
相比英偉達將在2026年下半年上市的NVL144,Atlas 950超節點的算卡規模是其56.8倍,總算力是其6.7倍,內存容量是其15倍,互聯帶寬是其62倍。
別說是NVL144,就算是和英偉達計劃2027年上市的NVL576相比,Atlas 950超節點在各方面依然是領先的。
基于64個Atlas 950 SuperPoD(超節點)構建的Altas 950 SuperCluster(超級集群),性能更加恐怖,擁有524288張算卡,FP8算力達到524 EFLOPS,FP4算力突破1 ZFLOPS。
![]()
█ 死磕超節點,目的是什么?
華為這兩年在超節點領域頻繁發力,接連推出重量級產品。究其原因,還是因為華為深刻認識到,超節點產品在當下以及未來很長一段時間內,都是發展AI、搶占算力紅利的關鍵要素。
大家都知道,算力是AI的三大核心要素之一。隨著AI浪潮的蓬勃發展,大模型參數規模已邁入萬億級時代。在模態方面,大模型正從單模態LLM走向全模態融合統一。未來將會整合視覺、聽覺、文本等多感官信息,理解世界。
模型上下文長度,將從K級邁入兆級。訓練數據規模也從10TB級升級為100TB級。
從去年開始,AI浪潮也從Generative AI(生成式AI)階段逐漸進入Agentic AI(代理式AI)階段。Agentic AI需要更多任務協同,和多輪次推理迭代,傳統的計算架構難以滿足低時延要求。
所有這一切,都意味著整個社會對AI算力的需求將繼續呈現爆炸式增長。
傳統的應對方式,一是提升單芯片的算力,二是采用傳統連接技術進行服務器堆疊。
從芯片的角度來看,隨著芯片半導體制程工藝逐漸進入瓶頸,摩爾定律逐漸失效,單芯片能力提升的空間越來越小。
從互聯的角度來看,傳統互聯技術帶寬不足、時延大。搭建規模越大的算力集群,利用率反而越來越低。在穩定性和可靠性方面,也存在極大的不足。
所以,重新設計全新的互聯協議,打造一個真正強大的“一體化”算力集群,就成為必然選擇。
超節點,就是一種通過高速互聯協議連接更多算力芯片的計算系統。
它擁有巨大的互聯帶寬以及內存容量,能夠真正讓海量算力芯片形成一個“超級AI計算機”。這個“計算機”可以打破傳統架構限制,支持更大規模AI處理器的高效協同,實現更大范圍、更高流量的數據傳輸,從而突破系統性能瓶頸,釋放出巨大的協同效能。
█ Altas 950,強在哪里?
說了半天,華為Atlas950超節點為什么能實現前面提到的超強技術指標?它的背后,有哪些關鍵技術在提供支撐?
從本質來看,華為Atlas950超節點的技術核心,關鍵在于“一卡一網三特性”。
“一卡”,是指Atlas 950超節點搭載的昇騰950DT(Decode and Training)芯片。
![]()
這款芯片是華為專為超大規模AI訓練與推理Decode階段優化的專用NPU芯片。雖然芯片受限于制程工藝,但單卡性能仍表現亮眼,能夠支持FP4、FP8等低精度計算格式,可根據任務需求動態切換,兼顧算力性能與能耗控制。
值得一提的是,因為場景需要,950DT配備了更高性能的HiZQ 2.0 HBM,提供了高達144GB的內存容量和4TB/s的內存帶寬。
“一網”,是指Atlas 950超節點采用了最新的靈衢2.0互聯協議。
相比傳統互聯協議,靈衢2.0互聯協議的通信帶寬提升15倍,單跳通信時延從2微秒降至200納秒,降低10倍。該協議支持長距離高可靠全光無損互聯,通過全光Mesh拓撲,柜間帶寬實現10倍提升,跨柜卡間往返時延從7微秒降低到3微秒。
靈衢2.0充分發揮了光通信的優勢,消除了銅纜互聯的距離和帶寬限制,構建了“低時延、高帶寬、高可靠”的互聯傳輸體系。
值得一提的是,華為的靈衢2.0目前也有轉向開放的趨勢。
華為在2025年8月開放了靈衢協議的技術規范(600多頁),包括開放超節點參考架構、開放超節點基礎硬件、開源操作系統靈衢組件等。產業界完全可以基于規范,自研開發相關的產品或組件。
![]()
“三特性”,是指超大帶寬、超低時延和內存統一編址。
超大帶寬和超低時延前面已經提到了,應該不難理解。我們重點說說這個內存統一編址。
前面提到了,Atlas 950超節點擁有1152TB的超大內存。這些內存并非簡單的容量疊加,而是采用“內存池化”設計,將所有節點的內存資源整合為統一的共享資源池,實現內存統一編址。
超節點內所有互聯設備的內存地址需全局唯一,基于全局內存可實現任意設備間的靈活訪問,通過load/store指令級訪存,直接讀寫遠端NPU or CPU內存資源。這使得大模型訓練中頻繁的參數同步操作,無需經過傳統的“序列化-網絡傳輸-反序列化”流程,直接通過內存語義通信完成,提升小包數據傳輸及離散隨機訪存通信效率,同時可以在超節點域內實現更大的共享內存池。
換言之,基于內存統一編址技術,無需關注數據存儲在哪個節點,即可像訪問本地內存一樣,快速調取跨節點數據,大幅降低數據遷移成本;資源池化技術則可根據任務需求,動態分配內存、存儲、算力資源,避免資源閑置,實現算力利用率的最大化。
除了“一卡一網三特性”之外,Atlas 950超節點在工程化方面也有很多亮點。
例如,通過正交架構,Atlas 950實現了零線纜電互聯,整機柜預制,部署周期縮短70%。采用液冷接頭浮動盲插設計做到零漏液,現場免工具安裝,其獨創的材料和工藝讓光模塊液冷可靠性提升一倍。此外,系統的關鍵部件支持在線熱插拔,可以做到故障不中斷業務。
在能耗方面,冷板直接貼合芯片進行散熱,效率較風冷提升3倍。系統PUE逼近1.1,85%以上電力用于計算,萬卡集群年省電可達數千萬度。
在運維監控方面,Atlas 950支持全鏈路故障預警,集群級自愈。訓練中斷率降低90%,適配大模型長期訓練任務。
█ 最后的話
超節點技術,概括來說,就是用“系統化思維+工程化能力”挑戰“單卡性能極限”。
華為超節點跳出了單純堆疊芯片算力的路徑依賴,將昇騰950DT、靈衢2.0互聯協議與CANN軟件棧(2025年底已實現全面開源開放)深度協同,硬件、互聯、軟件深度融合,構建起端到端自主可控的AI算力底座。
通過自身在通信技術上的優勢,彌補在芯片制程上的劣勢。用“團隊作戰”取代“單打獨斗”。華為所說的“以非摩爾補摩爾,以數學補物理”,就是這個意思。
Atlas 950的核心競爭力,在于系統級架構創新與全鏈路技術優化。其背后,是華為在半導體、光通信、AI算法、軟件生態等領域的長期技術積累與沉淀。國內做算力芯片的企業越來越多,做超節點產品的也越來越多,但想要全面超越華為,存在相當大的難度。
根據消息透露,Atlas 950超節點將在今年上半年在國內發布,并在第四季度上市。隨著整個社會對AI算力需求的不斷增加,相信華為超節點產品會斬獲更多訂單,占據更大的市場份額。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.