網易首頁 > 網易號 > 正文申請入駐

聊聊華為的Atlas 950超節點

2026-05-11 17:27:40　來源: 鮮棗課堂

江蘇舉報

分享至

前段時間在MWC巴塞展上，華為高調展示了自家最新的智算超節點產品——Atlas 950 SuperPoD，吸引了行業內外的關注。

說到超節點，大家應該都不會陌生。去年，華為昇騰384超節點全網刷屏，讓很多人建立了對這個概念的認知。說白了，超節點就是一個擁有很多GPU/NPU算卡的超級智算服務器，是一個高度集成的基礎算力集群單元。

那么，華為Atlas 950超節點和昇騰384有哪些不同？性能有怎樣的提升？華為頻繁發力超節點，意欲何為？

今天這篇文章，小棗君就來做一個深入解讀。

█ Atlas 950，到底有多強？

我們先來了解一下Atlas 950 超節點的一些技術細節。

Atlas 950超節點的技術指標非常強大。它基于“靈衢（UnifiedBus，UB）2.0”全光互聯協議，采用“單柜64卡”的模塊化基本單元。基于UB-Mesh遞歸直連拓撲網絡架構，支持單板內、單板間和機架間的NPU全互聯，最大可擴展至8192張昇騰950DT卡。

內存容量方面，Atlas 950超節點也達到1152TB。其FP8算力達到8 EFLOPS，FP4算力達到16 EFLOPS，互聯帶寬達到16PB/s。

16PB/s意味著什么？今天全球互聯網峰值帶寬也就不到1.6PB/s。Atlas 950一個產品的總互聯帶寬，已經是其10倍有余。

剛才我們提到的昇騰384，其實就是Atlas 900 超節點，滿配384卡，采用靈衢1.0協議。Atlas 950超節點支持的算卡規模是昇騰384的20多倍，算力等各方面指標都大幅提升。

相比英偉達將在2026年下半年上市的NVL144，Atlas 950超節點的算卡規模是其56.8倍，總算力是其6.7倍，內存容量是其15倍，互聯帶寬是其62倍。

別說是NVL144，就算是和英偉達計劃2027年上市的NVL576相比，Atlas 950超節點在各方面依然是領先的。

基于64個Atlas 950 SuperPoD（超節點）構建的Altas 950 SuperCluster（超級集群），性能更加恐怖，擁有524288張算卡，FP8算力達到524 EFLOPS，FP4算力突破1 ZFLOPS。

█ 死磕超節點，目的是什么？

華為這兩年在超節點領域頻繁發力，接連推出重量級產品。究其原因，還是因為華為深刻認識到，超節點產品在當下以及未來很長一段時間內，都是發展AI、搶占算力紅利的關鍵要素。

大家都知道，算力是AI的三大核心要素之一。隨著AI浪潮的蓬勃發展，大模型參數規模已邁入萬億級時代。在模態方面，大模型正從單模態LLM走向全模態融合統一。未來將會整合視覺、聽覺、文本等多感官信息，理解世界。

模型上下文長度，將從K級邁入兆級。訓練數據規模也從10TB級升級為100TB級。

從去年開始，AI浪潮也從Generative AI（生成式AI）階段逐漸進入Agentic AI（代理式AI）階段。Agentic AI需要更多任務協同，和多輪次推理迭代，傳統的計算架構難以滿足低時延要求。

所有這一切，都意味著整個社會對AI算力的需求將繼續呈現爆炸式增長。

傳統的應對方式，一是提升單芯片的算力，二是采用傳統連接技術進行服務器堆疊。

從芯片的角度來看，隨著芯片半導體制程工藝逐漸進入瓶頸，摩爾定律逐漸失效，單芯片能力提升的空間越來越小。

從互聯的角度來看，傳統互聯技術帶寬不足、時延大。搭建規模越大的算力集群，利用率反而越來越低。在穩定性和可靠性方面，也存在極大的不足。

所以，重新設計全新的互聯協議，打造一個真正強大的“一體化”算力集群，就成為必然選擇。

超節點，就是一種通過高速互聯協議連接更多算力芯片的計算系統。

它擁有巨大的互聯帶寬以及內存容量，能夠真正讓海量算力芯片形成一個“超級AI計算機”。這個“計算機”可以打破傳統架構限制，支持更大規模AI處理器的高效協同，實現更大范圍、更高流量的數據傳輸，從而突破系統性能瓶頸，釋放出巨大的協同效能。

█ Altas 950，強在哪里？

說了半天，華為Atlas950超節點為什么能實現前面提到的超強技術指標？它的背后，有哪些關鍵技術在提供支撐？

從本質來看，華為Atlas950超節點的技術核心，關鍵在于“一卡一網三特性”。

“一卡”，是指Atlas 950超節點搭載的昇騰950DT（Decode and Training）芯片。

這款芯片是華為專為超大規模AI訓練與推理Decode階段優化的專用NPU芯片。雖然芯片受限于制程工藝，但單卡性能仍表現亮眼，能夠支持FP4、FP8等低精度計算格式，可根據任務需求動態切換，兼顧算力性能與能耗控制。

值得一提的是，因為場景需要，950DT配備了更高性能的HiZQ 2.0 HBM，提供了高達144GB的內存容量和4TB/s的內存帶寬。

“一網”，是指Atlas 950超節點采用了最新的靈衢2.0互聯協議。

相比傳統互聯協議，靈衢2.0互聯協議的通信帶寬提升15倍，單跳通信時延從2微秒降至200納秒，降低10倍。該協議支持長距離高可靠全光無損互聯，通過全光Mesh拓撲，柜間帶寬實現10倍提升，跨柜卡間往返時延從7微秒降低到3微秒。

靈衢2.0充分發揮了光通信的優勢，消除了銅纜互聯的距離和帶寬限制，構建了“低時延、高帶寬、高可靠”的互聯傳輸體系。

值得一提的是，華為的靈衢2.0目前也有轉向開放的趨勢。

華為在2025年8月開放了靈衢協議的技術規范（600多頁），包括開放超節點參考架構、開放超節點基礎硬件、開源操作系統靈衢組件等。產業界完全可以基于規范，自研開發相關的產品或組件。

“三特性”，是指超大帶寬、超低時延和內存統一編址。

超大帶寬和超低時延前面已經提到了，應該不難理解。我們重點說說這個內存統一編址。

前面提到了，Atlas 950超節點擁有1152TB的超大內存。這些內存并非簡單的容量疊加，而是采用“內存池化”設計，將所有節點的內存資源整合為統一的共享資源池，實現內存統一編址。

超節點內所有互聯設備的內存地址需全局唯一，基于全局內存可實現任意設備間的靈活訪問，通過load/store指令級訪存，直接讀寫遠端NPU or CPU內存資源。這使得大模型訓練中頻繁的參數同步操作，無需經過傳統的“序列化-網絡傳輸-反序列化”流程，直接通過內存語義通信完成，提升小包數據傳輸及離散隨機訪存通信效率，同時可以在超節點域內實現更大的共享內存池。

換言之，基于內存統一編址技術，無需關注數據存儲在哪個節點，即可像訪問本地內存一樣，快速調取跨節點數據，大幅降低數據遷移成本；資源池化技術則可根據任務需求，動態分配內存、存儲、算力資源，避免資源閑置，實現算力利用率的最大化。

除了“一卡一網三特性”之外，Atlas 950超節點在工程化方面也有很多亮點。

例如，通過正交架構，Atlas 950實現了零線纜電互聯，整機柜預制，部署周期縮短70%。采用液冷接頭浮動盲插設計做到零漏液，現場免工具安裝，其獨創的材料和工藝讓光模塊液冷可靠性提升一倍。此外，系統的關鍵部件支持在線熱插拔，可以做到故障不中斷業務。

在能耗方面，冷板直接貼合芯片進行散熱，效率較風冷提升3倍。系統PUE逼近1.1，85%以上電力用于計算，萬卡集群年省電可達數千萬度。

在運維監控方面，Atlas 950支持全鏈路故障預警，集群級自愈。訓練中斷率降低90%，適配大模型長期訓練任務。

█ 最后的話

超節點技術，概括來說，就是用“系統化思維+工程化能力”挑戰“單卡性能極限”。

華為超節點跳出了單純堆疊芯片算力的路徑依賴，將昇騰950DT、靈衢2.0互聯協議與CANN軟件棧（2025年底已實現全面開源開放）深度協同，硬件、互聯、軟件深度融合，構建起端到端自主可控的AI算力底座。

通過自身在通信技術上的優勢，彌補在芯片制程上的劣勢。用“團隊作戰”取代“單打獨斗”。華為所說的“以非摩爾補摩爾，以數學補物理”，就是這個意思。

Atlas 950的核心競爭力，在于系統級架構創新與全鏈路技術優化。其背后，是華為在半導體、光通信、AI算法、軟件生態等領域的長期技術積累與沉淀。國內做算力芯片的企業越來越多，做超節點產品的也越來越多，但想要全面超越華為，存在相當大的難度。

根據消息透露，Atlas 950超節點將在今年上半年在國內發布，并在第四季度上市。隨著整個社會對AI算力需求的不斷增加，相信華為超節點產品會斬獲更多訂單，占據更大的市場份額。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.