一位很久未聯(lián)系的朋友,突然問了我們一個(gè)問題:最近總是刷到超節(jié)點(diǎn)的帖子,這到底是個(gè)什么技術(shù)?
一個(gè)星期前的華為HC 2025上,正式拋出了“超節(jié)點(diǎn)”的概念,朋友圈、行業(yè)群乃至資本市場(chǎng),幾乎都在一夜之間都被“超節(jié)點(diǎn)”刷屏。原本只在算力行業(yè)討論的話題,迅速走進(jìn)了大眾視野。
進(jìn)一步翻看過去兩個(gè)月的新聞,和“超節(jié)點(diǎn)”概念有關(guān)聯(lián)的不只是華為,百度、浪潮、騰訊、字節(jié)跳動(dòng)等都官宣了超節(jié)點(diǎn)服務(wù)器的布局,已然成了算力產(chǎn)業(yè)的新風(fēng)向,演變?yōu)橐环N新的產(chǎn)業(yè)敘事。
問題來了:為什么“超節(jié)點(diǎn)”能一夜走紅?到底是什么樣的創(chuàng)新?又將怎么改變AI產(chǎn)業(yè)的格局?
讓我們來一一回答。
01 一場(chǎng)應(yīng)用驅(qū)動(dòng)的架構(gòu)革命
回答超節(jié)點(diǎn)概念走紅的原因前,先來梳理下大模型的現(xiàn)狀:
在大模型訓(xùn)練層面,正沿著“規(guī)模定律”不斷演進(jìn),參數(shù)與集群規(guī)模實(shí)現(xiàn)了“雙萬(wàn)”跨越,即大模型參數(shù)從億級(jí)躍遷至萬(wàn)億級(jí),訓(xùn)練集群從“萬(wàn)卡”走向“十萬(wàn)卡”,呈現(xiàn)出了驚人的倍數(shù)級(jí)增長(zhǎng)趨勢(shì)。
在大模型推理層面,當(dāng)前中國(guó)的日均Token消耗量已經(jīng)超過30萬(wàn)億,考慮到Agentic AI、Physical AI的演變趨勢(shì),推理需求還將指數(shù)級(jí)增長(zhǎng),要求計(jì)算集群同時(shí)滿足低時(shí)延、高吞吐的需求。
這些變化和“超節(jié)點(diǎn)”有什么關(guān)系呢?
9月18日舉辦的昇騰AI人工智能產(chǎn)業(yè)峰會(huì)上,中國(guó)信息通信研究院、中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院、全球計(jì)算聯(lián)盟GCC、國(guó)家信息中心攜手產(chǎn)業(yè)界正式發(fā)布了《超節(jié)點(diǎn)發(fā)展報(bào)告》,給出了專業(yè)的解釋。
傳統(tǒng)的服務(wù)器集群主要采用“橫向擴(kuò)展”的架構(gòu),能夠很好地適配松耦合的計(jì)算負(fù)載,但不同機(jī)柜間由于線性度的影響會(huì)有算力性能損失,導(dǎo)致1+1<2。確切地說,面臨著三重系統(tǒng)性挑戰(zhàn):
首先是通信墻,千億級(jí)模型一次梯度同步就有TB級(jí)的數(shù)據(jù),傳統(tǒng)以太網(wǎng)難以承受;其次是功耗與散熱墻,為破通信墻而提升密度,促使液冷、48V供電成標(biāo)配;以及復(fù)雜度墻,萬(wàn)卡集群進(jìn)一步抬升了運(yùn)維復(fù)雜度。
時(shí)間回到2025年4月,“超節(jié)點(diǎn)”成了技術(shù)圈的熱門話題,原因是華為實(shí)現(xiàn)了業(yè)界最大規(guī)模的384卡高速總線互聯(lián)。
和傳統(tǒng)集群的最大區(qū)別,昇騰采用了“以網(wǎng)聯(lián)算”的技術(shù)路徑,基于高速互聯(lián)總線突破了算力協(xié)同瓶頸,讓計(jì)算集群像一臺(tái)計(jì)算機(jī)一樣高效工作,并可實(shí)現(xiàn)“一卡一專家”并行推理。
昇騰驗(yàn)證了超節(jié)點(diǎn)技術(shù)的可行性,這場(chǎng)架構(gòu)革命激起的漣漪,迅速在產(chǎn)業(yè)中擴(kuò)散,算力廠商紛紛擁抱“超節(jié)點(diǎn)”。
02 “超節(jié)點(diǎn)”的三個(gè)技術(shù)特征
怎么判斷什么是真正的“超節(jié)點(diǎn)“呢?最直觀的指標(biāo)無(wú)疑是性能。《超節(jié)點(diǎn)發(fā)展報(bào)告》歸納了三個(gè)技術(shù)特征:
一是超大帶寬。
傳統(tǒng)計(jì)算集的卡間互聯(lián)依賴PCIe或以太網(wǎng),目前跨服務(wù)器互聯(lián)帶寬多為50Gb/s上下。在千億級(jí)模型訓(xùn)練的并行計(jì)算場(chǎng)景中,頻繁的GB級(jí)數(shù)據(jù)傳輸造成的通信阻塞,會(huì)導(dǎo)致計(jì)算等待通信,浪費(fèi)算力資源。
“超節(jié)點(diǎn)”的高速互聯(lián)協(xié)議打破了傳統(tǒng)的架構(gòu)限制,可實(shí)現(xiàn)更大范圍、更高流量的數(shù)據(jù)傳輸。以昇騰384超節(jié)點(diǎn)為例,通信帶寬提升了15倍,即使是千卡集群也能像“單機(jī)多卡”一樣高效協(xié)同,告別“等數(shù)傳”的現(xiàn)象。
二是超低時(shí)延。
跨服務(wù)器互聯(lián)帶寬的時(shí)延普遍高達(dá)數(shù)十微秒,同樣是制約算力利用率的誘因。特別是MoE模型,要求在不同專家間頻繁調(diào)度數(shù)據(jù),如果互聯(lián)帶寬和時(shí)延跟不上,模型規(guī)模越大就越難跑起來。
還是以昇騰384超節(jié)點(diǎn)為例,單跳通信時(shí)延從2微秒做到了200納秒,降低了整整10倍。比性能指標(biāo)更有說服力的,是實(shí)戰(zhàn)中的表現(xiàn),比如在DeepSeek、Qwen等多模態(tài)、MoE模型的并行計(jì)算中,昇騰384超節(jié)點(diǎn)的通信效率實(shí)現(xiàn)了3倍以上的提升。
三是內(nèi)存統(tǒng)一編址。
傳統(tǒng)集群的每個(gè)節(jié)點(diǎn)有獨(dú)立的內(nèi)存池,而“超節(jié)點(diǎn)”實(shí)現(xiàn)了跨設(shè)備的統(tǒng)一尋址與靈活訪問,大模型訓(xùn)練中頻繁的參數(shù)同步操作,不再需要“序列化—網(wǎng)絡(luò)傳輸—反序列化”流程,直接通過內(nèi)存語(yǔ)義通信完成,大幅提升了小包傳輸與離散隨機(jī)訪存的效率。
在訪問模式上,超節(jié)點(diǎn)還應(yīng)支持異步與同步兩種機(jī)制,滿足客戶在不同場(chǎng)景下的需求:批量數(shù)據(jù)的快速傳輸與處理,采用能夠高效進(jìn)行大塊數(shù)據(jù)搬移的異步模式;對(duì)小塊數(shù)據(jù)的精細(xì)化處理,則采用同步模式。
不難發(fā)現(xiàn),“超節(jié)點(diǎn)”最大的技術(shù)挑戰(zhàn)在于互聯(lián)技術(shù),如何做到長(zhǎng)距離且高可靠、如何做到大帶寬且低時(shí)延,都不是一朝一夕可以解決的。相對(duì)樂觀的是,走開源開放模式的昇騰,在互聯(lián)技術(shù)上沒有“藏私”。
在HC 2025上,華為正式發(fā)布了靈衢——一個(gè)面向超節(jié)點(diǎn)的互聯(lián)協(xié)議,并宣布將開放靈衢2.0技術(shù)規(guī)范。
“靈衢”的命名,可以追溯到“九省通衢”,寄托了大規(guī)模算力聯(lián)通的愿景,也是華為從2019年就開始研究的技術(shù)。無(wú)論是前面提到的昇騰384超節(jié)點(diǎn),還是支持8192張卡的Atlas 950超節(jié)點(diǎn),都是基于“靈衢”開創(chuàng)的。在業(yè)內(nèi)人士看來,靈衢的革命意義不亞于AI基礎(chǔ)設(shè)施的再造。
不只是互聯(lián)協(xié)議的開放,華為還將全面開放超節(jié)點(diǎn)技術(shù),包括開放超節(jié)點(diǎn)參考架構(gòu)、開放超節(jié)點(diǎn)基礎(chǔ)硬件、開源操作系統(tǒng)靈衢組件等,允許產(chǎn)業(yè)界基于技術(shù)規(guī)范自研相關(guān)產(chǎn)品或部件,自主設(shè)計(jì)基于靈衢的各種產(chǎn)品。
同時(shí)也意味著,堅(jiān)持硬件開放、軟件開源的華為,希望和伙伴打造面向行業(yè)的超節(jié)點(diǎn)場(chǎng)景化解決方案,讓超大帶寬、超低時(shí)延、內(nèi)存統(tǒng)一編址成為一種算力新范式。
03 來自產(chǎn)業(yè)側(cè)的認(rèn)可與回應(yīng)
最能回答“超節(jié)點(diǎn)”價(jià)值的,無(wú)疑是需求最強(qiáng)烈、嗅覺最敏銳、行動(dòng)最迅捷的大中型企業(yè),他們處在AI落地的第一線,既是大模型應(yīng)用的生力軍和探路者,也是檢驗(yàn)創(chuàng)新成敗和成效的風(fēng)向標(biāo)。
比如昇騰AI人工智能產(chǎn)業(yè)峰會(huì)和《超節(jié)點(diǎn)發(fā)展報(bào)告》提及的幾個(gè)行業(yè)案例。
第一個(gè)是制造業(yè)。
家電作為典型的高頻使用場(chǎng)景,早在2015年前后就開始探索AI語(yǔ)音交互、智能感知等功能的應(yīng)用。到了大模型時(shí)代,涵蓋研發(fā)、制造、渠道、服務(wù)全鏈條的家電廠商,為AI的全面落地提供了天然土壤。
其中昇騰超節(jié)點(diǎn)為某家電巨頭開展模型訓(xùn)練提供了堅(jiān)實(shí)支撐,雙方聯(lián)合優(yōu)化算力利用率,加速了AIGC戰(zhàn)略落地。目前AI已經(jīng)在158個(gè)核心場(chǎng)景中落地應(yīng)用,包括企業(yè)經(jīng)營(yíng)提效、業(yè)務(wù)模式創(chuàng)新和商業(yè)模式升級(jí)。
第二個(gè)是金融行業(yè)。
如果說家電是“場(chǎng)景驅(qū)動(dòng)+終端規(guī)模”的AI應(yīng)用先鋒,金融就是“數(shù)據(jù)驅(qū)動(dòng)+風(fēng)險(xiǎn)導(dǎo)向”的AI應(yīng)用深水區(qū),對(duì)提升金融安全性、提升效率、提升決策力,有著毋庸置疑的剛需,也是最早試水AI的行業(yè)。
某銀行攜手昇騰構(gòu)建了高性能千卡訓(xùn)推算力集群,并部署了大規(guī)模專家并行推理方案,相比傳統(tǒng)方案實(shí)現(xiàn)了3倍吞吐性能提升,加速了大模型的規(guī)模化應(yīng)用,深度賦能智能客服、審貸助手、后訓(xùn)練數(shù)據(jù)合成等業(yè)務(wù)場(chǎng)景。
以及更普適的落地案例。
對(duì)于業(yè)務(wù)多元的行業(yè)大型集團(tuán)來說,智能化轉(zhuǎn)型的最大痛點(diǎn)不是怎么轉(zhuǎn),而是業(yè)務(wù)場(chǎng)景需求激增、低資源算力重復(fù)建設(shè)等問題,需要構(gòu)建集中化、平臺(tái)化的基礎(chǔ)設(shè)施,避免因算力困局拖了業(yè)務(wù)的“后腿”。
某集團(tuán)型企業(yè)的做法是引入昇騰384超節(jié)點(diǎn),通過超節(jié)點(diǎn)的大規(guī)模、高帶寬、低時(shí)延、算力切分、虛擬化、訓(xùn)推一體等能力,面向企業(yè)內(nèi)部提供統(tǒng)一的大模型API服務(wù),滿足不同業(yè)務(wù)場(chǎng)景對(duì)訓(xùn)、推算力的需求,目前已經(jīng)服務(wù)智慧運(yùn)營(yíng)、智慧管理、智慧運(yùn)維等核心場(chǎng)景。
按照昇騰官方公布的數(shù)據(jù):昇騰384超節(jié)點(diǎn)自發(fā)布以來,累計(jì)部署量已經(jīng)超過300套,服務(wù)了20多家客戶。
比數(shù)字更有價(jià)值的,或許是這些案例所揭示的一個(gè)事實(shí):一旦產(chǎn)業(yè)一線的“頭雁們”打破了算力瓶頸,爆發(fā)往往是指數(shù)級(jí)的。在海量場(chǎng)景和需求的牽引下,中大型企業(yè)AI落地的深度和廣度,已然超出了許多人的想象。在“群起效應(yīng)”的作用下,這些“頭雁”將帶動(dòng)成千上萬(wàn)家企業(yè)邁向智能化。
04 寫在最后
當(dāng)我們談?wù)摮?jié)點(diǎn)時(shí),不僅是在討論一組組冷冰冰的性能指標(biāo),同時(shí)在展望一條通向未來的道路。
靈衢互聯(lián)協(xié)議的開放、軟硬件生態(tài)的共建,如同曾經(jīng)的電力和互聯(lián)網(wǎng)一樣,將算力從“頭部企業(yè)專屬”帶向了“全產(chǎn)業(yè)可用”。屬于“超節(jié)點(diǎn)”的故事才剛剛開始,點(diǎn)亮的不只是算力的躍遷,還有智能化時(shí)代的序章。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.