AI算力競賽進入“超節(jié)點時代”。
英偉達發(fā)布新一代Blackwell Ultra集群,華為推出384卡液冷超節(jié)點,沐曦、摩爾線程等國內(nèi)玩家紛紛亮劍——一場圍繞“高帶寬、高密度、高能效”的超級計算架構(gòu)之戰(zhàn),正悄然改寫智算中心的游戲規(guī)則。
然而,在硬件堆砌的背后,一個更深層的挑戰(zhàn)浮出水面:如何讓成千上萬張GPU“像一顆芯片一樣工作”?
互聯(lián),成為超節(jié)點效能的關(guān)鍵瓶頸。
在此背景下,國內(nèi)首家推出超節(jié)點通用互聯(lián)芯粒的奇異摩爾,正試圖用一顆“小芯片”撬動千億級算力基建的互聯(lián)生態(tài)。
芯師爺獨家對話奇異摩爾聯(lián)合創(chuàng)始人、產(chǎn)品及解決方案副總裁祝俊東,深入解讀超節(jié)點的技術(shù)本質(zhì)、行業(yè)痛點,以及國產(chǎn)互聯(lián)芯粒的破局之路。
![]()
![]()
奇異摩爾聯(lián)合創(chuàng)始人
產(chǎn)品及解決方案副總裁祝俊東
Q1
![]()
目前,超節(jié)點的概念非常火熱,包括英偉達、華為、中科曙光、摩爾線程、沐曦在內(nèi)的多家頭部企業(yè)均推出相應方案。請問什么是超節(jié)點?您如何看待超節(jié)點的發(fā)展趨勢?
祝俊東:
近期,超節(jié)點概念火熱,相關(guān)會議增多,ODCC 舉辦了第一屆超節(jié)點大會,顯示出行業(yè)對超節(jié)點的關(guān)注度不斷提高。超節(jié)點其實沒有一個很明確的標準定義,更多是一個行業(yè)概念。這個概念最早是谷歌在大約五六年前提出的,他們稱之為“高帶寬域”(High Bandwidth Domain,HBD)。
簡單來說,超節(jié)點是指在智算集群中,將一定數(shù)量的計算單元(比如GPU或其他xPU)通過極高帶寬的網(wǎng)絡互聯(lián)在一起,形成一個內(nèi)部通信效率遠高于外部互聯(lián)的算力單元。例如,一個由100張GPU組成的超節(jié)點,其內(nèi)部互聯(lián)帶寬遠高于這100張GPU與集群中其他GPU之間的連接帶寬。在這樣一個超節(jié)點內(nèi)部,因為互聯(lián)帶寬足夠高,這些GPU可以像一顆大的xPU一樣協(xié)同工作。
從形態(tài)上看,超節(jié)點通常表現(xiàn)為物理規(guī)模更大的機柜。例如華為推出的384卡超節(jié)點,就是一整排機柜;中科曙光、阿里等也有類似方案。這意味著服務器從容納幾個、十幾個計算單元,發(fā)展到可容納幾十甚至近百個計算單元,并且這些大服務器之間通過高帶寬緊密互聯(lián)。
所以,超節(jié)點可以理解為:將若干張GPU以極高帶寬互聯(lián)在一起,位置靠近,并能像一顆統(tǒng)一的計算單元那樣工作的技術(shù)架構(gòu)。
Q2
![]()
現(xiàn)階段,超節(jié)點建設(shè)還存在哪些挑戰(zhàn)?
祝俊東:
超節(jié)點雖然從效能來看是一個非常好的解決方案,但也面臨多方面的挑戰(zhàn):
首先是供電與散熱。超節(jié)點功耗非常高,傳統(tǒng)數(shù)據(jù)中心一個機柜約30kW,而超節(jié)點機柜可能達到60、70甚至100kW。這對數(shù)據(jù)中心的電力基礎(chǔ)設(shè)施和散熱系統(tǒng)都提出了更高要求,因此很多超節(jié)點方案-已經(jīng)采用液冷散熱。
其次是連接密度與距離問題。超節(jié)點內(nèi)部需要實現(xiàn)高速互聯(lián),連接方式無論是通過背板還是線纜,密度都是一個挑戰(zhàn)。現(xiàn)在行業(yè)內(nèi)在推動例如正交背板這類高密度連接方案。另外,隨著超節(jié)點規(guī)模擴大,例如達到512卡甚至1000卡,節(jié)點內(nèi)距離變遠,傳統(tǒng)電纜無法滿足需求,必須引入光互聯(lián)。比如華為的384卡超節(jié)點,就已在節(jié)點內(nèi)部使用光連接。
第三是協(xié)議與標準缺失。超節(jié)點內(nèi)部互聯(lián)需要統(tǒng)一的協(xié)議支持,但目前這一領(lǐng)域還缺乏像以太網(wǎng)或傳統(tǒng)移動通信類似成熟的標準。這導致不同廠商之間的設(shè)備難以互聯(lián)互通,也影響了交換機和計算節(jié)點之間的對接方式。最近一兩年,行業(yè)里無論是國際還是國內(nèi),都出現(xiàn)了不少超節(jié)點相關(guān)的規(guī)范和標準倡議,比如SUE、OISA、ETH-X、UALink等,這些開放協(xié)議生態(tài)本身是一個積極的發(fā)展方向。
Q3
![]()
在目前的超節(jié)點互聯(lián)方案中,有芯粒(Chiplet)和IP兩種類型。相較而言,兩種技術(shù)路徑在效率、性能、成本等方面各有什么優(yōu)勢?
祝俊東:
IP是一種比較傳統(tǒng)的實現(xiàn)方式,相當于購買一個功能模塊集成到芯片中。它的優(yōu)勢是大家比較熟悉,集成起來相對容易。但不足之處是采購成本高,且與計算芯片綁定緊密,一旦互聯(lián)協(xié)議或標準發(fā)生變化,就需要重新設(shè)計芯片,迭代缺乏靈活性。
芯粒方案則是將互聯(lián)功能獨立做成一個單獨的芯片模塊,與計算芯粒通過先進的異構(gòu)集成方式集成在一起。它的優(yōu)勢主要體現(xiàn)在三方面:
一是提升計算性能。芯粒可以將更多芯片面積留給計算單元,從而提高算力。
二是迭代靈活。計算芯粒和互聯(lián)芯粒可以獨立升級。這樣即使未來超節(jié)點標準發(fā)生變化,也只需更新互聯(lián)芯粒,而不必改動計算芯粒,大大降低了迭代成本和周期。
三是降低研發(fā)門檻。采用芯粒方案,客戶在設(shè)計中不需要從頭開發(fā)互聯(lián)部分,可以直接使用成熟的互聯(lián)芯粒,從而縮短設(shè)計周期,降低前期投入。
Q4
![]()
奇異摩爾推出了Kiwi G2G IOD超節(jié)點互聯(lián)芯粒,也是業(yè)內(nèi)首個針對這一行業(yè)痛點的系統(tǒng)性解決方案。該方案有哪些獨到優(yōu)勢?奇異摩爾在AI網(wǎng)絡互聯(lián)方面還有哪些獨到技術(shù)?
祝俊東:
Kiwi G2G IOD是業(yè)界首個通用的超節(jié)點互聯(lián)芯粒。此前的互聯(lián)芯粒多是廠商自研自用,而我們提供的是開放、通用的解決方案。
奇異摩爾的優(yōu)勢主要有以下幾點:
支持多協(xié)議且可編程。我們基于自研的HPDE高性能可編程架構(gòu),可以在同一顆芯粒上支持不同的互聯(lián)標準,并能通過更新來適應未來標準的演進,解決了標準快速迭代帶來的兼容性問題。
標準化接口與軟件支持。我們采用UCIe標準接口,并提供完整的軟件接口,客戶可以快速將芯粒集成到其產(chǎn)品中,降低集成難度。
![]()
此外,奇異摩爾是一家擁有橫跨AI基礎(chǔ)設(shè)施互聯(lián)全棧服務能力的硬科技企業(yè)。在Scale up超節(jié)點xPU間互聯(lián),憑借我們在芯粒領(lǐng)域的豐富經(jīng)驗,還能提供給客戶基于芯粒的參考設(shè)計、驗證與設(shè)計支持,幫助客戶降低研發(fā)門檻,加速產(chǎn)品落地。
在Scale Out網(wǎng)間互聯(lián)領(lǐng)域,我們面向運營商、云廠商、智算集群提供專為AI網(wǎng)絡定制的AI NIC,又名Kiwi SNIC 超級網(wǎng)卡,它具備高性能RDMA能力,可有效應對AI網(wǎng)絡中的擁塞、丟包等各種互聯(lián)挑戰(zhàn)。
![]()
Q5
![]()
AI時代,算法廠商、硬件廠商和云廠商之間的傳統(tǒng)分工邊界正在模糊,行業(yè)上下游跨界協(xié)同的案例越來越多。您如何看待這一行業(yè)趨勢?奇異摩爾是否有相應的案例可以分享?
祝俊東:
AI時代與云計算時代的一個很大不同,在于迭代速度極快,對軟硬件協(xié)同的要求非常高。傳統(tǒng)IDC那種清晰的分工模式正在被打破,算法、硬件、基礎(chǔ)設(shè)施必須更緊密地協(xié)作。
奇異摩爾作為硬件底層廠商,也積極與模型廠商、云廠商、 Infra廠商乃至交換機廠商開展交流和合作。例如,我們與多家模型廠商和云廠商共同探討模型發(fā)展趨勢對硬件和互聯(lián)的具體需求,比如Scale Up與Scale Out在不同場景下的優(yōu)化方向等。
我們還會定期組織閉門技術(shù)沙龍,邀請產(chǎn)業(yè)鏈上下游伙伴一起研討技術(shù)趨勢與協(xié)同需求。這種跨層對話對推動整個AI基礎(chǔ)設(shè)施的迭代演進非常重要。
![]()
Q6
![]()
DeepSeek通過頂尖的全棧工程優(yōu)化,證明大模型推理可以做到既強大又經(jīng)濟,也間接帶動了AI推理市場的爆發(fā)。在您看來,相較于訓練,大模型推理對于芯片和網(wǎng)絡互聯(lián)的需求有什么變化,技術(shù)趨勢又將如何發(fā)展?
祝俊東:
DeepSeek的實踐表明,推理也可以通過大規(guī)模集群實現(xiàn)高性價比,這對整個AI推理市場的推動非常明顯。
推理與訓練在需求上有幾個明顯區(qū)別:
第一是對帶寬要求更高。推理超節(jié)點需要TB級的互聯(lián)帶寬,遠高于傳統(tǒng)PCIe的幾十GB水平。
第二是協(xié)議復雜度增加。隨著超節(jié)點規(guī)模擴大,互聯(lián)協(xié)議從點對點協(xié)議變?yōu)橄鄬碗s的網(wǎng)絡協(xié)議,對網(wǎng)絡協(xié)議的處理和調(diào)度能力提出了更高要求。
第三是延遲敏感。大部分推理場景下,用戶對模型響應的第一個Token時間非常敏感,因此互聯(lián)延遲成為關(guān)鍵指標。
第四是存儲與數(shù)據(jù)調(diào)度更復雜。超節(jié)點之間需要高效共享KV Cache等數(shù)據(jù),對統(tǒng)一存儲架構(gòu)和跨節(jié)點數(shù)據(jù)調(diào)度提出了新要求。
同時,互聯(lián)方式正在發(fā)生轉(zhuǎn)變,光互聯(lián)正成為未來超節(jié)點的關(guān)鍵趨勢。隨著節(jié)點規(guī)模擴大,電互聯(lián)的距離限制凸顯,光互聯(lián)和新型網(wǎng)絡架構(gòu)將成為必然選擇。
未來,推理集群的規(guī)模還可能進一步擴大,對互聯(lián)協(xié)議、網(wǎng)絡調(diào)度以及軟硬件協(xié)同都將提出更高要求。
![]()
從谷歌提出“高帶寬域”,到今天國產(chǎn)超節(jié)點方案百花齊放;從訓練主導到推理爆發(fā),從電互聯(lián)到光互聯(lián)......超節(jié)點不僅是硬件的升級,更是整個AI基礎(chǔ)設(shè)施在架構(gòu)、協(xié)議、生態(tài)上的系統(tǒng)性演進。
正如祝俊東所言,“超節(jié)點正在重新定義算力的組織方式”。在這場由效能驅(qū)動的競賽中,國產(chǎn)芯片企業(yè)能否在互聯(lián)層實現(xiàn)關(guān)鍵技術(shù)突破,將直接影響中國智算集群的競爭力與自主可控程度。
奇異摩爾推出的Kiwi G2G IOD互聯(lián)芯粒,正是這一進程中的一次重要嘗試。它不僅是技術(shù)產(chǎn)品,更是一種生態(tài)倡議——推動開放、通用、可迭代的互聯(lián)標準,助力國產(chǎn)AI算力走出“堆卡易,聯(lián)卡難”的困境。
未來已來,在這場沒有終點的算力長征中,互聯(lián),或許正是下一個決勝之地。
本文內(nèi)容資料源自公告及媒體公開報道,不構(gòu)成任何投資建議,如有任何問題,敬請讀者與我們聯(lián)系info@gsi24.com。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.