隨著國內(nèi)掀起“全民養(yǎng)蝦”熱潮,人們逐漸發(fā)現(xiàn),算力才是數(shù)字化轉(zhuǎn)型的“硬通貨”。然而,隨著LLM、Agent應用爆發(fā)式增長,企業(yè)卻紛紛陷入了焦慮。
當前,8卡服務器是主流,在模型研發(fā)初期,它能從容承接小模型訓練、輕量推理及原型驗證等需求,是入門利器。可當AI產(chǎn)業(yè)邁入商業(yè)化深水區(qū),8卡服務器的局限性便徹底暴露,淪為發(fā)展瓶頸。有人試圖通過堆卡解決問題,可動輒數(shù)百卡、上千卡的大規(guī)模超節(jié)點集群,對絕大多數(shù)企業(yè)而言都堪稱天文數(shù)字。
算力瓶頸已成為企業(yè)數(shù)字化轉(zhuǎn)型的“攔路虎”。在此背景下,中科曙光3月26日在中關村論壇發(fā)布的世界首個無線纜箱式超節(jié)點scaleX40,就尤其值得關注。對此,行業(yè)人士分析,在8卡的性能瓶頸與大集群的高成本之間,定位在普及型超節(jié)點的sacleX40有望快速填補市場空白,成為破局關鍵。
算力選型的誤區(qū)
首先,傳統(tǒng)8卡服務器因部署簡便、成本可控,一度成為企業(yè)的主流優(yōu)選。不過,隨著大模型參數(shù)量向千億、萬億發(fā)展,MoE架構成為主流,8卡服務器開始顯存容量吃緊、多驟機協(xié)同效率降、并發(fā)推理能力不足,很明顯不夠用了。此外,傳統(tǒng)8卡服務器還有高TCO、升級改造復雜、適配難度大等多重問題,已難以滿足日益增長的AI訓練與推理需求。就像用手機處理簡單日常工作沒啥問題,但想做點復雜工作,哪怕多買幾部手機拼一起也解決不了問題,除非換PC。
其次,很多企業(yè)認為只要不斷堆料,粗暴疊加卡的數(shù)量就能解決問題了。且不說上百卡乃至數(shù)百卡的集群采購成本足夠燒光公司幾年的預算,后續(xù)的機房、運維、電力成本也非常巨大,對絕大多數(shù)都過于昂貴,根本難以負擔。實際上,對這些公司來說,幾十卡已經(jīng)足夠,就算手持上百卡,大多時候系統(tǒng)也會閑置。就像每天拉幾十噸貨跑,一輛貨車裝不下,但也犯不上買火車。
最后,不少人轉(zhuǎn)而選擇云算力,看似靈活省心,可長期高頻使用下來,按次計費的成本居高不下,綜合算下來并不劃算,也難以支撐穩(wěn)定、規(guī)模化的業(yè)務運行。更重要的是,最近短短三個月內(nèi),AWS、谷歌云等廠商集體重塑定價策略,半年前AI創(chuàng)業(yè)者還能跟云廠商談折扣,現(xiàn)在能拿到配額就不錯了。
所以,綜合來看,在8卡入門配置與超大規(guī)模集群之間,還需要一個過渡。
中小規(guī)模的“算力甜點區(qū)”
如果你時刻關注行業(yè),可以看到迄今至少有8家廠商推出了自己的“超節(jié)點技術”。產(chǎn)品規(guī)格也不斷沖高,規(guī)模從64到上百,價格門檻層層抬升,但在這背后,真的能讓中小企業(yè)買得起、能落地的產(chǎn)品反而成為稀缺品。
行業(yè)普遍認為,超節(jié)點規(guī)模存在性能收益邊際遞減,32卡~256卡為高性價比投資“甜點區(qū)”,越往大規(guī)模靠攏,性能冗余越多,資源浪費也越嚴重。
32卡是千億級模型商業(yè)化落地的基本門檻,能覆蓋更廣泛的行業(yè)級應用,顯存池可完整承載模型、梯度與訓練數(shù)據(jù),既能支撐千億模型訓練,也能滿足中等并發(fā)推理,是兼顧性能與成本的實用配置。
不過,企業(yè)業(yè)務始終動態(tài)變化,模型規(guī)模與并發(fā)量隨時可能大幅提升,需要在32卡的基礎上進一步拓展能力邊界。此時就存在一個兼顧性能與成本的“算力甜點區(qū)”,不僅能夠?qū)⒉少忛T檻從“億元級”拉低至“千萬級”,同時適配90%企業(yè)場景。
![]()
買得起、用得上、用得好的超節(jié)點
“算力甜點區(qū)”的存在并非秘密,但市場上真正落地又好用的產(chǎn)品卻寥寥無幾。中科曙光便推出了全球首個箱式無線纜超節(jié)點scaleX40,讓超節(jié)點成為中國算力標配。
在此之前,曙光發(fā)布了面向大規(guī)模算力需求的超節(jié)點scaleX640,證明了自身在“大算力”領域的實力。然而,要讓更多企業(yè)真正享受到超節(jié)點的技術紅利,就必須向下兼容,這正是scaleX40的使命。從scaleX640的極致性能到scaleX40的普及落地,曙光實現(xiàn)了從“頂配”到“標配”的全場景覆蓋。
scaleX40采用標準19英寸箱式設計,打破傳統(tǒng)柜式超節(jié)點的高門檻,以無線纜、即插即用為特色,讓企業(yè)無需改造機房、無需專業(yè)運維即可擁有超節(jié)點級算力。為了能夠一站式搞定超節(jié)點運維管理、大模型和智能體開發(fā),曙光還推出了SothisAI平臺。
scaleX40的目標場景包括互聯(lián)網(wǎng)、金融、科教、電網(wǎng)、醫(yī)療、運營商六大領域,典型應用比如,智能客服、智能投研、風險控制、網(wǎng)絡故障預測、醫(yī)學影像輔助、虛擬實驗、智能教學等。
scaleX40超節(jié)點共有五個亮點:一是內(nèi)置40張AI加速卡,總算力超過28 PFLOPS(FP8精度),總顯存超過5TB,訪存帶寬突破80TB/s;二是40張加速卡實現(xiàn)一級Scale-Up全互連,持內(nèi)存語義與統(tǒng)一顯存編址,聚合帶寬超過17TB/s;三是采用正交架構,相比傳統(tǒng)銅纜方案可用性提升10倍,對比光纖連接功耗降低40%~70%;四是設備尺寸采用標準19英寸規(guī)格,兼容主流機柜,支持單柜單Pod或單柜雙Pod的靈活部署方式;五是開箱即用,兼容主流軟件生態(tài),擁有配套的開發(fā)工具、基礎軟件、AI大模型與應用,用戶可輕松完成大模型遷移,開箱即用。
與傳統(tǒng)8卡機方案相比,scaleX40在成本幾乎持平的前提下,訓練性能提升20%,推理性能更是大幅提升40%。與組合柜式超節(jié)點相比,采購門檻數(shù)量級下降。
![]()
值得一提的是,通過“scaleX40(計算)+ ScaleFabric(網(wǎng)絡)+ ParaStor F9000(存儲)”的存算傳三級強協(xié)同技術架構,訓推帶寬提升2倍以上,大模型推理TTFT降低97%,GPU利用率提升,KV cache offload卸載顯存壓力。
經(jīng)過測試,在vLLM+ParaStor+XDS+KV cache offload框架、scaleX40+scaleFabric(400G IB互連+ParaStor F9000的環(huán)境下,DeepSeek-R1-0528-671B的TTFT時場降低了97.3%,破局了當下推理性能瓶頸。
![]()
此外,scaleX40也支持OpenClaw私有化部署,為每位用戶提供專屬AI智能助手,聯(lián)動平臺skill、API及Agent,實現(xiàn)超節(jié)點高效管理與應用。
回歸理性,敏捷超節(jié)點是AI富場景落地的最優(yōu)解
最佳算力不是最貴的,而是最匹配業(yè)務的,理性選型的核心是“剛剛好”。40卡之所以成為行業(yè)共識,正是因為它既足夠敏捷,又在“夠用”與“不浪費”之間找到了黃金平衡點。
scaleX40的發(fā)布,一方面定義了性能上限,展現(xiàn)了頂尖的互連拓撲與集成能力,為多種AGI技術路線提供了極致算力支撐,另一方面提升了全系標準,其核心架構(統(tǒng)一互連、全局內(nèi)存、異構支持)將惠及整個產(chǎn)品矩陣,確保客戶無論從小規(guī)模起步驗證技術路線,還是擴展至大規(guī)模部署,都能獲得一致的體驗。
這意味著,無論客戶的集群規(guī)模大小、技術路線如何選擇,都能依托源自同一技術藍圖的先進架構優(yōu)勢,獲得適配自身需求的最優(yōu)方案。
更重要的是,scaleX40在性能與成本間取得平衡,向下可兼容32卡配置,向上則可通過擴展構建更大規(guī)模的集群,這種靈活性,使企業(yè)能夠根據(jù)自身業(yè)務節(jié)奏分步投入,而非一次性押注。
技術的價值一定要回歸千行百業(yè),喧囂退去,務實才是長久之道,曙光的scaleX40無疑做到了這一點。
來源:電子工程世界(EEWorld)作者:付斌
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.