一、國(guó)內(nèi)超節(jié)點(diǎn)需求端變化及主要廠商情況
國(guó)內(nèi)超節(jié)點(diǎn)當(dāng)前以HW為主要出貨廠商,其Cloud Matrix 384已在銀行(工商銀行、招商銀行,各十余臺(tái))、央國(guó)企(國(guó)網(wǎng))及政務(wù)機(jī)構(gòu)(2-3臺(tái))批量部署,預(yù)計(jì)2026年出貨量50-60臺(tái)。互聯(lián)網(wǎng)客戶需求呈現(xiàn)分化:字節(jié)僅小規(guī)模測(cè)試HW超節(jié)點(diǎn)(3套),已轉(zhuǎn)向自研并委托華三、中興等8家ODM廠商設(shè)計(jì),計(jì)劃2027年超節(jié)點(diǎn)占比提升至80%;騰訊委托華勤設(shè)計(jì)超節(jié)點(diǎn),2027年目標(biāo)部署規(guī)模占算力總量50%,預(yù)計(jì)數(shù)量達(dá)數(shù)百臺(tái);阿里(盤古)、百度均推進(jìn)自研超節(jié)點(diǎn),2027年下半年需求將全面轉(zhuǎn)向超節(jié)點(diǎn)。華三、浪潮等OEM廠商暫未實(shí)現(xiàn)大規(guī)模部署。
二、國(guó)產(chǎn)超節(jié)點(diǎn)部署的必要性及應(yīng)用場(chǎng)景
國(guó)產(chǎn)超節(jié)點(diǎn)核心價(jià)值在于推理場(chǎng)景的性價(jià)比優(yōu)勢(shì),較分立式八卡機(jī)集群性能提升20%以上,尤其適用于超大體量模型的并發(fā)推理。訓(xùn)練場(chǎng)景暫不具備可行性:國(guó)產(chǎn)卡算力較弱且定制化效率不足,即便構(gòu)建超節(jié)點(diǎn)也難以承擔(dān)大規(guī)模模型訓(xùn)練任務(wù),當(dāng)前訓(xùn)練仍依賴傳統(tǒng)解決方案。
三、國(guó)內(nèi)主要CSP廠商超節(jié)點(diǎn)進(jìn)展
阿里:自研“盤久”超節(jié)點(diǎn),支持第三方卡,2026年開始對(duì)外銷售,內(nèi)部阿里云暫未大規(guī)模使用。
百度:2026年內(nèi)部超節(jié)點(diǎn)需求量對(duì)應(yīng)近6萬片卡,具體規(guī)模需結(jié)合單卡配置測(cè)算。
字節(jié):“大禹”項(xiàng)目委托ODM廠商按規(guī)范設(shè)計(jì),2027年將公開招標(biāo)確定入圍廠商及卡類型,全年超節(jié)點(diǎn)需求占比80%。
騰訊:僅向華勤開放超節(jié)點(diǎn)設(shè)計(jì)規(guī)范,2027年計(jì)劃50%算力部署超節(jié)點(diǎn),具體數(shù)量待整體算力規(guī)劃確定。
四、國(guó)產(chǎn)超節(jié)點(diǎn)與海外高端超節(jié)點(diǎn)的性能差異及應(yīng)用場(chǎng)景對(duì)比
國(guó)內(nèi)超節(jié)點(diǎn)性能顯著落后于海外,華為Cloud Matrix 384僅略優(yōu)于NV172,與GT300差距達(dá)4-5倍,整體性能為海外產(chǎn)品的幾分之一。應(yīng)用場(chǎng)景分化:海外超節(jié)點(diǎn)聚焦大規(guī)模訓(xùn)練及訓(xùn)推一體,國(guó)內(nèi)則專注推理場(chǎng)景的性價(jià)比優(yōu)化,兩者追求指標(biāo)及業(yè)務(wù)場(chǎng)景差異顯著。
五、國(guó)內(nèi)超節(jié)點(diǎn)性能優(yōu)勢(shì)的核心差異因素
核心差異體現(xiàn)在兩點(diǎn):一是算力卡類型,二是scale up解決方案。ODM廠商超節(jié)點(diǎn)設(shè)計(jì)雷同性高,均強(qiáng)調(diào)對(duì)國(guó)產(chǎn)算力卡的兼容性,實(shí)際性能差異主要由單卡性能決定,超節(jié)點(diǎn)本身技術(shù)特性對(duì)性能影響有限。
六、超節(jié)點(diǎn)內(nèi)部卡的功能劃分及國(guó)產(chǎn)卡支持情況
Decoding:依賴HBM容量及帶寬,國(guó)產(chǎn)卡普遍發(fā)力此方向,通過采用HBM2E/HBM3/HBM3E提升競(jìng)爭(zhēng)力,部分卡容量達(dá)120-140G(類H200/H20水平)。
Prefill:依賴算力(FP8支持及TOPS值),受制于制程工藝(臺(tái)積7nm/5nm算力上限400-500T,國(guó)產(chǎn)制程300-400T),各家差異較小。
國(guó)產(chǎn)卡功能劃分需結(jié)合產(chǎn)品特性,部分廠商已推出分場(chǎng)景優(yōu)化產(chǎn)品,但整體性能參差不齊。
七、超節(jié)點(diǎn)上游硬件環(huán)節(jié)的價(jià)值量變化及雷同性分析
國(guó)內(nèi)超節(jié)點(diǎn)設(shè)計(jì)雷同性強(qiáng),主流形態(tài)為64卡/128卡,PCB(M9/Q路板材)、液冷(國(guó)內(nèi)供應(yīng)商組合方案)、機(jī)架(第三方ODM)等環(huán)節(jié)供應(yīng)趨同,價(jià)值量主要集中于算力卡。差異僅存在于網(wǎng)絡(luò)解決方案(PCIe/OAM接口、網(wǎng)絡(luò)交換機(jī)類型)及CPU/GPU配比。
八、第三方廠商超節(jié)點(diǎn)拓展情況
寒武紀(jì)、天數(shù)等廠商通過向ODM提供設(shè)計(jì)建議參與超節(jié)點(diǎn)方案,差異體現(xiàn)在compute tray與switch tray架構(gòu)(如PCIe/OAM接口數(shù)量、網(wǎng)絡(luò)接口方式),但機(jī)型近似性高,可互相套用。
九、超節(jié)點(diǎn)計(jì)算機(jī)柜配置方案
標(biāo)準(zhǔn)配置為16個(gè)計(jì)算節(jié)點(diǎn)(每節(jié)點(diǎn)4卡,共64卡)及16個(gè)交換節(jié)點(diǎn),單卡對(duì)應(yīng)1個(gè)網(wǎng)絡(luò)接口(共64接口),需配128口交換機(jī)。51.2T帶寬場(chǎng)景下需68顆交換芯片,GPU與交換芯片配比約1:2。
十、GPU數(shù)量增加對(duì)超節(jié)點(diǎn)架構(gòu)的影響
GPU數(shù)量提升(如80卡、128卡)需增加compute tray數(shù)量(如3個(gè)tray,每tray含8模組)及采用雙機(jī)柜拼接。互聯(lián)方式從銅纜改為光纖,液冷需增加冷板數(shù)量及管路復(fù)雜度,供電功率提升,但無技術(shù)改良(國(guó)內(nèi)未采用英偉達(dá)微循環(huán)方案)。
十一、國(guó)內(nèi)自研超節(jié)點(diǎn)的價(jià)值量區(qū)間
64卡超節(jié)點(diǎn):BOM成本300-330萬元(含卡),售價(jià)470-600萬元,包含計(jì)算節(jié)點(diǎn)、交換節(jié)點(diǎn)及PDU供電。華為384超節(jié)點(diǎn):BOM成本8800萬元,售價(jià)超1億元。十二、整機(jī)廠商超節(jié)點(diǎn)與八卡機(jī)的盈利能力對(duì)比
超節(jié)點(diǎn)利潤(rùn)空間更高:系統(tǒng)設(shè)計(jì)及制造成本高于八卡機(jī),可通過技術(shù)溢價(jià)提升盈利;八卡機(jī)同質(zhì)化強(qiáng)、成本透明,技術(shù)元素少(如6U板、OAM模組為標(biāo)準(zhǔn)件),溢價(jià)能力弱。
十三、超節(jié)點(diǎn)用于訓(xùn)練的中長(zhǎng)期展望及集群規(guī)模對(duì)架構(gòu)的影響
短期內(nèi)超節(jié)點(diǎn)無法用于訓(xùn)練:國(guó)產(chǎn)卡性能不足,分立式八卡機(jī)尚不能完成訓(xùn)練任務(wù),超節(jié)點(diǎn)更無意義。國(guó)內(nèi)萬卡集群均用于推理,超節(jié)點(diǎn)因性價(jià)比優(yōu)勢(shì)(1.2倍提升)替代分立式方案。集群規(guī)模擴(kuò)大(如10萬卡)需突破交換解決方案,國(guó)內(nèi)當(dāng)前最大支持128卡,進(jìn)一步擴(kuò)展受限于交換芯片能力。
十四、國(guó)產(chǎn)交換芯片在超節(jié)點(diǎn)中的應(yīng)用情況
國(guó)產(chǎn)交換芯片滲透率低:中興微電子在自研超節(jié)點(diǎn)中使用自有芯片,云和智網(wǎng)處于評(píng)測(cè)階段,盛科暫未應(yīng)用;光交換以西質(zhì)方案為主(OEM硬件+自研協(xié)議系統(tǒng)),整體仍以博通方案為主。
十五、超節(jié)點(diǎn)對(duì)網(wǎng)絡(luò)和算力卡的性能要求及均衡規(guī)律
需平衡網(wǎng)絡(luò)帶寬、CPU內(nèi)核數(shù)與算力卡性能:每100G網(wǎng)絡(luò)占用1個(gè)CPU核(至強(qiáng)六代),單卡需20核CPU支持,如A100配400G網(wǎng)絡(luò)為平衡點(diǎn),避免“大馬拉小車”(網(wǎng)絡(luò)/CPU過強(qiáng)而算力卡弱)。
十六、國(guó)產(chǎn)AI芯片下一代產(chǎn)品技術(shù)比較
2026Q4多家廠商將推出對(duì)標(biāo)H100/H200的產(chǎn)品,包括寒武紀(jì)690、華為950、沐曦C600、壁仞B(yǎng)220、天數(shù)天垓300、摩爾線程S6000及阿里PPU。技術(shù)路線分IC架構(gòu)與GPU架構(gòu)(類AMD),性能接近(制程、HBM帶寬/容量趨同),競(jìng)爭(zhēng)焦點(diǎn)為軟件優(yōu)化及供應(yīng)鏈穩(wěn)定性。
十七、超節(jié)點(diǎn)集群性能提升維度及規(guī)模放大效果
當(dāng)前1.2倍性價(jià)比提升來自scale up方案(芯片直連帶寬優(yōu)化),規(guī)模超128卡后需依賴scale out,性能損失顯著。國(guó)內(nèi)交換芯片能力不足(51.2T vs 海外1024T),進(jìn)一步放大效果有限。
十八、國(guó)產(chǎn)超節(jié)點(diǎn)與海外差距的未來趨勢(shì)
短期內(nèi)差距難以彌合:國(guó)內(nèi)短板在單卡算力及網(wǎng)絡(luò)互聯(lián)(SerDes 112G vs 海外400G,交換能力51.2T vs 海外1024T),純性能差距或持續(xù)拉大。國(guó)內(nèi)聚焦推理場(chǎng)景性價(jià)比優(yōu)勢(shì),GB300等海外產(chǎn)品在推理端不具備優(yōu)勢(shì)。
十九、國(guó)產(chǎn)卡不同出貨形式的比例展望
互聯(lián)網(wǎng)企業(yè):2027年以超節(jié)點(diǎn)為主(字節(jié)80%、騰訊50%),追求推理性價(jià)比。其他用戶:以八卡、十六卡為主,因管理維護(hù)便利。
![]()
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.