![]()
文:王智遠 | ID:Z201440
今天是華為昇騰AI開發者峰會。
上午場有一個演講,是華為公司 Fellow、半導體首席科學家廖恒講的,主題叫「面向 Agentic AI 時代的昇騰超節點最佳實踐」
說實話,不太好懂,滿屏名詞,要沒搞過AI芯片或者云計算基礎架構,聽完就一個反應:每個字都認識,連起來不知道在說啥。
我也差不多,現場一遍沒整明白,回來又把逐字稿翻了兩遍,還拉上AI助理過了一遍,才把廖恒的技術邏輯捋清楚。
所以,我盡可能用通俗的語言,把演講里真正重要的東西翻譯出來。
先說一個判斷,大部分人評價AI芯片,只看算力;廖恒說,光看算力,不夠;為什么不夠?先搞清楚一個問題:一顆芯片到底在比什么?
廖恒一上來擺了四個指標。
算力,每秒能做多少次浮點運算;就是,各種發布會最愛吹的數字,PPT上字號最大的那個。
內存帶寬,芯片從自己內存里讀數據的速度;打個比方,廚師刀工再快,食材從冰箱到砧板的傳送速度跟不上,也得停下來等,內存帶寬就是那個傳菜速度。
內存容量,芯片能在身邊放多少數據;過去幾個月HBM漲價漲得離譜,全行業都在頭疼,說白了,就是內存不夠用了。
第四個,互聯能力。一顆芯片跟別的芯片傳數據的速度。廖恒特別強調了這個,說四個指標里它最容易被忽略。
四個指標擺出來,關鍵不是每個是啥,在于它們的排序。
廖恒展示了一個對比:訓練場景和推理的預填充階段,算力排第一,內存容量排第二,帶寬排第三,符合大眾直覺,訓練嘛,就是拼算力。
翻到推理的解碼階段,排序變了:
帶寬排第一,容量排第二,算力掉到第三;同一顆芯片,換個場景,「誰最重要」的答案完全不一樣,這個差異在產品上也很清楚。
昇騰950有PR和DT兩個版本,最明顯的區別是算力和內存帶寬的比例不一樣,一個是265,一個是120;是各自為不同場景設計取舍的結果。
講完四個指標,廖恒甩了一個公式:
一個AI系統的綜合性能,約等于超節點的規模,乘以單個芯片的規格,一個乘法,兩個因子,單芯片的本事,和超節點能搭多大。
這公式有點抽象,我舉個例子:
單芯片規格等于一個廚師的炒菜速度;超節點等于后廚能站多少廚師,你讓一個五星大廚單挑,他能一個人撐起一桌菜,但如果要同時喂飽一千個人,大廚再快也白搭,得多找幾個幫廚。
前提是廚房得夠大,別一轉身胳膊肘撞到人。這個「廚房夠大」,就是互聯能力。
接著他講了一句挺坦誠的話:國產半導體在單芯片規格上,是要吃虧的,在場的人都懂這句話的背景。
華為四五年前就意識到了這個問題,開始猛搞超節點技術,在A5代次上,單芯片的互聯帶寬做到了雙向2TB每秒,乘法公式的第二個因子,華為在使勁做大。
說白了,單芯片打不過你,咱就靠堆數量找補回來。不過,這個理解對了一半。超節點到底怎么建,里面的門道比堆數量復雜得多;最直覺的想法:16000張卡,全部最高規格互聯,一步到位。
廖恒在演講里自己就提了這個問題,他說,理論上確實能建一個16000張卡、每張卡3.2T帶寬的全高速網絡。技術上做得到。
他沒這么干,第一個原因,錢。
3.2T互聯需要的交換機和線纜,跟400G不是同一個價位的。16000張卡全拉3.2T,賬算不過來。
第二個原因更有意思,是沒必要。廖恒說,華為大量實際部署之后發現了一個規律,距離越近的芯片,聊天越頻繁;越遠的,交流越少,而且是斷崖式減少。
打個比方:
一個小區的住戶之間互寄快遞最頻繁,一天幾十個件。同一個城市跨區寄,一天可能就幾個件;跨省寄,一周也未必有一個。你如果按「跨省快遞」的標準給每戶修一條高速公路,修得起,用不上。
AI芯片之間的通信也是這個道理,有的并行方式,芯片之間要死命傳數據,量極大,必須配快車道;有的并行方式,芯片之間偶爾傳一下就行,量小得多,普通路就夠了。
所以,華為的超節點分了兩層網絡。
一層叫SU(快車道),每顆芯片出3.2T的互聯帶寬,覆蓋128到最多8192張卡;這個范圍內,芯片之間互傳數據像小區里互寄快遞,又快又密。
另一層叫SO(普通路),每顆芯片出400G到800G的接口,通過兩層交換覆蓋到16000張卡;跨區寄件,頻次低,普通路夠了。
兩層網絡物理上是兩套獨立的端口和交換路徑,能連通,選擇不連通。這個選擇背后的考慮,后面還會講。
這個分層設計面臨的最極端考驗,來自MoE(混合專家模型),現在主流的大模型,包括DeepSeek,都是MoE。
MoE模型里有一個通信過程叫EP(專家并行),每一輪計算時,每個芯片算完自己負責的那份活兒,要把結果發給其他好幾個芯片,同時也要從其他芯片那里收結果,這個過程叫一次「派發」和一次「合并」。
這個模式有兩個要命的特點。
第一個,工作量是平方級增長的,一個微信群8個人,每個人要跟其他所有人各說一句話,是56次通信。人數翻倍到16個人,不是翻倍,變成240次。
超節點里參與EP的芯片數量如果是N,通信次數就是N的平方。
第二個,每次傳的數據量特別小。大概7KB到14KB,比一張手機照片還小一百倍。小到什么程度呢?
你的系統不光要路夠寬,還要能在極短時間內發起極大量的請求;帶寬是高速公路的車道數,這個要求的是收費站每秒能放行多少輛車。
7KB一個小包裹,平方級的通信次數,每一次都要求極低的延遲,這種通信模式,是對快車道最嚴苛的考驗。
廖恒給了一個很直觀的設計原則來應對:跳數。
所謂跳數,就是一個數據包從發出到收到,中間經過幾個交換機;每經過一個交換機,信號要被接收、處理、重新發送,延遲就增加一截,物理距離也是,每多一米大概多5納秒。
在A5的設計里,板內8顆芯片做了Full Mesh(全網狀互聯),任意兩顆芯片之間直連,零跳,不經過任何交換機,延遲最低。
512張卡范圍內,單層交換,一跳可達,8000張卡范圍內,兩層交換,兩跳可達;廖恒說了一句很干脆的話:三跳可達就完全不可接受了。
零跳、一跳、兩跳,這個分級跟前面講的「越近越密」是完全對應的;越近的芯片,通信量越大,對延遲越敏感,跳數就必須越少,是同一個物理現實的兩面。
拿DeepSeek V4 Pro這種MoE模型來說,128到512張卡的快車道范圍,單層交換,一跳可達,夠用了;廖恒原話是:非常非常契合。
以上這些是圖紙上的設計,真正把幾千張卡跑起來之后,廖恒說發現了一些設計時沒想到的事。
什么事兒呢?三點,第一件:怎么發數據也有講究。
芯片之間傳數據,有兩種方式。
一種叫自己動手,那個專業詞叫 Load/Store,芯片親自發一條指令,直接去對面把數據拿過來;快,一條指令,一個時鐘周期就完事了。代價是芯片自己得停下手里的活,親自跑這一趟。
另一種叫派人去拿(DMA)。
芯片寫一張單子,告訴一個專門搬數據的模塊「去那邊把這塊數據搬過來」,然后自己接著算別的。
搬運過程在后臺進行,芯片不用等;代價是寫單子本身有開銷,要填一個64字節的描述符,還要排隊發送,前前后后大概2000條指令。
什么時候用哪種?廖恒說,看數據量,回到前面講的MoE,芯片之間每次就傳7KB。這個量級,用自己動手最合適。
打個比方:
跟做菜一樣。如果一次只炒一盤菜,廚師親自去冰箱拿食材最快,不用專門喊個幫廚跑一趟;如果一次要炒一百盤菜,才需要專人去搬貨,廚師騰出手來專心炒。
Load/Store就是親自跑一趟,數據量小的時候效率最高。數據量一大,才切到DMA(派人去拿)。
這個選擇看著是個技術細節,本質是一個系統級的調度判斷;芯片的硬件能力是固定的,怎么用它,取決于你對業務特征的理解有多細。
第二件:兩條路不能并成一條。
前面講了SU(快車道)和SO(普通路)是兩套物理上獨立的網絡。一個自然的想法是:能不能省點事,把兩套網絡合成一套?反正地址上是可以互通的。
廖恒說,華為的確可以把普通路做成快車道的第三層或第四層,邏輯上完全走得通,他們沒這么做。原因是一個實操中發現的大問題:延遲抖動。
延遲抖動是說「有時候快有時候慢」,波動不可控。
廖恒打了個比方:
你家到公司正常30分鐘,遇上早高峰可能變成50分鐘。原因是不同方向的車流共享了同一條路,互相擋道。
對AI推理系統來說,抖動比延遲本身更致命,所有的卡要等最慢那張卡算完才能進入下一步,只要有一張卡被堵了,整個系統的速度就被拉到最慢那張卡的水平。
快車道上跑的是EP(專家并行)通信,對延遲極度敏感;普通路上跑KV Cache(模型的計算草稿紙)的讀寫、預填充和解碼之間的數據傳送,以及一些數據同步的活。
這些流量本身不要求極低延遲,量還不小,如果兩套網絡合一,這些流量就會跟EP的流量擠在同一條路上,互相干擾,抖動直接飆上去。
所以,華為「蓄意」把兩套網絡從芯片的物理端口,到所有的交換路徑做了徹底隔離。不管普通路上在忙什么,都不會影響快車道上那些對延遲最敏感的EP通信。
廖恒用了「蓄意」這個詞。意思是,這是故意的。
第三件:路修多了,反而更慢。
快車道網絡里,每顆芯片出了8條400G的線連到交換機;注意不是一條,是8條。
8條線同時連著,意味著一個數據包從A到B可以有8條不同的路可以選;這個技術在網絡領域有個術語,叫ECMP(等價多路徑),直白說就是「條條大道通羅馬」。
直覺上這是大好事,多條路,能分流,不容易堵車。你從家到公司,如果平時走的那條路堵了,旁邊還有7條備選路線,怎么著也比一條路死扛強。
華為在設計硬件的時候,也做了很多自適應路由和多路徑組網的能力,本來就是沖著「路越多越穩」去的,結果跑起來發現,不對;當延遲要求極端低的時候,多路徑反而成了麻煩。
原因很微妙,你想象一下這個場景:
你寄了一本書,分成8個包裹走8條不同的路。有的包裹走高速20分鐘到了,有的走小路繞了40分鐘,有的中間還走岔了又繞回來。
問題是,收件人得等8個包裹全部到齊了,才能把書拼起來看。所以,最后送達時間不是取決于最快的那條路,而是最慢的那條。
路徑越多,最慢那條路徑的不確定性就越大;今天可能是第3條路堵,明天可能是第7條路堵,抖動的根源就在這里。
廖恒的結論是:在極低延遲的場景下,最好還是退回到單路徑,所有數據包走同一條路,到達順序一致,反而最快。
這個結論挺反直覺的,網絡設計的基本常識是「多路徑優于單路徑」;冗余、容錯、負載均衡,全是多路徑的好處。在AI超節點里,碰到了一個場景,常識反過來了。
這三件事有一個共同點:
自己動手和派人去拿怎么選,網絡合不合并,單路徑還是多路徑;答案都不在芯片的規格書上;你把芯片參數背得再熟,什么算力多少T、帶寬多少G、緩存多大,全都背下來,也推不出上面任何一個結論。
它們只能從實際系統跑起來之后,從數據里長出來,從經驗里長出來。
廖恒在演講后半段講了一件自己的體驗,核心意思是:業務形態本身,正在發生數量級的變化。
他說自己每天也在用Cursor、Claude Code這些AI輔助編程工具;每次給個指令,大概要等十幾二十分鐘,有時候半小時,Agent才能把任務跑完。
這段話聽起來像是隨口一提,背后藏著一個很大的變化。
以前用ChatGPT,你跟AI的關系是「你問一句,它答一句」。一個人一個小時頂天了跟AI聊5到10回。
現在Agent這破玩意兒不一樣了,你給它下一個指令,它會自己拆任務,反復調模型,可能調幾十次、上百次,你該吃吃該睡睡,它還在那里幫你debug。
單個用戶產生的模型調用次數,至少漲了50倍,可能100倍,這只是第一個變化。
第二個,序列長度,以前一次對話的典型長度,大概就幾千個詞。Agent時代,每一輪對話都會把之前所有的歷史疊在后面,一條完整的序列經常接近一百萬個詞。漲了250倍。
第三個,緩存的命中率。
Agent每次調用都是在上一次的基礎上追加,大量內容是重復的,命中率高達95%以上。
這是好事,沒有這么高的命中率,Agent輔助編程這破成本貴到沒人用得起;命中意味著不用重新算,省了大量的算力。
好事背面是壞事,命中率高說明緩存被反復讀取,不能丟;以前存幾千個詞的緩存,現在要存一百萬個詞的緩存,存儲量漲了250倍。
這個量級的緩存,靠芯片自帶的那個又貴又小的專用內存,存不下;靠普通內存存,太貴。很自然地,行業開始想用固態硬盤來存。
固態硬盤存緩存,思路沒問題,路徑上有問題。
廖恒在演講里畫了一條紅線,展示了傳統方案的數據路徑;一臺AI服務器要從存儲集群里讀一塊緩存,數據要經過這么一趟。
那個圖太難懂了,我舉個例子:
想象一個場景。你在辦公室里想查一份文件,這份文件不在你手邊,存在隔壁樓的檔案室。
于是你開始了一趟跑腿之旅:
你先打電話給前臺,說「幫我到檔案室找份文件」。前臺小哥接了電話,走到門口,穿過樓之間的馬路,到了隔壁樓的前臺。
隔壁樓的前臺接了這個單子,轉頭上樓找檔案員。檔案員從柜子里翻出文件,放到桌上,然后喊隔壁前臺來拿。
隔壁前臺拿了文件又下樓,穿過馬路,回到你們樓,把文件交給你樓的前臺。你們樓的前臺再走回你工位,把文件放你桌上。
你看,一份文件,中間過了四道人的手;每一步都要等人接活、等人送、等人傳話。任何一個環節的人正在忙別的,你就得等著。
這臺AI服務器讀個緩存,走的也是這個苦逼路線:
發起端發請求,要穿過網卡、穿過數據中心網絡、到存儲服務器的網卡、存儲服務器里的CPU接活、從固態硬盤里讀數據放到內存、再打包發回去、再穿過網絡回來、接收端自己的CPU收下來先放自己內存、最后拷貝到AI芯片的高速內存里。
光看這條路就知道,中間隔了太多倒手環節;CPU要參與四次,內部總線要走兩趟,網卡要進進出出兩次,每一道都在添亂。
這個路徑在數據量小的時候還能忍,Agent時代數據量漲了上百倍,這條路就徹底堵死了。
廖恒說,他大膽預測,未來一年內這個瓶頸會變得愈發嚴重;華為給的方案是一個直接帶網口的固態盤,每塊盤自帶400G的帶寬,直接掛在超節點的網絡上。
AI芯片要讀緩存,一條指令直達這塊盤,它直接把數據通過網絡送到AI芯片的高速內存。中間沒有處理器轉發,沒有網卡過手,沒有文件系統的格式轉換。前面那條紅線上的所有中間環節,一把全砍掉了。
還有一個很精巧的設計:
傳統固態硬盤對數據保存時間的要求很高,寫進去的數據至少要保三年不丟。這個要求是為冷數據設計的。你存在網盤里的老照片,五年不碰也不能丟。
緩存不是冷數據,以前那種聊天AI,一條緩存超過一兩天就沒有保存價值了,現在更短,超過一兩個小時代碼就已經變了幾十次,舊的緩存基本沒用了。
廖恒說,這種新固態盤在設計時專門針對這種「短保質期」的場景做了調整。犧牲掉以年為單位的數據保持能力,換回來的是顯著的擦寫壽命提升。
冷數據存三年,熱緩存存三小時,對固態盤的要求完全不同,設計也該不同。這個決策只有深入理解了AI助手業務特征的人才做得出來。
講完這個,廖恒還提了一個更大的設計理念。
AI的業務形態在持續變化,不同業務對處理器、內存、存儲的配比需求都不一樣;一臺機器量產之后,硬件配比就固定了,跟買了車不能換更大的輪子一個道理。
怎么搞?
這個統一總線提供了一種靈活擴容的方式;處理器不夠了,往普通路網絡上掛一個處理器節點;存儲不夠了,掛一個這種新固態盤節點。
不用動快車道里面的核心拓撲,在外圍按需加就行,他目前看到的百分之九十以上的擴容需求,在普通路網絡里就能滿足。
最后,他講了一個很有意思的觀察:昇騰的軟件生態正在同時朝兩個方向走。
一個方向是做厚。
為了兼容行業主流的框架和工具,什么各種主流大模型推理框架、訓練框架,再到各種中間適配層,最后到AI芯片最底層的計算指令,層層疊疊。兼容性越好,軟件棧越厚。
另一個方向是做薄。
如果目標是建一個1毫秒延遲的推理系統,這么多層軟件的開銷加起來,根本不可能達到。必須把歷史上積累的很多層次砍掉、簡化、融合。
廖恒說,這兩個方向同時存在于昇騰的生態里,一邊把軟件做得更豐富,一邊把軟件做得更精簡,補齊短板和探索新路徑,同時在發生。
好了,一口氣說完了,我喝口水。這套東西,不一定所有人都能懂,也不用所有人都懂。對了,我翻譯的也不一定全準,畢竟我還是門外漢,有偏差的地方歡迎行業的朋友指正。
芯片可以有代差,系統級的設計能力沒有捷徑。這條路上的人,值得被看見。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.