无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

華為廖恒關于AI算力的硬核演講

0
分享至


文:王智遠 | ID:Z201440

今天是華為昇騰AI開發者峰會。

上午場有一個演講,是華為公司 Fellow、半導體首席科學家廖恒講的,主題叫「面向 Agentic AI 時代的昇騰超節點最佳實踐」

說實話,不太好懂,滿屏名詞,要沒搞過AI芯片或者云計算基礎架構,聽完就一個反應:每個字都認識,連起來不知道在說啥。

我也差不多,現場一遍沒整明白,回來又把逐字稿翻了兩遍,還拉上AI助理過了一遍,才把廖恒的技術邏輯捋清楚。

所以,我盡可能用通俗的語言,把演講里真正重要的東西翻譯出來。

先說一個判斷,大部分人評價AI芯片,只看算力;廖恒說,光看算力,不夠;為什么不夠?先搞清楚一個問題:一顆芯片到底在比什么?

廖恒一上來擺了四個指標。

算力,每秒能做多少次浮點運算;就是,各種發布會最愛吹的數字,PPT上字號最大的那個。

內存帶寬,芯片從自己內存里讀數據的速度;打個比方,廚師刀工再快,食材從冰箱到砧板的傳送速度跟不上,也得停下來等,內存帶寬就是那個傳菜速度。

內存容量,芯片能在身邊放多少數據;過去幾個月HBM漲價漲得離譜,全行業都在頭疼,說白了,就是內存不夠用了。

第四個,互聯能力。一顆芯片跟別的芯片傳數據的速度。廖恒特別強調了這個,說四個指標里它最容易被忽略。

四個指標擺出來,關鍵不是每個是啥,在于它們的排序。

廖恒展示了一個對比:訓練場景和推理的預填充階段,算力排第一,內存容量排第二,帶寬排第三,符合大眾直覺,訓練嘛,就是拼算力。

翻到推理的解碼階段,排序變了:

帶寬排第一,容量排第二,算力掉到第三;同一顆芯片,換個場景,「誰最重要」的答案完全不一樣,這個差異在產品上也很清楚。

昇騰950有PR和DT兩個版本,最明顯的區別是算力和內存帶寬的比例不一樣,一個是265,一個是120;是各自為不同場景設計取舍的結果。

講完四個指標,廖恒甩了一個公式:

一個AI系統的綜合性能,約等于超節點的規模,乘以單個芯片的規格,一個乘法,兩個因子,單芯片的本事,和超節點能搭多大。

這公式有點抽象,我舉個例子:

單芯片規格等于一個廚師的炒菜速度;超節點等于后廚能站多少廚師,你讓一個五星大廚單挑,他能一個人撐起一桌菜,但如果要同時喂飽一千個人,大廚再快也白搭,得多找幾個幫廚。

前提是廚房得夠大,別一轉身胳膊肘撞到人。這個「廚房夠大」,就是互聯能力。

接著他講了一句挺坦誠的話:國產半導體在單芯片規格上,是要吃虧的,在場的人都懂這句話的背景。

華為四五年前就意識到了這個問題,開始猛搞超節點技術,在A5代次上,單芯片的互聯帶寬做到了雙向2TB每秒,乘法公式的第二個因子,華為在使勁做大。

說白了,單芯片打不過你,咱就靠堆數量找補回來。不過,這個理解對了一半。超節點到底怎么建,里面的門道比堆數量復雜得多;最直覺的想法:16000張卡,全部最高規格互聯,一步到位。

廖恒在演講里自己就提了這個問題,他說,理論上確實能建一個16000張卡、每張卡3.2T帶寬的全高速網絡。技術上做得到。

他沒這么干,第一個原因,錢。

3.2T互聯需要的交換機和線纜,跟400G不是同一個價位的。16000張卡全拉3.2T,賬算不過來。

第二個原因更有意思,是沒必要。廖恒說,華為大量實際部署之后發現了一個規律,距離越近的芯片,聊天越頻繁;越遠的,交流越少,而且是斷崖式減少。

打個比方:

一個小區的住戶之間互寄快遞最頻繁,一天幾十個件。同一個城市跨區寄,一天可能就幾個件;跨省寄,一周也未必有一個。你如果按「跨省快遞」的標準給每戶修一條高速公路,修得起,用不上。

AI芯片之間的通信也是這個道理,有的并行方式,芯片之間要死命傳數據,量極大,必須配快車道;有的并行方式,芯片之間偶爾傳一下就行,量小得多,普通路就夠了。

所以,華為的超節點分了兩層網絡。

一層叫SU(快車道),每顆芯片出3.2T的互聯帶寬,覆蓋128到最多8192張卡;這個范圍內,芯片之間互傳數據像小區里互寄快遞,又快又密。

另一層叫SO(普通路),每顆芯片出400G到800G的接口,通過兩層交換覆蓋到16000張卡;跨區寄件,頻次低,普通路夠了。

兩層網絡物理上是兩套獨立的端口和交換路徑,能連通,選擇不連通。這個選擇背后的考慮,后面還會講。

這個分層設計面臨的最極端考驗,來自MoE(混合專家模型),現在主流的大模型,包括DeepSeek,都是MoE。

MoE模型里有一個通信過程叫EP(專家并行),每一輪計算時,每個芯片算完自己負責的那份活兒,要把結果發給其他好幾個芯片,同時也要從其他芯片那里收結果,這個過程叫一次「派發」和一次「合并」。

這個模式有兩個要命的特點。

第一個,工作量是平方級增長的,一個微信群8個人,每個人要跟其他所有人各說一句話,是56次通信。人數翻倍到16個人,不是翻倍,變成240次。

超節點里參與EP的芯片數量如果是N,通信次數就是N的平方。

第二個,每次傳的數據量特別小。大概7KB到14KB,比一張手機照片還小一百倍。小到什么程度呢?

你的系統不光要路夠寬,還要能在極短時間內發起極大量的請求;帶寬是高速公路的車道數,這個要求的是收費站每秒能放行多少輛車。

7KB一個小包裹,平方級的通信次數,每一次都要求極低的延遲,這種通信模式,是對快車道最嚴苛的考驗。

廖恒給了一個很直觀的設計原則來應對:跳數。

所謂跳數,就是一個數據包從發出到收到,中間經過幾個交換機;每經過一個交換機,信號要被接收、處理、重新發送,延遲就增加一截,物理距離也是,每多一米大概多5納秒。

在A5的設計里,板內8顆芯片做了Full Mesh(全網狀互聯),任意兩顆芯片之間直連,零跳,不經過任何交換機,延遲最低。

512張卡范圍內,單層交換,一跳可達,8000張卡范圍內,兩層交換,兩跳可達;廖恒說了一句很干脆的話:三跳可達就完全不可接受了。

零跳、一跳、兩跳,這個分級跟前面講的「越近越密」是完全對應的;越近的芯片,通信量越大,對延遲越敏感,跳數就必須越少,是同一個物理現實的兩面。

拿DeepSeek V4 Pro這種MoE模型來說,128到512張卡的快車道范圍,單層交換,一跳可達,夠用了;廖恒原話是:非常非常契合。

以上這些是圖紙上的設計,真正把幾千張卡跑起來之后,廖恒說發現了一些設計時沒想到的事。

什么事兒呢?三點,第一件:怎么發數據也有講究。

芯片之間傳數據,有兩種方式。

一種叫自己動手,那個專業詞叫 Load/Store,芯片親自發一條指令,直接去對面把數據拿過來;快,一條指令,一個時鐘周期就完事了。代價是芯片自己得停下手里的活,親自跑這一趟。

另一種叫派人去拿(DMA)。

芯片寫一張單子,告訴一個專門搬數據的模塊「去那邊把這塊數據搬過來」,然后自己接著算別的。

搬運過程在后臺進行,芯片不用等;代價是寫單子本身有開銷,要填一個64字節的描述符,還要排隊發送,前前后后大概2000條指令。

什么時候用哪種?廖恒說,看數據量,回到前面講的MoE,芯片之間每次就傳7KB。這個量級,用自己動手最合適。

打個比方:

跟做菜一樣。如果一次只炒一盤菜,廚師親自去冰箱拿食材最快,不用專門喊個幫廚跑一趟;如果一次要炒一百盤菜,才需要專人去搬貨,廚師騰出手來專心炒。

Load/Store就是親自跑一趟,數據量小的時候效率最高。數據量一大,才切到DMA(派人去拿)。

這個選擇看著是個技術細節,本質是一個系統級的調度判斷;芯片的硬件能力是固定的,怎么用它,取決于你對業務特征的理解有多細。

第二件:兩條路不能并成一條。

前面講了SU(快車道)和SO(普通路)是兩套物理上獨立的網絡。一個自然的想法是:能不能省點事,把兩套網絡合成一套?反正地址上是可以互通的。

廖恒說,華為的確可以把普通路做成快車道的第三層或第四層,邏輯上完全走得通,他們沒這么做。原因是一個實操中發現的大問題:延遲抖動。

延遲抖動是說「有時候快有時候慢」,波動不可控。

廖恒打了個比方:

你家到公司正常30分鐘,遇上早高峰可能變成50分鐘。原因是不同方向的車流共享了同一條路,互相擋道。

對AI推理系統來說,抖動比延遲本身更致命,所有的卡要等最慢那張卡算完才能進入下一步,只要有一張卡被堵了,整個系統的速度就被拉到最慢那張卡的水平。

快車道上跑的是EP(專家并行)通信,對延遲極度敏感;普通路上跑KV Cache(模型的計算草稿紙)的讀寫、預填充和解碼之間的數據傳送,以及一些數據同步的活。

這些流量本身不要求極低延遲,量還不小,如果兩套網絡合一,這些流量就會跟EP的流量擠在同一條路上,互相干擾,抖動直接飆上去。

所以,華為「蓄意」把兩套網絡從芯片的物理端口,到所有的交換路徑做了徹底隔離。不管普通路上在忙什么,都不會影響快車道上那些對延遲最敏感的EP通信。

廖恒用了「蓄意」這個詞。意思是,這是故意的。

第三件:路修多了,反而更慢。

快車道網絡里,每顆芯片出了8條400G的線連到交換機;注意不是一條,是8條。

8條線同時連著,意味著一個數據包從A到B可以有8條不同的路可以選;這個技術在網絡領域有個術語,叫ECMP(等價多路徑),直白說就是「條條大道通羅馬」。

直覺上這是大好事,多條路,能分流,不容易堵車。你從家到公司,如果平時走的那條路堵了,旁邊還有7條備選路線,怎么著也比一條路死扛強。

華為在設計硬件的時候,也做了很多自適應路由和多路徑組網的能力,本來就是沖著「路越多越穩」去的,結果跑起來發現,不對;當延遲要求極端低的時候,多路徑反而成了麻煩。

原因很微妙,你想象一下這個場景:

你寄了一本書,分成8個包裹走8條不同的路。有的包裹走高速20分鐘到了,有的走小路繞了40分鐘,有的中間還走岔了又繞回來。

問題是,收件人得等8個包裹全部到齊了,才能把書拼起來看。所以,最后送達時間不是取決于最快的那條路,而是最慢的那條。

路徑越多,最慢那條路徑的不確定性就越大;今天可能是第3條路堵,明天可能是第7條路堵,抖動的根源就在這里。

廖恒的結論是:在極低延遲的場景下,最好還是退回到單路徑,所有數據包走同一條路,到達順序一致,反而最快。

這個結論挺反直覺的,網絡設計的基本常識是「多路徑優于單路徑」;冗余、容錯、負載均衡,全是多路徑的好處。在AI超節點里,碰到了一個場景,常識反過來了。

這三件事有一個共同點:

自己動手和派人去拿怎么選,網絡合不合并,單路徑還是多路徑;答案都不在芯片的規格書上;你把芯片參數背得再熟,什么算力多少T、帶寬多少G、緩存多大,全都背下來,也推不出上面任何一個結論。

它們只能從實際系統跑起來之后,從數據里長出來,從經驗里長出來。

廖恒在演講后半段講了一件自己的體驗,核心意思是:業務形態本身,正在發生數量級的變化。

他說自己每天也在用Cursor、Claude Code這些AI輔助編程工具;每次給個指令,大概要等十幾二十分鐘,有時候半小時,Agent才能把任務跑完。

這段話聽起來像是隨口一提,背后藏著一個很大的變化。

以前用ChatGPT,你跟AI的關系是「你問一句,它答一句」。一個人一個小時頂天了跟AI聊5到10回。

現在Agent這破玩意兒不一樣了,你給它下一個指令,它會自己拆任務,反復調模型,可能調幾十次、上百次,你該吃吃該睡睡,它還在那里幫你debug。

單個用戶產生的模型調用次數,至少漲了50倍,可能100倍,這只是第一個變化。

第二個,序列長度,以前一次對話的典型長度,大概就幾千個詞。Agent時代,每一輪對話都會把之前所有的歷史疊在后面,一條完整的序列經常接近一百萬個詞。漲了250倍。

第三個,緩存的命中率。

Agent每次調用都是在上一次的基礎上追加,大量內容是重復的,命中率高達95%以上。

這是好事,沒有這么高的命中率,Agent輔助編程這破成本貴到沒人用得起;命中意味著不用重新算,省了大量的算力。

好事背面是壞事,命中率高說明緩存被反復讀取,不能丟;以前存幾千個詞的緩存,現在要存一百萬個詞的緩存,存儲量漲了250倍。

這個量級的緩存,靠芯片自帶的那個又貴又小的專用內存,存不下;靠普通內存存,太貴。很自然地,行業開始想用固態硬盤來存。

固態硬盤存緩存,思路沒問題,路徑上有問題。

廖恒在演講里畫了一條紅線,展示了傳統方案的數據路徑;一臺AI服務器要從存儲集群里讀一塊緩存,數據要經過這么一趟。

那個圖太難懂了,我舉個例子:

想象一個場景。你在辦公室里想查一份文件,這份文件不在你手邊,存在隔壁樓的檔案室。

于是你開始了一趟跑腿之旅:

你先打電話給前臺,說「幫我到檔案室找份文件」。前臺小哥接了電話,走到門口,穿過樓之間的馬路,到了隔壁樓的前臺。

隔壁樓的前臺接了這個單子,轉頭上樓找檔案員。檔案員從柜子里翻出文件,放到桌上,然后喊隔壁前臺來拿。

隔壁前臺拿了文件又下樓,穿過馬路,回到你們樓,把文件交給你樓的前臺。你們樓的前臺再走回你工位,把文件放你桌上。

你看,一份文件,中間過了四道人的手;每一步都要等人接活、等人送、等人傳話。任何一個環節的人正在忙別的,你就得等著。

這臺AI服務器讀個緩存,走的也是這個苦逼路線:

發起端發請求,要穿過網卡、穿過數據中心網絡、到存儲服務器的網卡、存儲服務器里的CPU接活、從固態硬盤里讀數據放到內存、再打包發回去、再穿過網絡回來、接收端自己的CPU收下來先放自己內存、最后拷貝到AI芯片的高速內存里。

光看這條路就知道,中間隔了太多倒手環節;CPU要參與四次,內部總線要走兩趟,網卡要進進出出兩次,每一道都在添亂。

這個路徑在數據量小的時候還能忍,Agent時代數據量漲了上百倍,這條路就徹底堵死了。

廖恒說,他大膽預測,未來一年內這個瓶頸會變得愈發嚴重;華為給的方案是一個直接帶網口的固態盤,每塊盤自帶400G的帶寬,直接掛在超節點的網絡上。

AI芯片要讀緩存,一條指令直達這塊盤,它直接把數據通過網絡送到AI芯片的高速內存。中間沒有處理器轉發,沒有網卡過手,沒有文件系統的格式轉換。前面那條紅線上的所有中間環節,一把全砍掉了。

還有一個很精巧的設計:

傳統固態硬盤對數據保存時間的要求很高,寫進去的數據至少要保三年不丟。這個要求是為冷數據設計的。你存在網盤里的老照片,五年不碰也不能丟。

緩存不是冷數據,以前那種聊天AI,一條緩存超過一兩天就沒有保存價值了,現在更短,超過一兩個小時代碼就已經變了幾十次,舊的緩存基本沒用了。

廖恒說,這種新固態盤在設計時專門針對這種「短保質期」的場景做了調整。犧牲掉以年為單位的數據保持能力,換回來的是顯著的擦寫壽命提升。

冷數據存三年,熱緩存存三小時,對固態盤的要求完全不同,設計也該不同。這個決策只有深入理解了AI助手業務特征的人才做得出來。

講完這個,廖恒還提了一個更大的設計理念。

AI的業務形態在持續變化,不同業務對處理器、內存、存儲的配比需求都不一樣;一臺機器量產之后,硬件配比就固定了,跟買了車不能換更大的輪子一個道理。

怎么搞?

這個統一總線提供了一種靈活擴容的方式;處理器不夠了,往普通路網絡上掛一個處理器節點;存儲不夠了,掛一個這種新固態盤節點。

不用動快車道里面的核心拓撲,在外圍按需加就行,他目前看到的百分之九十以上的擴容需求,在普通路網絡里就能滿足。

最后,他講了一個很有意思的觀察:昇騰的軟件生態正在同時朝兩個方向走。

一個方向是做厚。

為了兼容行業主流的框架和工具,什么各種主流大模型推理框架、訓練框架,再到各種中間適配層,最后到AI芯片最底層的計算指令,層層疊疊。兼容性越好,軟件棧越厚。

另一個方向是做薄。

如果目標是建一個1毫秒延遲的推理系統,這么多層軟件的開銷加起來,根本不可能達到。必須把歷史上積累的很多層次砍掉、簡化、融合。

廖恒說,這兩個方向同時存在于昇騰的生態里,一邊把軟件做得更豐富,一邊把軟件做得更精簡,補齊短板和探索新路徑,同時在發生。

好了,一口氣說完了,我喝口水。這套東西,不一定所有人都能懂,也不用所有人都懂。對了,我翻譯的也不一定全準,畢竟我還是門外漢,有偏差的地方歡迎行業的朋友指正。

芯片可以有代差,系統級的設計能力沒有捷徑。這條路上的人,值得被看見。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
安徽合肥一女神太漂亮了,身高170五官精致,美得讓人移不開眼

安徽合肥一女神太漂亮了,身高170五官精致,美得讓人移不開眼

陳意小可愛
2026-06-12 00:16:27
菲律賓震后三天遇難人數不斷攀升,等不來援助,馬科斯要調查中國

菲律賓震后三天遇難人數不斷攀升,等不來援助,馬科斯要調查中國

兵鑒史
2026-06-11 11:44:55
維生素D:從骨骼到血糖,一個被低估的代謝守護者

維生素D:從骨骼到血糖,一個被低估的代謝守護者

新浪財經
2026-06-02 16:05:17
釋永信事件發酵!十年前李敖發布的一張對比照再度刷屏,引發熱議

釋永信事件發酵!十年前李敖發布的一張對比照再度刷屏,引發熱議

火山詩話
2026-06-06 10:58:08
王楠威海基地降級真相:不是人走茶涼,而是市場用腳投票

王楠威海基地降級真相:不是人走茶涼,而是市場用腳投票

林子說事
2026-06-12 00:39:51
15個副省級市已明確,浙江2個,江蘇僅有1個,湖南、河北1個都無

15個副省級市已明確,浙江2個,江蘇僅有1個,湖南、河北1個都無

混沌錄
2026-06-01 21:47:13
水晶宮13將入選世界杯創隊史紀錄

水晶宮13將入選世界杯創隊史紀錄

體壇周報
2026-06-11 21:12:23
戰火重燃,美伊互炸,特朗普決定再賭一把

戰火重燃,美伊互炸,特朗普決定再賭一把

江平舟
2026-06-11 19:25:35
A股:股民要系好安全帶,主力已經明牌了,周五將要迎來新的變盤

A股:股民要系好安全帶,主力已經明牌了,周五將要迎來新的變盤

虎哥閑聊
2026-06-12 00:00:06
“霉霉”觀戰帶來好運 尼克斯驚天逆轉拿到“冠軍點!”

“霉霉”觀戰帶來好運 尼克斯驚天逆轉拿到“冠軍點!”

五星體育
2026-06-11 12:19:03
精神小妹的生活原來是這樣的!網友:終于知道她們為啥都這么瘦了

精神小妹的生活原來是這樣的!網友:終于知道她們為啥都這么瘦了

深度報
2026-02-11 23:35:03
為什么大獲全勝的殲-10賣不出去,一敗涂地的陣風卻銷量火爆?

為什么大獲全勝的殲-10賣不出去,一敗涂地的陣風卻銷量火爆?

基斯默默
2026-05-28 11:06:03
曼城要塌了!利物浦 + 曼聯 + 阿森納集體索賠,每家要拿 1 億

曼城要塌了!利物浦 + 曼聯 + 阿森納集體索賠,每家要拿 1 億

奶蓋熊本熊
2026-06-12 01:55:10
羅馬諾:B席加盟皇馬即將HWG,雙方簽約2年

羅馬諾:B席加盟皇馬即將HWG,雙方簽約2年

懂球帝
2026-06-12 02:49:06
少林寺新方丈釋印樂,上任才10個月,寺院賬面少了800多萬

少林寺新方丈釋印樂,上任才10個月,寺院賬面少了800多萬

做一個合格的吃瓜群眾
2026-06-08 18:54:58
贏了日本也救不了!國乒女單潰敗夜:沒孫穎莎我們竟如此不堪

贏了日本也救不了!國乒女單潰敗夜:沒孫穎莎我們竟如此不堪

劉哥談體育
2026-06-12 02:07:51
“富二代才會這樣走路”,人大附中男生出考場火了,果然天壤之別

“富二代才會這樣走路”,人大附中男生出考場火了,果然天壤之別

熙熙說教
2026-06-09 19:25:08
盧靖姍曬全家福慶生,一雙子女同框露面,依偎在韓庚懷中好幸福

盧靖姍曬全家福慶生,一雙子女同框露面,依偎在韓庚懷中好幸福

扒蝦侃娛
2026-06-11 17:15:27
吃相難看!說張雪機車生銹的二手車商,身穿杜卡迪衣服出鏡了…

吃相難看!說張雪機車生銹的二手車商,身穿杜卡迪衣服出鏡了…

火山詩話
2026-06-11 06:58:41
上一秒說要猛烈打擊伊朗,下一秒特朗普稱生日愿望是想要“世界和平”,包括中東地區在內

上一秒說要猛烈打擊伊朗,下一秒特朗普稱生日愿望是想要“世界和平”,包括中東地區在內

每日經濟新聞
2026-06-11 23:37:38
2026-06-12 07:24:49
智遠同學 incentive-icons
智遠同學
暢銷書《復利思維》作者;精神生活與商業探索,關注科技人文、消費電商、品牌營銷、商業認知思維等方面。
762文章數 210關注度
往期回顧 全部

科技要聞

淘寶、京東、拼多多、抖音、小紅書被約談

頭條要聞

中方對菲國防部長特奧多羅及其親屬實施制裁

頭條要聞

中方對菲國防部長特奧多羅及其親屬實施制裁

體育要聞

比起總冠軍,更大的懸念成了FMVP?

娛樂要聞

《花少8》陣容大揭秘!秒殺前一季

財經要聞

干細胞生意:17萬一針的希望

汽車要聞

將搭云輦-M智能磁流變懸架 方程豹方程S系列信息曝光

態度原創

游戲
時尚
家居
手機
公開課

《古墓麗影RE》難稱3A大作!外媒:只有2A水準

薄荷綠色的單品打造夏日清透感,視覺上清爽又治愈,溫柔減齡

家居要聞

空間微調 移形換境

手機要聞

華為鴻蒙HarmonyOS 6.1.0.125再曝新特性,模式切換應用不關閉

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版