網易首頁 > 網易號 > 正文 申請入駐

不換GPU,性能飆升2.8倍!英偉達用軟件暴打摩爾定律

0
分享至


新智元報道

編輯:peter東

【新智元導讀】MoE模型的稀疏激活本是優勢,卻常陷通信瓶頸。NVIDIA以軟件為利劍,通過程序化依賴啟動和全對全通信革新,在三個月內將GB200的單GPU吞吐提升2.8倍,真正釋放Blackwell硬件潛力。

2026年1月8日,NVIDIA再次用硬核數據刷新AI推理的性能上限。

英偉達官網披露:基于Blackwell架構的推理軟件棧升級,讓混合專家模型(MoE)的推理效率迎來「階躍式」突破——

單GPU吞吐飆升2.8倍,顯著降低了推理成本。

GB200 NVL72:為MoE而生

英偉達為何這次能只使用軟件升級就實現如此顯著的性能提升,這歸因于MoE模型的特殊性。

以DeepSeek-R1為例,這個6710億參數的稀疏MoE模型,每次推理僅激活370億參數(「稀疏激活」),看似「輕量」,實則暗藏算力挑戰:專家模塊間的動態路由需要高頻數據交換,預填充(prefill)與解碼(decode)階段的計算負載差異大,傳統架構極易因通信瓶頸或精度損失陷入「性能墻」。同時MoE架構中的多個模型需要頻繁通信。

英偉達給出的應對之法,是在本身的硬件基礎上,通過軟件針對性升級,從而發揮出硬件的潛力。


圖1:GB200 NVL72機柜

GB200 NVL72機架級平臺是本次突破的「物理基石」。

它通過第五代NVLink互連72塊Blackwell GPU,GPU之間具有1800GB/s雙向帶寬高速連接——這一設計是基于稀疏 MoE 架構模型專門進行的優化,相當于給72個「專家大腦」裝上了「超高速神經突觸」,讓專家間的數據交換告別「擁堵」。

軟件層面的更新,首先是NVFP4四比特浮點格式。

相比傳統FP4,NVFP4通過NVIDIA自研的數值分布優化,在壓縮數據量的同時,最大限度保留了模型精度(這對MoE的稀疏激活至關重要,避免因精度損失導致路由錯誤)。

配合硬件級NVFP4加速單元,Blackwell讓模型使用低精度計算,但卻能夠相比其他 FP4 格式,具有更高的準確性。


圖2:在 HGX B200 上,開啟NVFP4與FP8時的吞吐量與交互性曲線對比

此外,「分解服務」(disaggregated serving)策略進一步釋放了GB200的潛力:將預填充(計算密集型)與解碼(內存密集型)分配到不同GPU組,利用NVLink Switch的靈活拓撲實現「計算-內存」解耦,避免單一資源成為瓶頸。

軟件引擎

TensorRT-LLM三個月狂飆2.8倍吞吐

如果說硬件是「基礎」,軟件則是「引擎調校」。NVIDIA TensorRT-LLM開源庫的近期優化,讓GB200 NVL72在DeepSeek-R1上的單GPU吞吐,過去三個月直接飆升2.8倍。

具體來看,三大優化堪稱「性能催化劑」:

1、程序化依賴啟動(PDL)

通過減少內核啟動延遲,讓GPU「時刻待命」,尤其在低交互性(高吞吐)場景下,顯著降低「空轉」損耗;

2、底層內核優化

針對Blackwell Tensor Core的微架構特性,重構計算流水線,讓每一份算力都用在「刀刃」上;

3、全對全通信原語革新

消除接收端中間緩沖區,直接減少數據傳輸的「繞路成本」——這對MoE的專家間高頻通信而言,相當于減少了延遲。

上述三項創新,使得GB200在運行DeepSeek R1時,相比2025年10月的軟件版本,獲得更高的吞吐量。


圖3:軟件更新給GB200帶來的性能提升

隨著AI從「能用」走向「好用」,用戶對交互性的要求激增——聊天機器人要「秒回」,代碼助手要「實時補全」,而吞吐量的上升,意味著更低的延遲。

小機柜也適用,

HGX B200也能跑滿足DeepSeek

并非所有場景都需要GB200 NVL72這樣的包含72塊顯卡的「巨無霸」。

對于風冷部署的企業或云服務商,NVIDIA HGX B200(8卡Blackwell)同樣交出了驚艷答卷——其核心武器是多token預測(MTP)NVFP4的組合拳。

傳統推理中,模型逐token生成,每一步都要等待前一步完成;而MTP通過預測多個候選token(而非單個),讓GPU在一次計算中覆蓋更多生成步驟,相當于在解碼任務時批量處理,一次思考,多步輸出。


圖4:MTP及不同精度帶來的性能提升

實測顯示,在1K/1K、8K/1K、1K/8K等多種輸入輸出序列組合下,MTP均顯著提升了吞吐量,且交互性越高(延遲要求越嚴),收益越明顯。

當MTP遇上NVFP4,性能增益被進一步放大。NVFP4不僅通過四比特壓縮降低內存帶寬壓力,更依托Blackwell的張量核心實現高效計算。

結合TensorRT-LLM與TensorRT Model Optimizer的全棧支持,HGX B200在保持精度的前提下,吞吐曲線隨MTP+NVFP4的啟用持續右移——意味著在相同交互性下能服務更多用戶,或在相同用戶數下提供更流暢的體驗。

對企業與云服務商而言,現有Blackwell GPU通過軟件升級即可獲得2.8倍吞吐提升,相當于「免費擴容」,大幅延長硬件生命周期;對模型開發者,TensorRT-LLM 提供了一個高級的API。

原生PyTorch架構給開發者提供了兼具易用性與擴展性的結果,這降低了優化門檻,讓更多人能聚焦模型創新而非底層調優

這種「不依賴換硬件就能升級性能」的能力,讓英偉達在專業顯卡領域的護城河相比AMD,英特爾等競爭者更深。

Blackwell架構+TensorRT-LLM的組合,在MoE推理問題上,做到了在「高精度、低延遲、高吞吐、低成本」間的既要又要。英偉達的護城河不止是芯片,更是那套能「從石頭里榨出血來」的軟件生態。

參考資料:

https://developer.nvidia.com/blog/delivering-massive-performance-leaps-for-mixture-of-experts-inference-on-nvidia-blackwell/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
TVB女星葬禮后小兒子發文悼念!稱會好好照顧爸爸!前女友回應網友“全港欠你一句道歉”言論

TVB女星葬禮后小兒子發文悼念!稱會好好照顧爸爸!前女友回應網友“全港欠你一句道歉”言論

我愛追港劇
2026-04-27 21:59:24
1898 年,譚嗣同就義,他永遠不知,自己的后人有多讓人心疼

1898 年,譚嗣同就義,他永遠不知,自己的后人有多讓人心疼

小燕聊劇
2026-04-14 19:53:58
江疏影海外產子風波升級,遭正房兒子當眾羞辱?王傳君的話應驗了

江疏影海外產子風波升級,遭正房兒子當眾羞辱?王傳君的話應驗了

往史過眼云煙
2026-04-26 14:48:53
中國汽車市場份額:法系0.2%,韓系1%,美系6.9%,日系13%

中國汽車市場份額:法系0.2%,韓系1%,美系6.9%,日系13%

狐貍先森講升學規劃
2026-04-21 09:30:03
隨著湖人3-1領先火箭,馬刺3-1,掘金1-3,西部季后賽4強基本確定

隨著湖人3-1領先火箭,馬刺3-1,掘金1-3,西部季后賽4強基本確定

球場沒跑道
2026-04-27 12:21:18
6月新規來了!3類常見病三甲不再接診,今后看病別再跑錯地方

6月新規來了!3類常見病三甲不再接診,今后看病別再跑錯地方

復轉這些年
2026-04-26 18:48:03
楊冪懷二胎了!?

楊冪懷二胎了?。?/a>

八卦瘋叔
2026-04-27 10:49:40
經過伊朗這一戰,中美之間可能至少50年內不會爆發戰爭

經過伊朗這一戰,中美之間可能至少50年內不會爆發戰爭

流史歲月
2026-04-17 23:20:03
最高可判死刑!奧巴馬結局已定?美國司法部介入,特朗普準備收網

最高可判死刑!奧巴馬結局已定?美國司法部介入,特朗普準備收網

阿天愛旅行
2026-04-26 11:30:56
歷史總是驚人相似:清朝試圖和平統一臺灣,鄭經卻得寸進尺要獨立

歷史總是驚人相似:清朝試圖和平統一臺灣,鄭經卻得寸進尺要獨立

歷史龍元閣
2026-04-25 15:10:07
14歲兒子得抑郁癥,花光30萬沒治好,老公上去一巴掌:裝什么病

14歲兒子得抑郁癥,花光30萬沒治好,老公上去一巴掌:裝什么病

千秋文化
2026-04-25 20:39:20
23萬的特斯拉,和21萬的小米,我勸你想清楚再下手

23萬的特斯拉,和21萬的小米,我勸你想清楚再下手

阿芒娛樂說
2026-04-26 06:08:57
印度首富妻子驚艷美國晚宴,佩戴101克拉10億粉鉆,定制紗麗奢華

印度首富妻子驚艷美國晚宴,佩戴101克拉10億粉鉆,定制紗麗奢華

譯言
2026-04-27 06:03:29
蒙曼感嘆:這輩子也結不了婚!有兩個原因:一是歲數,二是長相

蒙曼感嘆:這輩子也結不了婚!有兩個原因:一是歲數,二是長相

觀察鑒娛
2026-03-13 09:20:46
墨菲不怕丁俊暉和肖國棟,只怕中國這三名球員

墨菲不怕丁俊暉和肖國棟,只怕中國這三名球員

老高說體育
2026-04-27 10:44:16
明晚德比戰,廣東四個好消息砸臉,就藏著一個雷,開門紅穩不穩?

明晚德比戰,廣東四個好消息砸臉,就藏著一個雷,開門紅穩不穩?

林子說事
2026-04-27 17:26:13
華國鋒題字“為人民服務”,顏楷風格引發熱議!

華國鋒題字“為人民服務”,顏楷風格引發熱議!

書畫相約
2026-04-27 08:26:50
阿特金森:哈登的訓練強度新秀很難跟得上,這就是頂級球星

阿特金森:哈登的訓練強度新秀很難跟得上,這就是頂級球星

懂球帝
2026-04-27 16:51:06
難怪美國一點不慌,原來真有內鬼輸血!1200噸戰略物資被悄悄賤賣

難怪美國一點不慌,原來真有內鬼輸血!1200噸戰略物資被悄悄賤賣

老謝談史
2026-04-26 21:27:25
中方必須無條件割讓領土?美發話后,馬來西亞叫囂:中國放棄南海

中方必須無條件割讓領土?美發話后,馬來西亞叫囂:中國放棄南海

詩酒趁的年華
2026-04-22 05:07:02
2026-04-27 22:31:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15077文章數 66815關注度
往期回顧 全部

科技要聞

DeepSeek V4上線三天,第一批實測出來了

頭條要聞

水庫放水21人被困下游河灘 有人讓家人踩肩頭爬樹避險

頭條要聞

水庫放水21人被困下游河灘 有人讓家人踩肩頭爬樹避險

體育要聞

最抽象的天才,正在改變瓜迪奧拉

娛樂要聞

黃楊鈿甜為“耳環風波”出鏡道歉:謠言已澄清

財經要聞

Meta 140億收購Manus遭中國發改委否決

汽車要聞

不那么小眾也可以 smart的路會越走越寬

態度原創

教育
健康
游戲
親子
公開課

教育要聞

文科大撤退,歷史首當其沖

干細胞如何讓燒燙傷皮膚"再生"?

再引爭議!PS5實體版黑旗RE也要強制聯網安裝

親子要聞

教孩子防侵犯誤區:對熟悉的壞人孩子不會害怕和恐懼!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版