无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

一兆瓦養活6萬智能體!英偉達GB300碾壓前代20倍

0
分享至


新智元報道


【新智元導讀】跑分跑了這么多年,新基準偏說FLOPS量不動智能體了,英偉達GB300一上來,就把上代甩開20倍。

同樣一兆瓦電,英偉達最新的GB300 NVL72能同時扛住61400個智能體,上一代H200只扛得住大約2600個。

這中間,差了整整20倍。


英偉達公布的AA-AgentPerf成績:在每秒20與60個token兩檔服務標準下,GB300 NVL72每兆瓦的并發智能體數,都約為H200的20倍。

6月12日,英偉達剛放出這組數字的時候,外界第一反應是又一次性能炫技。

但真正變了的,并非這代芯片有多猛,而是丈量算力的那把尺子。

它就是獨立評測機構Artificial Analysis發布的新基準:AA-AgentPerf。

Artificial Analysis在官方博客中將它稱為業界第一個專門為「AI智能體(AI agent)」設計的推理基準。


它的主指標也和以往不同:并非每秒多少token,而是「每兆瓦并發智能體數(Agents per Megawatt)」。

通俗點說,就是每給系統供1兆瓦的電力,它能同時「養活」多少個智能體。

FLOPS量了這么多年,每秒吐多少token也用得好好的,為什么還要推出AA-AgentPerf這個新基準?

舊尺子

量不動智能體了

要回答這個問題,得先弄明白智能體跑起來時到底是個什么負載。

Artificial Analysis的判斷很明確,2026年最主流的AI負載,和那些老基準當年設計時瞄準的東西,早就不是一回事了:老基準量的是定長的合成請求,還順手關掉了生產環境里真會開的那些優化。

英偉達官方也打了一個貼切的比方:

一次普通的對話,是百米沖刺,模型接一個問題,吐一段回答,結束;但一個智能體干活,更像跑接力。

它把一個目標拆成幾十上百個步驟,讀文件、寫代碼、跑命令、看結果,再決定下一步,一棒接一棒,直到任務真正做完。

這一路下來,幾十次甚至上百次的大模型調用串在一起,每一次都把越滾越長的上下文遞給下一棒,還夾雜著編譯、查庫、跑搜索這些工具調用。

復雜度并非簡單相加,而是層層相乘。


英偉達用「接力」比喻智能體負載。一個目標被拆成幾十上百步,大模型調用與工具調用一棒接一棒,串成不斷變長的長鏈。

問題恰恰就出在這里。

市面上現有的推理基準測試,量的都是單次調用,一個請求進去多久回來、一臺機器能同時接多少個請求。

它們原本就不是為智能體設計的。鏈式調用、工具等待、上下文膨脹,這些東西對系統的壓榨方式,和單次請求完全是兩回事。

僅是長會話就藏著老基準的測試盲區:同一段長長的前綴,會一輪一輪重復出現,誰能把它緩存住、不必每次重算,誰就省下大筆算力。

再加上工具結果動不動把上下文撐爆、輸出卻常常只有幾百個token,調度器和顯存層級扛不扛得住這種忽長忽短的節奏,直接決定一套系統是順暢運轉還是當場崩掉。

這恰恰是固定長度的合成測試無法觸及的地方。

對于真金白銀買卡、建數據中心的人來說,他們真正關心的是這套系統到底能同時養活多少個干活的智能體,每一度電、每一塊GPU又換來多少有用產出。

這些問題老基準測試答不上來。

第一個為智能體造的尺子

AA-AgentPerf的做法和老基準不一樣,不喂那種長度固定的合成提示詞,而是回放真實的編程智能體軌跡。


AA-AgentPerf回放的智能體軌跡示意。從一個請求出發,LLM調用與工具調用交替推進,直到任務真正完成。

這些軌跡,是讓智能體去解真實代碼倉庫里的問題攢出來的,覆蓋12種以上編程語言,一段會話最長能跑到200輪,上下文輕松沖破10萬token。

輸入長度從5千到13萬token不等,平均約2.7萬。真正把長度撐起來的,并非提示詞本身,而是一輪輪累積的工具輸出和對話歷史。

更關鍵的,是它怎么算成績。

它不去拼極致的并發數。并發一旦堆太高,每個智能體都慢得像爬,并發數再大,也只是中看不中用。

AA-AgentPerf反過來做:先鎖死一個服務標準,每個智能體的輸出速度、首字延遲(TTFT)都得達標,再看系統守住這條線,最多能扛住多少個智能體。

這套約束有個名字,叫服務等級目標(SLO)。

這套標準還分了幾檔,從每秒20個token的夠用檔,到每秒180個token的飛快檔,每一檔單獨測一遍最大并發,對應市面上真實存在的幾種服務水平。


服務等級目標(SLO)如何卡住最大并發。綠點是達標區,一旦并發堆高、速度跌破門檻,對應的并發上限就是這套系統的成績。

它還做了一件別的基準不太敢做的事,把廠商在生產里真會開的優化全都放開。

KV cache復用、推測解碼、把預填充和解碼拆開部署,這些以前常被基準一刀切關掉的招數,這次全部允許。

理由很簡單:關掉這些優化測出來的,量了也沒意義。

與此同時,它還盯著輸出質量,不讓某個優化靠犧牲回答質量去換并發數。這樣一來,每多一項軟硬件進步帶來的提升,都能被它如實測量出來。

最后落到一個核心指標:每兆瓦并發智能體數。在一個電力越來越緊、能耗就是成本的世界里,這個指標,才是買家真正關心的那一個:從tokens每秒,到agents每兆瓦。

每兆瓦領先20倍

每塊GPU領先40倍

在一個代表當下最強一類的前沿混合專家(MoE)模型測試里,GB300 NVL72每兆瓦能撐起61400個并發智能體,平均每塊GPU扛起57.5個。

對照組H200,每兆瓦大約2600個,每塊GPU只有1.4個。二者之間每兆瓦差出約20倍,每塊GPU差出約40倍。

這兩個數的含金量也不一樣。

每兆瓦衡量的是同樣一度電能買到多少智能體產能,是一筆能效賬;而每GPU衡量的則是單塊卡的服務密度,是一筆硬件賬。

根據這兩個數,就能直接換算自己手里那點電力預算,到底能跑起多大規模的智能體應用。

榜單上不止英偉達的GB300,還有AMD的MI355X。從單卡、整機到整機架,都擺出來同臺競技。

第一批結果里跑出了兩條很明顯的規律。

規律1:機架級系統天然更便宜,它能更充分地把推理拆開、攤到更多卡上,無論純算力還是每兆瓦能效,都把單節點甩在身后;

規律2:從Hopper到Blackwell這一代的跨越,把系統能扛的并發數直接頂上了一個新臺階,并非小修小補。

從單卡到機架

系統級的勝利

從H200到GB300,這看起來像單卡性能的飛躍,事實上是一場系統級的勝利。

更為關鍵的是GB300 NVL72把72塊GPU用NVLink連成了一個機架級的整體。

對這種龐大的混合專家模型來說,這才是要害:模型能整個攤開,專家分到一整片GPU上并行執行,而并非全擠在單卡里干耗。

CUDA核心在底下做了進一步優化,把跨專家之間的通信和計算重疊起來,讓協調各路專家的那點開銷被算力悄悄吞掉,而并非堆在時延上。

TensorRT-LLM則負責在并發會話不斷往上漲的時候,把效率守住,比如把輸入的處理和輸出的生成拆成兩件事,各自單獨優化。

說白了,這個測試成績,是硬件、互聯和軟件棧共同作用的結果。


GB300 NVL72機架。72塊GPU經NVLink連成單一高帶寬整體,這才是6萬個智能體能協同運轉的硬件底座。

把72塊卡焊成一個高帶寬的整體,每塊GPU都能飛快地共享參數、KV cache和中間結果,這才是6萬個智能體能協同跑起來的底氣。

幾條不能略過的邊界

這里有幾點需要注意,不能把基準測試等同于生產現實。

第一,6萬這個數,并非一臺機器同時跑6萬個獨立的大模型。

它是基準定義下的并發會話模擬,每個智能體走的是一條預先錄好的軌跡,連工具調用都并非真去執行,而是用一段固定的CPU耗時去模擬。

這么設計,是為了讓最終結果只反映算力本身的差異,但它和真實生產環境里能交付的服務能力,并不能直接畫等號。

第二,基準成績并非生產服務協議。

Artificial Analysis自己也說,這是一份還在快速變動的前沿快照,各家系統都還有沒榨干的余量,成績會隨著軟件優化一路向上爬升。

第三,AA-AgentPerf目前還是單一機構提出的標準。

它會不會像MLPerf那樣,最終長成全行業公認的標尺,現在下結論還尚早。

參考資料:

https://artificialanalysis.ai/articles/aa-agentperf

https://developer.nvidia.com/blog/nvidia-achieves-leading-agentic-coding-performance-on-first-agentic-ai-benchmark/

編輯:元宇



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
1986年陳永貴病逝,追悼會規格成難題,鄧小平只說了一句話,全場安靜

1986年陳永貴病逝,追悼會規格成難題,鄧小平只說了一句話,全場安靜

寄史言志
2026-01-04 16:34:31
最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
蒙古人為什么這么恨中國?四個大實話,聽完別不舒服

蒙古人為什么這么恨中國?四個大實話,聽完別不舒服

老鵜愛說事
2026-05-21 15:26:51
普京1億超級游艇突發北逃!兩艘軍艦死死護航,北約全線跟蹤

普京1億超級游艇突發北逃!兩艘軍艦死死護航,北約全線跟蹤

一曲一場談
2026-07-04 16:25:26
正在逼近的社會困局:老人多了,反而是養老院卻迎來倒閉潮!

正在逼近的社會困局:老人多了,反而是養老院卻迎來倒閉潮!

銘記歷史呀
2026-07-04 17:43:04
世界杯冠軍球衣失蹤25年!家人淚灑法庭:和錢沒關系,這是尊嚴

世界杯冠軍球衣失蹤25年!家人淚灑法庭:和錢沒關系,這是尊嚴

無月可歸辛
2026-07-04 20:23:25
出口11國、市占率近50%,韓國K-9到底憑什么成為如今最暢銷的重炮

出口11國、市占率近50%,韓國K-9到底憑什么成為如今最暢銷的重炮

戰刃
2026-07-02 19:54:03
生日看尾數,福氣藏不住,5個農歷生日尾數,越老越享福。

生日看尾數,福氣藏不住,5個農歷生日尾數,越老越享福。

智慧生活筆記
2026-07-04 20:34:54
突發!Anthropic擬全面封禁地下通道

突發!Anthropic擬全面封禁地下通道

新智元
2026-07-04 09:20:40
蘋果突發更新,給 iPhone 17 Pro 系列新增專屬功能!

蘋果突發更新,給 iPhone 17 Pro 系列新增專屬功能!

XCiOS俱樂部
2026-07-03 13:00:18
出大事了,普京耐心已盡,俄報復行動升級,澤連斯基或只剩一條路

出大事了,普京耐心已盡,俄報復行動升級,澤連斯基或只剩一條路

青青衫書生
2026-07-04 17:08:24
部分二線名酒的暴雷還沒正式拉開序幕,后面還會更加精彩

部分二線名酒的暴雷還沒正式拉開序幕,后面還會更加精彩

阿誣品鑒白酒
2026-07-03 22:44:01
搶銅戰迎來大逆轉,瘋狂囤貨的美國捅了馬蜂窩,中國亮出三張底牌

搶銅戰迎來大逆轉,瘋狂囤貨的美國捅了馬蜂窩,中國亮出三張底牌

探索新高度
2026-07-04 05:25:46
18年了!汶川地震丟下學生逃跑的“范跑跑”,如今竟過成了這樣?

18年了!汶川地震丟下學生逃跑的“范跑跑”,如今竟過成了這樣?

一盅情懷
2026-05-14 09:05:26
以色列宣布:打死穆罕默德·納伊姆·詹迪亞

以色列宣布:打死穆罕默德·納伊姆·詹迪亞

每日經濟新聞
2026-07-03 17:46:37
你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
WTT大滿貫連爆3場冷門,女單衛冕冠軍遭橫掃,張本智和也慘敗出局

WTT大滿貫連爆3場冷門,女單衛冕冠軍遭橫掃,張本智和也慘敗出局

十級搞笑選手
2026-07-04 15:22:18
高盛研判下半年市場:資金撤離七大科技巨頭,半導體AI上游受青睞

高盛研判下半年市場:資金撤離七大科技巨頭,半導體AI上游受青睞

熱聞島
2026-07-04 10:45:04
俄下屆總統可能被敲定,普京恐提前“下崗”?中方或成最大贏家?

俄下屆總統可能被敲定,普京恐提前“下崗”?中方或成最大贏家?

孤城落葉
2026-07-03 16:15:53
河南省政府對鄭州市政府進行安全生產約談

河南省政府對鄭州市政府進行安全生產約談

界面新聞
2026-07-04 07:37:51
2026-07-04 23:20:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15607文章數 66947關注度
往期回顧 全部

科技要聞

韜定律論文V2版,充工程細節和實測數據

頭條要聞

一家三口新疆自駕游突遇山洪 母子避險被沖走失聯多日

頭條要聞

一家三口新疆自駕游突遇山洪 母子避險被沖走失聯多日

體育要聞

揭法國鋒線最大優勢 有人比姆巴佩還快?

娛樂要聞

白鹿打戲摳圖惹非議 連累丞磊遭扒皮

財經要聞

韓國股市杠桿失控:450億美元資金狂飆

汽車要聞

方程豹鈦9內飾曝光 用上了長聯屏設計/下半年上市

態度原創

游戲
教育
旅游
數碼
公開課

雙形態史詩武將勢周瑜登場!《三國殺》周年慶上演千古風流

教育要聞

UCAS補錄全攻略:clearing其實是速度和信息差之戰!

旅游要聞

“津旅時光號”7月線路上新!增開廣陽站、塘沽站,串聯京津冀

數碼要聞

中國空調在歐洲賣爆 多品牌正加急補貨

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版