前幾天,AI圈流傳著一個“駭人”的消息:
某大型企業因為沒有給員工使用Claude設置額度上限,一個月竟跑出了5億美元的AI賬單!
很多人第一反應是:Claude怎么這么貴?
但拋開傳聞本身,這個話題確實引出了一個值得思考的趨勢——Agent時代的新挑戰。
過去,我們問AI一個問題,消耗幾百上千個Token。
現在你說一句:“幫我找下周三從上海到深圳最便宜的商務艙航班,上午出發,預算3000元以內。”
Agent在背后會瘋狂調用大模型、搜索引擎、數據庫、知識庫、代碼執行器等工具,涉及數十次推理、數百次網絡通信、大量數據訪問。
真正的瓶頸已經不再僅僅是模型本身,而是整個數據中心如何高效協同計算、存儲和網絡資源。
傳統的云計算架構,正在面臨一次深刻的重構。
01
Agent時代,發生了什么變化?
先看幾組數據:
據國家數據局分析,Token消耗量到2025年底預計達到每天100萬億——一年增長1000倍。
今年4月,佐治亞理工學院與Intel聯合研究發現:在數學、編碼、問答等Agent任務中,CPU耗時占比最高可達90%。
另外,Agent導致序列長度大幅增加,主力模型從256K邁向百萬級,甚至有研究開始探索億級序列。長序列在內存管理和KV緩存上帶來了巨大挑戰。
這些變化說明:Agent時代,我們需要從架構上重新思考整個云基礎設施。
面對這個挑戰,華為云提出了一個大膽的構想:把整個數據中心看作一臺計算機。
在這個構想中,分散在不同服務器、機柜甚至機房里的CPU、NPU、內存和存儲,不再是彼此孤立的資源,而是像一臺超級計算機內部的器件一樣協同工作。
02
什么是Agentic 計算機?
簡單說,你可以把Agentic計算機理解為為AI時代從頭設計的“超級電腦”。
從技術上看,這個超級電腦就是數據中心本身——它通過一個叫做靈衢(UB)的高速網絡,把分散在數百個機柜中的CPU、NPU、SSD和內存互聯起來,使它們能夠像同一臺計算機里的設備一樣協同工作。
![]()
看到這里,很多人會想到英偉達的NVLink。
兩者確實有相似之處,都是通過高速互聯突破單機邊界。
區別在于:NVLink主要解決GPU與GPU之間的高速通信(雖然NVLink-C2C也能連接GPU與CPU,但對于更廣泛的存儲和網絡設備,仍需配合PCIe或DPU使用);而UB的目標是實現整個數據中心內計算、存儲和網絡資源的統一池化。
從業務模式看,這臺超級電腦的服務對象不再只是人,更是AI Agent。
它提供的不是“幾個CPU核心、幾張GPU卡”,而是Token能力——你說要處理100萬Token,系統自動配齊算力和內存,用完即散,像用電一樣按度收費。
所以,這不是簡單的擴展,而是對數據中心的一次徹底重構。
03
Agentic計算機優勢在哪里?
1.推理效率很高
現在大模型都流行MoE(Mixture of Experts,專家混合模型)技術,它的特點是模型里面有很多專家(Expert),但每次推理只激活少數幾個專家。
例如,一共256個專家,每次只調用8個,這樣既保持模型能力,又降低計算量。
傳統的方案是,一張卡上承擔很多專家,像這樣:
GPU/NPU
├─ Expert 1
├─ Expert 2
├─ Expert 3
├─ Expert 4
├─ ...
└─ Expert 16
這樣做的問題很明顯,大量時間花在數據搬運上,顯存壓力大 ,專家切換頻繁 ,資源利用率低 。
你可能會問了,為什么不搞成一卡一專家啊,理論上可以,但如果沒有足夠快的網絡,專家之間的All-to-All通信會爆炸式增長,反而拖慢整體速度。
華為云則擁有一個獨家的靈衢(UB)超高速網絡,可以讓GPU/NPU之間實現TB級的通信,每個專家都可以駐留一個NPU上:
NPU1 → Expert 1
NPU2 → Expert 2
NPU3 → Expert 3
NPU128 → Expert 128
這樣,整個集群變成一個超級推理引擎,客戶感受到的就是吞吐量更高,延遲更低,推理成本更低。
2 支持更長的上下文
以前我們用AI,主要就是回答問題,4K、8K、16K的上下文基本夠用。
但現在的Agent干的活兒,復雜度完全不是一個量級了。
比如你讓它“幫我分析過去三年的銷售數據,并生成未來六個月經營計劃”,這個Agent可能要:讀取幾十份文件、調用多個工具、生成中間結果、保留完整的執行歷史……上下文長度輕輕松松就突破百萬級,甚至上千萬。
所以真正的挑戰,已經從算力悄悄轉移到了內存。內存瓶頸,正在成為最要命的問題。
熟悉計算機體系結構的同學都知道經典的分級存儲:
![]()
華為云提出“Agentic計算機”,思路其實是一樣的,它用靈衢(UB)超高速網絡,把各種存儲資源統一連接,形成一套分級存儲體系:
![]()
在此基礎上,華為云推出了彈性內存服務(EMS):先在超節點內部形成TB級內存池(例如1K超節點可提供96TB內存池),今年更進一步在靈衢網絡上增加了智能存儲單元(SSU)——這是全球首個將存儲芯片與DPU合一的方案,單盤帶寬可達40GB/s,是普通SSD的4倍。
EMS服務因此升級為“內存池+SSU池”,提供PB級大容量緩存,可保存更長時間的KV Cache,緩存命中率提升至95%,成本節省高達63%。
在傳統的推理架構下,GPU像一個人,他的桌子很小,放不下太多資料。
而在Agentic計算機中,GPU的旁邊有個大型資料館,隨時取資料,這樣就支持了長期記憶和超長上下文。
3 任務執行速度更快:CPU重新成為主角
很多人認為,AI的速度,主要看GPU的速度,實際上在Agentic時代, Agent ≠ 大模型
因為Agent執行過程中,大模型推理只占一部分時間。
例如“幫我做市場調研”, Agent需要調用LLM分析,搜索網頁,調用數據庫,讀取文檔,運行代碼,生成報告。
這其中LLM推理可能只占10%, 而CPU處理,網絡IO,數據處理,工具調用占了90%的時間。
可以說在Agent時代,CPU重新變得重要了。
但是傳統的云計算在應對這種場景的時候效率是很低的,從GPU集群到CPU服務器,從CPU服務器到數據庫,每一步都需要跨越網絡,都會產生延遲,數據復制和調度開銷。
華為云提出“Agentic計算機”將CPU資源也融合到UB高速網絡中,對延遲敏感或數據量大的緊耦合場景(如緩存、數據預處理/后處理、極速沙箱),則通過UB網絡提供彈性緊耦合CPU算力池,實現CPU與NPU、CPU與分級內存池之間的低時延、高帶寬互通。
![]()
這大幅提升了Agent任務的運行效率。業界已有模式為了2.5倍推理速度付出6倍成本,而優化CPU路徑往往更容易且成本更低。
04
為什么是華為?
有人會問:英偉達、阿里云都很強,為什么偏偏是華為云在做這樣一張高速網絡?
因為這件事的工程難度遠超想象。
英偉達憑借NVLink和InfiniBand等方案,構建了強大的AI算力生態。但過去NVLink主要面向GPU互聯,銅纜在機柜內部效率很高,可一旦要把范圍從一塊芯片擴展到整個機房,銅纜的信號衰減就成問題。
英偉達也在向光通信努力(例如NVLink over Optics),但長距離、高密度的數據中心內部光互聯,其工程復雜度極高,英偉達在這方面的積累不如華為深厚。
阿里云的優勢在軟件系統和云平臺,難以從芯片到光纖全鏈路拉通。
而華為在光通信領域積淀極深——從上世紀90年代開始,這已是其技術壁壘最高的業務之一,全球獨一檔。
十幾年前,華為就開始圍繞數據中心設計芯片,儲備了處理器、網絡、接口、存儲、光模塊、高速光互聯等核心技術。
六年前,華為正式啟動UB技術研究,核心理念是“對等池化”:CPU池、NPU池、SSD池、DPU池、Memory池,統一編址、統一訪問。
華為云給CPU、NPU、DPU、SSD這些設備都預留UB了位置,這樣才能通過統一的UB網絡實現低時延,高帶寬協同。
更重要的是,華為云在整體架構上持續演進:
超節點規模持續擴大:
今年7月將基于新一代昇騰950發布靈衢智能計算集群AICS,規模提升到1024卡,更大的超節點可以靈活支持萬億模型,并探索大EP模式、MLP-Attention分離、投機解碼等高效推理方式。
分布式架構:多網合一
華為云規劃了分布式架構,將以往與服務器綁定的DPU池化,帶寬可在多個CPU/NPU間靈活分配,而且將Scale Out網絡與VPC網絡歸一,簡化多網絡平面體驗,峰值帶寬提升至3.2T。就算網卡故障時,業務不再受單硬件影響。
因此,靈衢(UB)網絡并非憑空出現,而是華為在芯片、網絡、光通信和云基礎設施上幾十年積累的一次集中爆發。
某種意義上說,Agent時代與華為的相遇,并非巧合。
05
誰在使用?
基于華為云Agentic Infra進行業務創新的客戶已經不少。
比如小紅書,此前用華為云CloudMatrix 384超節點(內部即為靈衢UB網絡)支撐大模型推理業務,實現了“低時延、高吞吐”。
超節點支持MoE模型的“一卡一專家”部署,384個專家并行推理,單卡吞吐量從600 Tokens/s提升到2300 Tokens/s,增量Token輸出時延(在特定模型和配置下)從100ms降至50ms以下,算力有效使用率(MFU)相對提升50%以上——這充分驗證了超節點和UB網絡在互聯網大流量、高并發場景下的工程可靠性。
再如國產萬億參數大模型Ling-1T,已正式上架華為云平臺。Ling-1T是一個大規模MoE模型,與華為云超節點、UB網絡深度互補,有效化解分布式推理中的通信瓶頸。
通過使用包括華為在內的國產芯片訓練,Ling-1T在MoE訓練中將計算成本從約635萬元/萬億Token降至508萬元,降低約20%,效果與使用英偉達H800等芯片相當。萬卡規模的國產算力集群,訓練任務穩定性超過98%。
此外還有芒果TV、面壁智能、WPS、美宜佳等客戶,這里不再詳述。
06
總結
面對大模型參數持續增長、序列越來越長、Agent長時間自主工作,以及世界模型等對大規模高效訓練的需求,我們需要構建一個超大規模、PB級緩存、通算與智算融合、高性能極簡網絡統一連接的系統。
這就是華為云打造的 “Agentic計算機”內核。
當AI能夠思考、規劃、執行和協作時,計算的重心從單純的模型推理,轉向了計算、存儲、網絡和工具調用的全局協同。傳統云計算解決的是“如何連接更多服務器”,而Agent時代需要解決的是“如何讓整個數據中心像一臺計算機一樣工作”。
也許幾年后,當我們習慣把復雜任務交給Agent完成時,今天看到的Agentic 計算機概念,就會像當年的云計算一樣,成為AI時代最重要的基礎設施之一。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.