網易首頁 > 網易號 > 正文申請入駐

英偉達向左，華為云向右：AI數據中心該走哪條路？

2026-06-06 10:03:11　來源: 碼農翻身

河南舉報

分享至

前幾天，AI圈流傳著一個“駭人”的消息：

某大型企業因為沒有給員工使用Claude設置額度上限，一個月竟跑出了5億美元的AI賬單！

很多人第一反應是：Claude怎么這么貴？

但拋開傳聞本身，這個話題確實引出了一個值得思考的趨勢——Agent時代的新挑戰。

過去，我們問AI一個問題，消耗幾百上千個Token。

現在你說一句：“幫我找下周三從上海到深圳最便宜的商務艙航班，上午出發，預算3000元以內。”

Agent在背后會瘋狂調用大模型、搜索引擎、數據庫、知識庫、代碼執行器等工具，涉及數十次推理、數百次網絡通信、大量數據訪問。

真正的瓶頸已經不再僅僅是模型本身，而是整個數據中心如何高效協同計算、存儲和網絡資源。

傳統的云計算架構，正在面臨一次深刻的重構。

Agent時代，發生了什么變化？

先看幾組數據：

據國家數據局分析，Token消耗量到2025年底預計達到每天100萬億——一年增長1000倍。

今年4月，佐治亞理工學院與Intel聯合研究發現：在數學、編碼、問答等Agent任務中，CPU耗時占比最高可達90%。

另外，Agent導致序列長度大幅增加，主力模型從256K邁向百萬級，甚至有研究開始探索億級序列。長序列在內存管理和KV緩存上帶來了巨大挑戰。

這些變化說明：Agent時代，我們需要從架構上重新思考整個云基礎設施。

面對這個挑戰，華為云提出了一個大膽的構想：把整個數據中心看作一臺計算機。

在這個構想中，分散在不同服務器、機柜甚至機房里的CPU、NPU、內存和存儲，不再是彼此孤立的資源，而是像一臺超級計算機內部的器件一樣協同工作。

什么是Agentic 計算機？

簡單說，你可以把Agentic計算機理解為為AI時代從頭設計的“超級電腦”。

從技術上看，這個超級電腦就是數據中心本身——它通過一個叫做靈衢（UB）的高速網絡，把分散在數百個機柜中的CPU、NPU、SSD和內存互聯起來，使它們能夠像同一臺計算機里的設備一樣協同工作。

看到這里，很多人會想到英偉達的NVLink。

兩者確實有相似之處，都是通過高速互聯突破單機邊界。

區別在于：NVLink主要解決GPU與GPU之間的高速通信（雖然NVLink-C2C也能連接GPU與CPU，但對于更廣泛的存儲和網絡設備，仍需配合PCIe或DPU使用）；而UB的目標是實現整個數據中心內計算、存儲和網絡資源的統一池化。

從業務模式看，這臺超級電腦的服務對象不再只是人，更是AI Agent。

它提供的不是“幾個CPU核心、幾張GPU卡”，而是Token能力——你說要處理100萬Token，系統自動配齊算力和內存，用完即散，像用電一樣按度收費。

所以，這不是簡單的擴展，而是對數據中心的一次徹底重構。

Agentic計算機優勢在哪里？

1.推理效率很高

現在大模型都流行MoE（Mixture of Experts，專家混合模型）技術，它的特點是模型里面有很多專家（Expert），但每次推理只激活少數幾個專家。

例如，一共256個專家，每次只調用8個，這樣既保持模型能力，又降低計算量。

傳統的方案是，一張卡上承擔很多專家，像這樣：

GPU/NPU

├─ Expert 1

├─ Expert 2

├─ Expert 3

├─ Expert 4

├─ ...

└─ Expert 16

這樣做的問題很明顯，大量時間花在數據搬運上，顯存壓力大，專家切換頻繁，資源利用率低。

你可能會問了，為什么不搞成一卡一專家啊，理論上可以，但如果沒有足夠快的網絡，專家之間的All-to-All通信會爆炸式增長，反而拖慢整體速度。

華為云則擁有一個獨家的靈衢（UB）超高速網絡，可以讓GPU/NPU之間實現TB級的通信，每個專家都可以駐留一個NPU上：

NPU1 → Expert 1

NPU2 → Expert 2

NPU3 → Expert 3

NPU128 → Expert 128

這樣，整個集群變成一個超級推理引擎，客戶感受到的就是吞吐量更高，延遲更低，推理成本更低。

2 支持更長的上下文

以前我們用AI，主要就是回答問題，4K、8K、16K的上下文基本夠用。

但現在的Agent干的活兒，復雜度完全不是一個量級了。

比如你讓它“幫我分析過去三年的銷售數據，并生成未來六個月經營計劃”，這個Agent可能要：讀取幾十份文件、調用多個工具、生成中間結果、保留完整的執行歷史……上下文長度輕輕松松就突破百萬級，甚至上千萬。

所以真正的挑戰，已經從算力悄悄轉移到了內存。內存瓶頸，正在成為最要命的問題。

熟悉計算機體系結構的同學都知道經典的分級存儲：

華為云提出“Agentic計算機”，思路其實是一樣的，它用靈衢（UB）超高速網絡，把各種存儲資源統一連接，形成一套分級存儲體系：

在此基礎上，華為云推出了彈性內存服務（EMS）：先在超節點內部形成TB級內存池（例如1K超節點可提供96TB內存池），今年更進一步在靈衢網絡上增加了智能存儲單元（SSU）——這是全球首個將存儲芯片與DPU合一的方案，單盤帶寬可達40GB/s，是普通SSD的4倍。

EMS服務因此升級為“內存池+SSU池”，提供PB級大容量緩存，可保存更長時間的KV Cache，緩存命中率提升至95%，成本節省高達63%。

在傳統的推理架構下，GPU像一個人，他的桌子很小，放不下太多資料。

而在Agentic計算機中，GPU的旁邊有個大型資料館，隨時取資料，這樣就支持了長期記憶和超長上下文。

3 任務執行速度更快：CPU重新成為主角

很多人認為，AI的速度，主要看GPU的速度，實際上在Agentic時代， Agent ≠ 大模型

因為Agent執行過程中，大模型推理只占一部分時間。

例如“幫我做市場調研”， Agent需要調用LLM分析，搜索網頁，調用數據庫，讀取文檔，運行代碼，生成報告。

這其中LLM推理可能只占10%，而CPU處理，網絡IO，數據處理，工具調用占了90%的時間。

可以說在Agent時代，CPU重新變得重要了。

但是傳統的云計算在應對這種場景的時候效率是很低的，從GPU集群到CPU服務器，從CPU服務器到數據庫，每一步都需要跨越網絡，都會產生延遲，數據復制和調度開銷。

華為云提出“Agentic計算機”將CPU資源也融合到UB高速網絡中，對延遲敏感或數據量大的緊耦合場景（如緩存、數據預處理/后處理、極速沙箱），則通過UB網絡提供彈性緊耦合CPU算力池，實現CPU與NPU、CPU與分級內存池之間的低時延、高帶寬互通。

這大幅提升了Agent任務的運行效率。業界已有模式為了2.5倍推理速度付出6倍成本，而優化CPU路徑往往更容易且成本更低。

為什么是華為？

有人會問：英偉達、阿里云都很強，為什么偏偏是華為云在做這樣一張高速網絡？

因為這件事的工程難度遠超想象。

英偉達憑借NVLink和InfiniBand等方案，構建了強大的AI算力生態。但過去NVLink主要面向GPU互聯，銅纜在機柜內部效率很高，可一旦要把范圍從一塊芯片擴展到整個機房，銅纜的信號衰減就成問題。

英偉達也在向光通信努力（例如NVLink over Optics），但長距離、高密度的數據中心內部光互聯，其工程復雜度極高，英偉達在這方面的積累不如華為深厚。

阿里云的優勢在軟件系統和云平臺，難以從芯片到光纖全鏈路拉通。

而華為在光通信領域積淀極深——從上世紀90年代開始，這已是其技術壁壘最高的業務之一，全球獨一檔。

十幾年前，華為就開始圍繞數據中心設計芯片，儲備了處理器、網絡、接口、存儲、光模塊、高速光互聯等核心技術。

六年前，華為正式啟動UB技術研究，核心理念是“對等池化”：CPU池、NPU池、SSD池、DPU池、Memory池，統一編址、統一訪問。

華為云給CPU、NPU、DPU、SSD這些設備都預留UB了位置，這樣才能通過統一的UB網絡實現低時延，高帶寬協同。

更重要的是，華為云在整體架構上持續演進：

超節點規模持續擴大：

今年7月將基于新一代昇騰950發布靈衢智能計算集群AICS，規模提升到1024卡，更大的超節點可以靈活支持萬億模型，并探索大EP模式、MLP-Attention分離、投機解碼等高效推理方式。

分布式架構：多網合一

華為云規劃了分布式架構，將以往與服務器綁定的DPU池化，帶寬可在多個CPU/NPU間靈活分配，而且將Scale Out網絡與VPC網絡歸一，簡化多網絡平面體驗，峰值帶寬提升至3.2T。就算網卡故障時，業務不再受單硬件影響。

因此，靈衢（UB）網絡并非憑空出現，而是華為在芯片、網絡、光通信和云基礎設施上幾十年積累的一次集中爆發。

某種意義上說，Agent時代與華為的相遇，并非巧合。

誰在使用？

基于華為云Agentic Infra進行業務創新的客戶已經不少。

比如小紅書，此前用華為云CloudMatrix 384超節點（內部即為靈衢UB網絡）支撐大模型推理業務，實現了“低時延、高吞吐”。

超節點支持MoE模型的“一卡一專家”部署，384個專家并行推理，單卡吞吐量從600 Tokens/s提升到2300 Tokens/s，增量Token輸出時延（在特定模型和配置下）從100ms降至50ms以下，算力有效使用率（MFU）相對提升50%以上——這充分驗證了超節點和UB網絡在互聯網大流量、高并發場景下的工程可靠性。

再如國產萬億參數大模型Ling-1T，已正式上架華為云平臺。Ling-1T是一個大規模MoE模型，與華為云超節點、UB網絡深度互補，有效化解分布式推理中的通信瓶頸。

通過使用包括華為在內的國產芯片訓練，Ling-1T在MoE訓練中將計算成本從約635萬元/萬億Token降至508萬元，降低約20%，效果與使用英偉達H800等芯片相當。萬卡規模的國產算力集群，訓練任務穩定性超過98%。

此外還有芒果TV、面壁智能、WPS、美宜佳等客戶，這里不再詳述。

總結

面對大模型參數持續增長、序列越來越長、Agent長時間自主工作，以及世界模型等對大規模高效訓練的需求，我們需要構建一個超大規模、PB級緩存、通算與智算融合、高性能極簡網絡統一連接的系統。

這就是華為云打造的 “Agentic計算機”內核。

當AI能夠思考、規劃、執行和協作時，計算的重心從單純的模型推理，轉向了計算、存儲、網絡和工具調用的全局協同。傳統云計算解決的是“如何連接更多服務器”，而Agent時代需要解決的是“如何讓整個數據中心像一臺計算機一樣工作”。

也許幾年后，當我們習慣把復雜任務交給Agent完成時，今天看到的Agentic 計算機概念，就會像當年的云計算一樣，成為AI時代最重要的基礎設施之一。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.