網易首頁 > 網易號 > 正文 申請入駐

華為云Tokens服務全面接入384超節點,以系統能力打造先進算力

0
分享至

8月27日,在第四屆828 B2B企業節開幕式上,華為云宣布其Tokens服務全面接入CloudMatrix384超節點,通過xDeepServe架構創新,單芯片最高可實現2400TPS、50msTPOT的超高吞吐、低時延的性能,超過業界水平。

發揮“大雜燴”優勢,以系統能力打造先進算力

過去18個月,中國AI算力需求呈現指數級增長。數據顯示,2024年初中國日均Token的消耗量為1000億,截至今年6月底,日均Token消耗量已突破30萬億,1年半的時間增長了300多倍,反映了我國人工智能應用規模快速增長,也對算力基礎設施的需求提出了更大的挑戰。

在以往按卡時計費的基礎上,今年3月,華為云正式推出了基于MaaS的Tokens服務。針對不同應用、不同場景的性能和時延要求,還提供了在線版、進線版、離線版乃至尊享版等多種服務規格,為大模型、Agent智能體等AI工具提供了更為靈活、便捷、低成本的先進算力。

而這一次,華為云的Tokens服務正式接入CloudMatrix384,并通過384原生的xDeepServe框架再次實現了吞吐量的突破,從年初的1920TPS提升至2400TPS,TPOT僅為50ms。

大算力的構建不是單點突破,而是一個從硬件到軟件、從算子到存儲、從推理框架到超節點的全棧創新,充分依托了華為的“大雜燴”能力。

首先,CloudMatrix384 超節點以全新的計算架構創新,突破性能瓶頸,構筑穩固澎湃的算力根基; CANN昇騰硬件使能,優化算子與高效通信策略,讓云端的算力能夠以最高效的方式被調用和組合;EMS彈性內存存儲打破AI內存墻,突破性地實現“以存強算”, 徹底釋放了每一顆芯片的算力;xDeepServe 分布式推理框架則以極致分離架構Transfomerless讓超節點釋放出更高效算力。

“拆掉”Transformer,xDeepServe全面激發算力潛能

作為CloudMatrix384 超節點的原生服務,xDeepServe以Transformerless 的極致分離架構,把MoE大模型拆成可獨立伸縮的 Attention、FFN、Expert三個微模塊,相當于在一臺CloudMatrix384上把“大模型”拆成“積木”,并分派到不同的NPU上同步處理任務。之后,再用基于內存語義的微秒級XCCL通信庫與FlowServe 自研推理引擎把它們重新拼成一個超高吞吐的LLM服務平臺,即Tokens的“超高速流水線”。通過xDeepServe不斷調優,最終實現了從非超節點單卡吞吐600tokens/s至超節點單卡吞吐2400tokens/s的提升。

作為硬件加速計算的中間層,CANN包含多個算子庫和和XCCL這種高性能通信庫等組件,共同支撐AI模型的高效運行。其中,XCCL作為專為超節點上的大語言模型(LLM)服務而量身打造的高性能通信庫,能夠充分發揮CloudMatrix384擴展后的UB互聯架構(UB fabric)的全部潛力,為 Transformerless的全面分離奠定了帶寬與時延雙重硬底座。

而作為被重構的“去中心”式分布式引擎,FlowServe把CloudMatrix384 切成完全自治的 DP 小組,每個小組自帶 Tokenizer、執行器、RTC 緩存與網絡棧,完全自給自足,做到千卡并發也不“擁堵”。

目前,xDeepServe已實現MA分離,而下一步,將把Attention、MoE、Decode全部改成自由流動的數據流,并把同樣的拼圖方法復制到多臺超節點,讓推理吞吐像鋪軌一樣線性延伸,最終或將視線吞吐量的更大突破,讓每塊 NPU 都高效運作,芯片永不排隊,推理永不塞車。

聚焦主流大模型,不斷提升模型性能

目前,華為云MaaS服務已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify、扣子等主流Agent平臺。

華為云積累了大量模型性能優化、效果調優的技術和能力,從而實現“源于開源,高于開源”,讓更多大模型可以在昇騰云上跑得更快更好。以文生圖大模型來說,在輕微損失畫質的情況下,通過Int8量化、旋轉位置編碼融合算子等方式,在在華為云MaaS平臺實現了2倍于業界主流平臺的出圖速度,最大尺寸支持2K×2K。而在文生視頻大模型上,不僅通過量化方式來提速,還通過通算并行等方式,降低延遲與顯存占用,大幅提升視頻生成速度,相較于友商實現了3.5倍的性能提升。華為云Tokens服務在性能、模型適配、效果調優方面的基礎,也讓更多企業能夠快速開發和構建AI Agent。

而在應用層,華為云已與超過100家伙伴攜手深入行業場景,共建豐富的Agent,在調研分析、內容創作、智慧辦公、智能運維等領域解決產業難題,讓企業更便捷地擁抱AI創新,加速智能化。

如基于MaaS平臺推出的今日人才數智員工解決方案,集成了先進的自然語言處理、機器學習和深度學習技術,能實現與用戶的智能交互和任務處理,顯著提升服務效率與客戶滿意度;而北京方寸無憂科技開發的無憂智慧公文解決方案可以提升公文處理效能,實現政企辦公智能化轉型。

以Token為動力的智能社會已經到來,而華為云將以系統級創新能力和全新的Tokens服務構筑先進算力,助力各行各業加速落地AI。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
直降20萬!沃爾沃官宣:新車正式上市

直降20萬!沃爾沃官宣:新車正式上市

高科技愛好者
2026-04-28 22:50:38
3個前任都是大人物,為何阿sa卻嫁給了健身教練?答案俗套又露骨

3個前任都是大人物,為何阿sa卻嫁給了健身教練?答案俗套又露骨

攬星河的筆記
2026-04-28 22:48:59
2027款別克世紀上市 售價53.99-69.99萬元

2027款別克世紀上市 售價53.99-69.99萬元

車質網
2026-04-29 09:14:47
和劉濤分手后,他常年定居上海,如今身價過億,年過60卻依舊單身

和劉濤分手后,他常年定居上海,如今身價過億,年過60卻依舊單身

一盅情懷
2026-04-28 12:22:02
快訊!日媒傳來消息!

快訊!日媒傳來消息!

故事終將光明磊落
2026-04-29 14:14:30
大放血開始,烏克蘭這次真的捅破了俄羅斯大動脈

大放血開始,烏克蘭這次真的捅破了俄羅斯大動脈

水雲鶴
2026-04-29 10:36:39
我國最容易叫錯的6個城市,念對一個算有文化,認識一半算你厲害

我國最容易叫錯的6個城市,念對一個算有文化,認識一半算你厲害

長風文史
2026-04-27 20:19:33
“浙江德比”燃爆“五一”,寧波男籃CBA季后賽主場首秀等你見證(內含福利)

“浙江德比”燃爆“五一”,寧波男籃CBA季后賽主場首秀等你見證(內含福利)

生活小ok
2026-04-29 21:11:29
武漢三鎮或迎來久違強援助陣!曾為球隊保級立下奇功,值得期待

武漢三鎮或迎來久違強援助陣!曾為球隊保級立下奇功,值得期待

懂個球
2026-04-29 17:39:08
窩心!17分慘敗,還被喊下課!發布會杜鋒怒批廣東球員不執行戰術

窩心!17分慘敗,還被喊下課!發布會杜鋒怒批廣東球員不執行戰術

體壇野秀才
2026-04-28 22:52:12
后續!岳陽高三水杯投毒案:施害者停課,受害者卻可能無緣高考

后續!岳陽高三水杯投毒案:施害者停課,受害者卻可能無緣高考

許三歲
2026-04-29 07:39:34
倫敦世乒賽又“作妖”!逼出國乒“最強大腦”!

倫敦世乒賽又“作妖”!逼出國乒“最強大腦”!

最愛乒乓球
2026-04-29 00:07:34
悲哀!“男友訂百元酒店被分手”一事登上熱搜,聊天記錄太下頭了

悲哀!“男友訂百元酒店被分手”一事登上熱搜,聊天記錄太下頭了

火山詩話
2026-04-15 07:06:06
全球第四大車企出售工廠,震動行業!

全球第四大車企出售工廠,震動行業!

財經三分鐘pro
2026-04-28 17:23:53
“大齡剩女”正在集體消失!不是嫁人了,是被現實一巴掌扇到隱形

“大齡剩女”正在集體消失!不是嫁人了,是被現實一巴掌扇到隱形

老范談史
2026-04-25 02:11:07
小時候沒有一頓打是白挨的!評論區真是笑不活了哈哈!

小時候沒有一頓打是白挨的!評論區真是笑不活了哈哈!

小陸搞笑日常
2026-04-29 13:54:22
趙心童被不雅喊話24小時,特魯姆普曝墨菲奪冠優勢,潘曉婷坦言

趙心童被不雅喊話24小時,特魯姆普曝墨菲奪冠優勢,潘曉婷坦言

李橑在北漂
2026-04-29 16:40:08
俄圖阿普謝煉油廠再遭襲,當地致癌物超上限,恐上演生化危機

俄圖阿普謝煉油廠再遭襲,當地致癌物超上限,恐上演生化危機

史政先鋒
2026-04-29 16:12:26
沒斗志球迷也倒戈!徐杰喊話全隊,5壞消息讓廣東沒了翻盤的底氣

沒斗志球迷也倒戈!徐杰喊話全隊,5壞消息讓廣東沒了翻盤的底氣

后仰大風車
2026-04-29 07:10:11
歷史總是驚人相似:清朝試圖和平統一臺灣,鄭經卻得寸進尺要獨立

歷史總是驚人相似:清朝試圖和平統一臺灣,鄭經卻得寸進尺要獨立

歷史龍元閣
2026-04-25 15:10:07
2026-04-29 22:27:00
科技talk
科技talk
科技領域資深新媒體
1327文章數 2249關注度
往期回顧 全部

科技要聞

今晨庭審紀實|馬斯克當庭講述OpenAI被偷走

頭條要聞

院長兒子被指"吃空餉"涉百萬獎金 醫院調查稱其拿2萬

頭條要聞

院長兒子被指"吃空餉"涉百萬獎金 醫院調查稱其拿2萬

體育要聞

一場九球狂歡,各路神仙批量下凡

娛樂要聞

馬頔一句話,孫楊媽媽怒罵節目組2小時

財經要聞

蘇州,率先進入牛市

汽車要聞

技術天花板再摸高 全能型的奕境X9首秀

態度原創

數碼
藝術
游戲
公開課
軍事航空

數碼要聞

追覓推出空氣炸鍋F20:6L容量、1700W上下雙熱源,299元

藝術要聞

這些女神,竟然都是攝影師切爾尼亞季耶夫的復古作品!

前巫師3總監新作 時限是劇情節點,之后仍可玩到通關

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國參議院否決限制特朗普對古巴動武的決議

無障礙瀏覽 進入關懷版