網易首頁 > 網易號 > 正文 申請入駐

華為祭出AI推理黑科技UCM!海力士難了?不一定

0
分享至

都說英偉達是 AI 淘金熱潮下的「賣鏟人」,但大模型的上游贏家不只是英偉達和臺積電,還有以 SK 海力士為代表的 HBM(高帶寬內存)廠商。SK 海力士預計,HBM 將于每年 30%左右的速度增長,到 2030 年總規模將達到約 980 億美元。

在大模型推理的世界里,HBM 幾乎是性能與效率的代名詞。無論是 GPT-5 這樣的通用模型,還是面向垂直領域的專用大模型,推理階段都要頻繁訪問海量的 Key-Value 緩存(KV Cache)。這些緩存像「記憶」一樣存放著模型已處理過的上下文信息,而它們的讀寫速度,直接取決于顯存帶寬和容量:

這也是 HBM 的強項。

但 HBM 昂貴、稀缺,還被產能掣肘,直接成了當下推理性能和成本之間的一道硬門檻。不過就在最近舉辦的一場活動上,華為推出了與銀聯聯合打造的一項 AI 推理新技術 ——UCM(Unified Cache Manager,統一緩存管理器),直指大模型推理中對 HBM 依賴過重的頑疾。

圖片來源:華為

UCM 的核心思路并不神秘:不是把所有「記憶」都塞進貴又稀缺的 HBM,而是根據熱度分區——常用的放在高速區,不常用的轉移到更便宜、更容易擴展的存儲里。這樣一來,HBM 的壓力減輕了,模型依然能快速響應,而且能記得更多內容。

更重要的是,UCM 把這一切封裝成一個可適配多種推理引擎的統一套件,在軟件層面重新定義推理存儲調度的規則。

而按照華為的說法,這套技術能讓長對話或長文本處理的速度大幅提升,首個字的生成時間縮短到原來的十分之一,模型的「記憶范圍」擴展到過去的十倍。對于一個高度依賴硬件的領域來說,這聽起來像是通過軟件把硬件的瓶頸松開了一道口子:

幾乎在改變 AI 推理的游戲規則。

為什么HBM需要UCM來救場?

在 AI 進入日常生活的今天,大模型的「推理」——也就是 AI 理解問題、給出答案的過程,才是真正創造價值的環節。問題是,推理體驗并不總是令人滿意,尤其是在國內。

在華為推出 UCM 技術的活動上,華為昇騰計算產品部總裁周躍峰博士就指出,今天模型訓練、推理效率與體驗都以 Token 數為量綱,「由于在基礎設施投資當中的差距,中國互聯網的大模型首 Token 時延普遍慢于海外互聯網頭部的首 Token 時延?!?/p>

圖片來源:華為

不僅如此,生成 Token 的效率也更低。按照華為公布的數據,海外主流模型的單用戶輸出速度進入了 200 Tokens/s 區間(時延 5ms),但國內普遍小于 60Tokens/s(時延 50 - 100ms)。

簡單來說,國內 AI 用戶在同等問題下得到回復的速度可能更慢,甚至在處理長對話、長文檔時,模型會「遺忘」上下文——看了這一段忘了上一段,看了下一段又忘了前面。而造成這種差距的一個重要原因就是:AI 推理的「記憶力」瓶頸。

問題在于,過去的推理系統幾乎只用到了 HBM 和 DRAM,而對 SSD 這類低成本、大容量的存儲幾乎沒有利用。這就像一個人只用腦袋和短期記憶,不用筆記本和外部存檔,結果是要么記不住全部內容,要么被大量不常用的信息擠占了「腦子」里最寶貴的空間。

事實上,華為推出 UCM 要解決的,就是這種「內存結構失衡」的問題。UCM 通過算法把推理過程中的數據按熱度和延時需求分級存放:實時需要的熱數據放在 HBM ,中期會用到但不那么緊急的數據放到 DRAM,而那些體量大但訪問頻率低的「冷數據」則下沉到 SSD。

這樣一來,HBM 可以專心處理最高優先級的任務,不再被冷數據「占坑」,整個系統的推理效率就能被充分釋放。而 UCM 也并非一個孤立的軟件工具,它由三部分組成:

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
吳宜澤18-17絕殺墨菲!首奪世錦賽冠軍 獎金462萬 排名升世界第4

吳宜澤18-17絕殺墨菲!首奪世錦賽冠軍 獎金462萬 排名升世界第4

侃球熊弟
2026-05-05 05:36:18
連滾帶爬!賴清德連夜返回臺島,斯威士蘭把事做絕了

連滾帶爬!賴清德連夜返回臺島,斯威士蘭把事做絕了

阿龍聊軍事
2026-05-05 10:53:11
王健林債務纏身,王思聰洛杉磯落魄排隊,老子還能為他兜底嗎?

王健林債務纏身,王思聰洛杉磯落魄排隊,老子還能為他兜底嗎?

歷史偉人錄
2026-05-03 22:32:08
美國人的歷史課本,是怎樣寫中國的?僅有20頁,記載了6個中國人

美國人的歷史課本,是怎樣寫中國的?僅有20頁,記載了6個中國人

抽象派大師
2026-05-03 00:24:53
虧損超1.5億!《寒戰1994》票房崩塌,我感慨:這塊金字招牌砸了

虧損超1.5億!《寒戰1994》票房崩塌,我感慨:這塊金字招牌砸了

靠譜電影君
2026-05-05 10:40:44
45分鐘破萬,1小時大定8000臺!智己LS8憑什么引爆車市?

45分鐘破萬,1小時大定8000臺!智己LS8憑什么引爆車市?

極客看車
2026-04-17 16:08:32
21死61傷,瀏陽煙花廠爆炸最新傷亡情況公布,一細節讓人后怕

21死61傷,瀏陽煙花廠爆炸最新傷亡情況公布,一細節讓人后怕

Mr王的飯后茶
2026-05-05 10:02:05
谷愛凌穿“會吐泡泡”的高定裙子亮相Met Gala,裙子上有1.5萬顆玻璃泡泡,制作耗時2550小時

谷愛凌穿“會吐泡泡”的高定裙子亮相Met Gala,裙子上有1.5萬顆玻璃泡泡,制作耗時2550小時

魯中晨報
2026-05-05 16:26:17
歐冠-阿森納2-1馬競:英超爭冠奪回主動,歐冠槍手全力以赴|前瞻

歐冠-阿森納2-1馬競:英超爭冠奪回主動,歐冠槍手全力以赴|前瞻

體育世界
2026-05-05 13:56:25
返程“豬肝紅”從早堵到晚!司機直呼受不了,今日難逃“全天堵”

返程“豬肝紅”從早堵到晚!司機直呼受不了,今日難逃“全天堵”

上觀新聞
2026-05-05 15:23:08
躺平網吧惹爭議,6毛一小時,10元飯管飽,有人直接待了一年

躺平網吧惹爭議,6毛一小時,10元飯管飽,有人直接待了一年

映射生活的身影
2026-05-03 20:10:56
為什么發達國家對中國都不友好?

為什么發達國家對中國都不友好?

新浪財經
2026-05-04 07:26:54
河北邢臺“一家五口被害案”兇手已被執行死刑,家屬:獨自在5位家人墳前告慰,傷痛永遠無法消失

河北邢臺“一家五口被害案”兇手已被執行死刑,家屬:獨自在5位家人墳前告慰,傷痛永遠無法消失

極目新聞
2026-05-05 14:33:25
好奶就是“真鮮活” 三元70年贏在長期主義

好奶就是“真鮮活” 三元70年贏在長期主義

銠財
2026-05-01 10:23:31
被打臉?顏丙濤曾表示:趙心童是頂級高手,吳宜澤只能算是高手

被打臉?顏丙濤曾表示:趙心童是頂級高手,吳宜澤只能算是高手

風過鄉
2026-05-05 07:30:04
梁靖崑擊敗林文政,王楚欽擊敗薩琳,林詩棟擊敗盧偉都沒懸念

梁靖崑擊敗林文政,王楚欽擊敗薩琳,林詩棟擊敗盧偉都沒懸念

子水體娛
2026-05-05 17:06:12
美空軍加油機飛越波斯灣時發出緊急代碼7700,請求立即降落

美空軍加油機飛越波斯灣時發出緊急代碼7700,請求立即降落

上觀新聞
2026-05-05 16:24:05
痛悼!刁晏斌去世,享年67歲

痛悼!刁晏斌去世,享年67歲

環球網資訊
2026-05-05 16:39:05
最新:莫斯科遭受大規??找u!紅場閱兵首次拉起防護網

最新:莫斯科遭受大規??找u!紅場閱兵首次拉起防護網

項鵬飛
2026-05-04 17:29:10
肖磊:剛剛,穆斯林世界第一大“叛徒”誕生了

肖磊:剛剛,穆斯林世界第一大“叛徒”誕生了

肖磊看世界
2026-05-05 16:21:09
2026-05-05 18:47:00
迪迪天下看
迪迪天下看
一起了解生活的意義。
53文章數 0關注度
往期回顧 全部

科技要聞

傳蘋果考慮讓英特爾、三星代工設備處理器

頭條要聞

伊朗發射導彈襲擊美軍艦船和商船及阿聯酋 特朗普表態

頭條要聞

伊朗發射導彈襲擊美軍艦船和商船及阿聯酋 特朗普表態

體育要聞

全世界都等著看他笑話,他帶國米拿下冠軍

娛樂要聞

英皇25周年演唱會 張敬軒被救護車拉走

財經要聞

瀏陽煙花往事

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態度原創

家居
教育
游戲
親子
軍事航空

家居要聞

靈動實用 生活藝術場

教育要聞

上海交通大學大學第1專業,就業現狀與報考性價比分析!#金榜同行人

日本玩家瘋搶!Steam手柄開售即售罄 官網臨時關閉

親子要聞

在薊縣給你們找到一個非常不錯的幼兒園,太大太爽了!

軍事要聞

特朗普威脅伊朗不要向美國船開火

無障礙瀏覽 進入關懷版