華為祭出AI推理黑科技UCM！海力士難了？不一定

2025-08-15 10:43:52　來源: 迪迪天下看

江西舉報

分享至

都說英偉達是 AI 淘金熱潮下的「賣鏟人」，但大模型的上游贏家不只是英偉達和臺積電，還有以 SK 海力士為代表的 HBM（高帶寬內(nèi)存）廠商。SK 海力士預計，HBM 將于每年 30%左右的速度增長，到 2030 年總規(guī)模將達到約 980 億美元。

在大模型推理的世界里，HBM 幾乎是性能與效率的代名詞。無論是 GPT-5 這樣的通用模型，還是面向垂直領域的專用大模型，推理階段都要頻繁訪問海量的 Key-Value 緩存（KV Cache）。這些緩存像「記憶」一樣存放著模型已處理過的上下文信息，而它們的讀寫速度，直接取決于顯存帶寬和容量：

這也是 HBM 的強項。

但 HBM 昂貴、稀缺，還被產(chǎn)能掣肘，直接成了當下推理性能和成本之間的一道硬門檻。不過就在最近舉辦的一場活動上，華為推出了與銀聯(lián)聯(lián)合打造的一項 AI 推理新技術 ——UCM（Unified Cache Manager，統(tǒng)一緩存管理器），直指大模型推理中對 HBM 依賴過重的頑疾。

圖片來源：華為

UCM 的核心思路并不神秘：不是把所有「記憶」都塞進貴又稀缺的 HBM，而是根據(jù)熱度分區(qū)——常用的放在高速區(qū)，不常用的轉(zhuǎn)移到更便宜、更容易擴展的存儲里。這樣一來，HBM 的壓力減輕了，模型依然能快速響應，而且能記得更多內(nèi)容。

更重要的是，UCM 把這一切封裝成一個可適配多種推理引擎的統(tǒng)一套件，在軟件層面重新定義推理存儲調(diào)度的規(guī)則。

而按照華為的說法，這套技術能讓長對話或長文本處理的速度大幅提升，首個字的生成時間縮短到原來的十分之一，模型的「記憶范圍」擴展到過去的十倍。對于一個高度依賴硬件的領域來說，這聽起來像是通過軟件把硬件的瓶頸松開了一道口子：

幾乎在改變 AI 推理的游戲規(guī)則。

為什么HBM需要UCM來救場？

在 AI 進入日常生活的今天，大模型的「推理」——也就是 AI 理解問題、給出答案的過程，才是真正創(chuàng)造價值的環(huán)節(jié)。問題是，推理體驗并不總是令人滿意，尤其是在國內(nèi)。

在華為推出 UCM 技術的活動上，華為昇騰計算產(chǎn)品部總裁周躍峰博士就指出，今天模型訓練、推理效率與體驗都以 Token 數(shù)為量綱，「由于在基礎設施投資當中的差距，中國互聯(lián)網(wǎng)的大模型首 Token 時延普遍慢于海外互聯(lián)網(wǎng)頭部的首 Token 時延。」

圖片來源：華為

不僅如此，生成 Token 的效率也更低。按照華為公布的數(shù)據(jù)，海外主流模型的單用戶輸出速度進入了 200 Tokens/s 區(qū)間（時延 5ms），但國內(nèi)普遍小于 60Tokens/s（時延 50 - 100ms）。

簡單來說，國內(nèi) AI 用戶在同等問題下得到回復的速度可能更慢，甚至在處理長對話、長文檔時，模型會「遺忘」上下文——看了這一段忘了上一段，看了下一段又忘了前面。而造成這種差距的一個重要原因就是：AI 推理的「記憶力」瓶頸。

問題在于，過去的推理系統(tǒng)幾乎只用到了 HBM 和 DRAM，而對 SSD 這類低成本、大容量的存儲幾乎沒有利用。這就像一個人只用腦袋和短期記憶，不用筆記本和外部存檔，結(jié)果是要么記不住全部內(nèi)容，要么被大量不常用的信息擠占了「腦子」里最寶貴的空間。

事實上，華為推出 UCM 要解決的，就是這種「內(nèi)存結(jié)構(gòu)失衡」的問題。UCM 通過算法把推理過程中的數(shù)據(jù)按熱度和延時需求分級存放：實時需要的熱數(shù)據(jù)放在 HBM ，中期會用到但不那么緊急的數(shù)據(jù)放到 DRAM，而那些體量大但訪問頻率低的「冷數(shù)據(jù)」則下沉到 SSD。

這樣一來，HBM 可以專心處理最高優(yōu)先級的任務，不再被冷數(shù)據(jù)「占坑」，整個系統(tǒng)的推理效率就能被充分釋放。而 UCM 也并非一個孤立的軟件工具，它由三部分組成：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.