都說英偉達是 AI 淘金熱潮下的「賣鏟人」,但大模型的上游贏家不只是英偉達和臺積電,還有以 SK 海力士為代表的 HBM(高帶寬內(nèi)存)廠商。SK 海力士預計,HBM 將于每年 30%左右的速度增長,到 2030 年總規(guī)模將達到約 980 億美元。
在大模型推理的世界里,HBM 幾乎是性能與效率的代名詞。無論是 GPT-5 這樣的通用模型,還是面向垂直領域的專用大模型,推理階段都要頻繁訪問海量的 Key-Value 緩存(KV Cache)。這些緩存像「記憶」一樣存放著模型已處理過的上下文信息,而它們的讀寫速度,直接取決于顯存帶寬和容量:
這也是 HBM 的強項。
但 HBM 昂貴、稀缺,還被產(chǎn)能掣肘,直接成了當下推理性能和成本之間的一道硬門檻。不過就在最近舉辦的一場活動上,華為推出了與銀聯(lián)聯(lián)合打造的一項 AI 推理新技術 ——UCM(Unified Cache Manager,統(tǒng)一緩存管理器),直指大模型推理中對 HBM 依賴過重的頑疾。
圖片來源:華為
UCM 的核心思路并不神秘:不是把所有「記憶」都塞進貴又稀缺的 HBM,而是根據(jù)熱度分區(qū)——常用的放在高速區(qū),不常用的轉(zhuǎn)移到更便宜、更容易擴展的存儲里。這樣一來,HBM 的壓力減輕了,模型依然能快速響應,而且能記得更多內(nèi)容。
更重要的是,UCM 把這一切封裝成一個可適配多種推理引擎的統(tǒng)一套件,在軟件層面重新定義推理存儲調(diào)度的規(guī)則。
而按照華為的說法,這套技術能讓長對話或長文本處理的速度大幅提升,首個字的生成時間縮短到原來的十分之一,模型的「記憶范圍」擴展到過去的十倍。對于一個高度依賴硬件的領域來說,這聽起來像是通過軟件把硬件的瓶頸松開了一道口子:
幾乎在改變 AI 推理的游戲規(guī)則。
為什么HBM需要UCM來救場?
在 AI 進入日常生活的今天,大模型的「推理」——也就是 AI 理解問題、給出答案的過程,才是真正創(chuàng)造價值的環(huán)節(jié)。問題是,推理體驗并不總是令人滿意,尤其是在國內(nèi)。
在華為推出 UCM 技術的活動上,華為昇騰計算產(chǎn)品部總裁周躍峰博士就指出,今天模型訓練、推理效率與體驗都以 Token 數(shù)為量綱,「由于在基礎設施投資當中的差距,中國互聯(lián)網(wǎng)的大模型首 Token 時延普遍慢于海外互聯(lián)網(wǎng)頭部的首 Token 時延。」
圖片來源:華為
不僅如此,生成 Token 的效率也更低。按照華為公布的數(shù)據(jù),海外主流模型的單用戶輸出速度進入了 200 Tokens/s 區(qū)間(時延 5ms),但國內(nèi)普遍小于 60Tokens/s(時延 50 - 100ms)。
簡單來說,國內(nèi) AI 用戶在同等問題下得到回復的速度可能更慢,甚至在處理長對話、長文檔時,模型會「遺忘」上下文——看了這一段忘了上一段,看了下一段又忘了前面。而造成這種差距的一個重要原因就是:AI 推理的「記憶力」瓶頸。
問題在于,過去的推理系統(tǒng)幾乎只用到了 HBM 和 DRAM,而對 SSD 這類低成本、大容量的存儲幾乎沒有利用。這就像一個人只用腦袋和短期記憶,不用筆記本和外部存檔,結(jié)果是要么記不住全部內(nèi)容,要么被大量不常用的信息擠占了「腦子」里最寶貴的空間。
事實上,華為推出 UCM 要解決的,就是這種「內(nèi)存結(jié)構(gòu)失衡」的問題。UCM 通過算法把推理過程中的數(shù)據(jù)按熱度和延時需求分級存放:實時需要的熱數(shù)據(jù)放在 HBM ,中期會用到但不那么緊急的數(shù)據(jù)放到 DRAM,而那些體量大但訪問頻率低的「冷數(shù)據(jù)」則下沉到 SSD。
這樣一來,HBM 可以專心處理最高優(yōu)先級的任務,不再被冷數(shù)據(jù)「占坑」,整個系統(tǒng)的推理效率就能被充分釋放。而 UCM 也并非一個孤立的軟件工具,它由三部分組成:
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.