網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

32GB顯存不夠用了，本地跑大模型的新解法

2026-05-27 00:32:31　來源: 固件更新中

北京舉報(bào)

分享至

如果你折騰過本地AI，一定聽過這條鐵律：顯存越大越好，獨(dú)立顯卡是終極夢想。這話不算錯(cuò)——只要模型塞得進(jìn)去，快顯存的顯卡確實(shí)能啃下不少任務(wù)。過去幾年，想本地跑更大的模型，買張更大顯存的卡就行。

這條路近年悄悄撞墻了。消費(fèi)級(jí)顯存停滯在32GB，RTX 5090封頂于此； meanwhile，值得跑的開源模型已經(jīng)膨脹到數(shù)千億參數(shù)。一張32GB的卡，如今連多數(shù)真正改變游戲規(guī)則的大模型都加載不了。但這類模型并非完全無解——本地AI的有趣進(jìn)展已經(jīng)轉(zhuǎn)向另一類機(jī)器：統(tǒng)一內(nèi)存架構(gòu)跑混合專家模型（MoE）。這套組合讓一臺(tái)相對(duì)慢速的機(jī)器，能穩(wěn)穩(wěn)運(yùn)行5090完全碰不到的大模型。

統(tǒng)一內(nèi)存機(jī)器并非全是優(yōu)點(diǎn)，多數(shù)情況下帶寬平庸，長輸入的提示詞處理也更慢。但具體到"跑你能搞到的最大模型"這件事，它表現(xiàn)極好，消費(fèi)級(jí)顯卡世界沒有能打的。

模型生成輸出分兩個(gè)階段。第一階段叫預(yù)填充（prefill），模型讀取你的提示詞，此時(shí)計(jì)算密集，因?yàn)樘崾驹~可以并行處理——本質(zhì)上是對(duì)輸入做大規(guī)模矩陣運(yùn)算，而非逐token生成。但讀取回復(fù)的token屬于解碼階段，這是內(nèi)存帶寬密集型任務(wù)。每個(gè)token都要從內(nèi)存重新讀取模型權(quán)重，所以生成速度大致等于帶寬除以每個(gè)token要讀取的字節(jié)數(shù)。每個(gè)token讀取的權(quán)重越少，生成越快。

這個(gè)拆分對(duì)評(píng)估顯存需求極其關(guān)鍵：不只是"多少"的問題，還有"多快"。容量用來裝下模型，但快速生成需要帶寬。獨(dú)立顯卡帶寬快，但容量卡得很死；而超過32GB內(nèi)存的統(tǒng)一內(nèi)存機(jī)器，并不罕見。

統(tǒng)一內(nèi)存用速度換空間。原理是：CPU和GPU共享一大塊連貫內(nèi)存池，無需跨總線來回拷貝，而非在GPU上焊一小塊極速內(nèi)存。目前三家主流方案，效果大致相近。蘋果Silicon走得最遠(yuǎn)，M3 Ultra Mac Studio做到512GB容量、約800 GB/s帶寬。英偉達(dá)的GB10芯片——用在DGX Spark和聯(lián)想ThinkStation PGX里——提供

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.