如果你折騰過本地AI,一定聽過這條鐵律:顯存越大越好,獨(dú)立顯卡是終極夢想。這話不算錯(cuò)——只要模型塞得進(jìn)去,快顯存的顯卡確實(shí)能啃下不少任務(wù)。過去幾年,想本地跑更大的模型,買張更大顯存的卡就行。
這條路近年悄悄撞墻了。消費(fèi)級(jí)顯存停滯在32GB,RTX 5090封頂于此; meanwhile,值得跑的開源模型已經(jīng)膨脹到數(shù)千億參數(shù)。一張32GB的卡,如今連多數(shù)真正改變游戲規(guī)則的大模型都加載不了。但這類模型并非完全無解——本地AI的有趣進(jìn)展已經(jīng)轉(zhuǎn)向另一類機(jī)器:統(tǒng)一內(nèi)存架構(gòu)跑混合專家模型(MoE)。這套組合讓一臺(tái)相對(duì)慢速的機(jī)器,能穩(wěn)穩(wěn)運(yùn)行5090完全碰不到的大模型。
![]()
統(tǒng)一內(nèi)存機(jī)器并非全是優(yōu)點(diǎn),多數(shù)情況下帶寬平庸,長輸入的提示詞處理也更慢。但具體到"跑你能搞到的最大模型"這件事,它表現(xiàn)極好,消費(fèi)級(jí)顯卡世界沒有能打的。
模型生成輸出分兩個(gè)階段。第一階段叫預(yù)填充(prefill),模型讀取你的提示詞,此時(shí)計(jì)算密集,因?yàn)樘崾驹~可以并行處理——本質(zhì)上是對(duì)輸入做大規(guī)模矩陣運(yùn)算,而非逐token生成。但讀取回復(fù)的token屬于解碼階段,這是內(nèi)存帶寬密集型任務(wù)。每個(gè)token都要從內(nèi)存重新讀取模型權(quán)重,所以生成速度大致等于帶寬除以每個(gè)token要讀取的字節(jié)數(shù)。每個(gè)token讀取的權(quán)重越少,生成越快。
這個(gè)拆分對(duì)評(píng)估顯存需求極其關(guān)鍵:不只是"多少"的問題,還有"多快"。容量用來裝下模型,但快速生成需要帶寬。獨(dú)立顯卡帶寬快,但容量卡得很死;而超過32GB內(nèi)存的統(tǒng)一內(nèi)存機(jī)器,并不罕見。
統(tǒng)一內(nèi)存用速度換空間。原理是:CPU和GPU共享一大塊連貫內(nèi)存池,無需跨總線來回拷貝,而非在GPU上焊一小塊極速內(nèi)存。目前三家主流方案,效果大致相近。蘋果Silicon走得最遠(yuǎn),M3 Ultra Mac Studio做到512GB容量、約800 GB/s帶寬。英偉達(dá)的GB10芯片——用在DGX Spark和聯(lián)想ThinkStation PGX里——提供
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.