網易首頁 > 網易號 > 正文 申請入駐

顯存只用20GB!Gemma 4搭配銳龍AI Max:本地智能體天花板來了?

0
分享至



前幾天,谷歌在毫無預告的情況下突然發布了最新的Gemma 4系列開源模型。消息一出,國內外AI社區瞬間沸騰。不是因為谷歌終于“良心”地選擇開源,而是因為這次發布的規格實在太有意思:一個激活參數只有3.8B的MoE模型竟然在全球Arena AI開源排行榜上“殺進”前六,而它的對手里不乏參數規模是自己數十倍以上的DeepSeek-V3.2、Kimi K2.5等大塊頭。我們第一時間用手邊的AMD銳龍AI Max+ 392筆記本(華碩天選Air 2026銳龍AI Max版)在本地部署了Gemma-4-26B-A4B模型,然后跑了一圈OpenClaw,來看看它的表現吧!

Gemma 4系列模型
性能跨越提升的開源模型

2026年4月2日,谷歌正式發布最新的開源模型家族——Gemma 4,該系列模型以“每參數智能量”(intelligence-per-parameter)為核心突破,在同等規模的開源模型中達到業界領先水準。



與以往版本相比,Gemma 4帶來了很多變化。首先是架構全面升級,本次引入了“有效參數”(Effective Parameters)和混合專家(MoE)雙路線,極大地提升了單位參數的智能密度;其次,谷歌此次全面采用Apache 2.0協議,真正實現了完全開源可商用;最后,據谷歌表示,Gemma 4系列模型在數學推理、代碼生成和多模態理解三大維度上實現了與上一代完全不同量級的跨越。



這次谷歌一口氣發布了四個規格的Gemma 4,從手機到高性能服務器全面覆蓋。此次所有Gemma 4模型都內置可開關的思維鏈推理模式,開發者可以按需啟用深度推理,用于解決復雜邏輯、多步規劃任務;也可以關閉以追求響應速度。其中,兩款小模型(E2B和E4B)都采用全新的PLE技術,將嵌入層參數分布到每一個Transformer層中,使得較少的“有效參數”能夠在每次推理中充分利用全部模型權重。

規格方面,規模最小的是Gemma-4-E2B稠密模型,它的總參數量為5.1B,有效激活量僅2B,最大支持128K上下文窗口。它還支持文本、圖像和原生音頻輸入。這是專為移動端、樹莓派和低功耗邊緣設備設計的版本,可在手機上完全離線運行。

Gemma-4-E4B稠密模型是家族中的老二,它的總參數量為8B,有效激活參數為4B,最大支持128K上下文,同樣支持文本、圖像和音頻輸入。它主要面向中端設備、開發者本地調試場景,能力相比E2B全面提升,是性價比最高的個人開發者入門之選。



Gemma-4-26B-A4B是Gemma 4家族中唯一一款MoE模型,它的總參數為25.2B,但每次推理僅激活3.8B參數,最大支持256K超長上下文。從谷歌公布的成績來看,這個模型的推理速度接近4B模型,但智能水準逼近26B稠密模型,是當下開源領域性價比最高的推理模型之一。在Arena AI全球AI競技排行榜(文本領域)中,Gemma-4-26B-A4B模型排名第六,超越Kimi-K2.5-Instant、DeepSeek-V3.2、GLM-4.6和Qwen3-235B-A22B-Instruct-2507等一眾知名模型。



作為家族老大,Gemma-4-31B是一款全量30.7B參數的稠密模型,它支持最大256K上下文。在性能表現上,Gemma-4-31B在所有主流評測基準上表現最強,目前在Arena AI全球AI競技排行榜(文本領域)中穩居開源模型全球第三(冠軍和亞軍分別是GLM-5、Kimi-K2.5-Thinking)。

在AMD銳龍AI Max+ 392筆記本上部署Gemma 4

谷歌Gemma 4系列模型中全新引入了一系列小巧、快速且具備多模態能力的模型,能夠在各類設備上實現高效本地運行。在谷歌發布Gemma 4系列模型當天,AMD就發布技術博客宣布AMD整個AI硬件產品組合都將為全套Gemma 4模型提供首發支持。同一天,NVIDIA也發布技術博客宣布與谷歌合作對Gemma 4進行深度優化。



AMD在技術博客中還詳細介紹了如何通過vLLM、SGLang、LM Studio和Lemonade Server等工具部署Gemma 4系列模型。



▲華碩天選Air 2026銳龍AI Max版

既然谷歌宣稱Gemma 4系列模型的性能表現出色,而且在Arena AI全球AI競技排行榜中也確實名列前茅,再加上AMD、NVIDIA等公司的背書,我們也很好奇該系列模型的實際表現。接下來我們通過AMD銳龍AI Max+ 392筆記本(華碩天選Air 2026銳龍AI Max版)在本地部署Gemma-4-26B-A4B模型,來實際體驗一番。

在這里,我們簡單介紹一下銳龍AI Max平臺在本地部署大模型方面的獨特優勢。很多人買銳龍AI Max筆記本或者智能體主機時只知道它“能跑大模型”,但具體為什么能跑、憑什么比其他筆記本強呢?



▲華碩天選Air 2026銳龍AI Max版配備64GB內存,最高可分配48GB內存作為顯存使用。

AMD銳龍AI Max平臺最大的特色是配備統一內存,并支持VGM可變顯存技術。傳統筆記本的顯存是固定的,比如8GB就是8GB,但銳龍AI Max平臺通過統一內存技術,采用CPU與GPU、NPU共享同一內存池的設計,通過VGM技術可以將最高96GB系統內存動態分配給GPU使用。這意味著在48GB顯存配置下,Gemma-4-26B-A4B的BF16全精度版本可以完整加載,不需要任何量化損失。

即便是配備32GB顯存,也能完整裝下大多數熱門的量化模型,而如果換成獨顯的話,一張RTX 5090筆記本電腦GPU的顯存才24GB,主流的RTX 5060筆記本電腦GPU的顯存更是僅有8GB。更關鍵的是,銳龍AI Max平臺的顯存延遲和帶寬有充分保障,因為銳龍AI Max平臺集成的LPDDR5X內存帶寬高達256GB/s,這對大模型推理的Token生成速度有直接的正向影響。



銳龍AI Max+ 392處理器內置的Radeon 8060S集顯采用RDNA 3.5架構,其配備40組計算單元(CU),較上一代在AI推理相關指令集上做了專項優化。配合ROCm軟件棧的持續更新,目前llama.cpp、Ollama等主流本地部署框架對AMD GPU的支持已經相當成熟,Gemma 4系列模型的量化版本可以直接通過Vulkan或者ROCm后端調用GPU加速,不需要任何魔改操作。更重要的是,RDNA 3.5 GPU架構為Radeon 8060S集顯帶來了強大的性能,使得其能夠流暢驅動絕大多數大模型。



CPU在整個大模型推理鏈路中扮演的角色也很重要,比如大模型在推理時的Prefill階段(把輸入Prompt處理成KV緩存的過程)對CPU有一定依賴,尤其是在超長上下文場景下。銳龍AI Max+ 392處理器基于Zen 5 CPU架構,配備12個物理核心和24線程,單核IPC相比上代提升顯著,能為用戶提供性能上的保障。

我們手上的華碩天選Air 2026銳龍AI Max版配備64GB內存,在本次體驗的過程中我們將機器設置為32GB顯存+32GB內存的配置。值得一提的是,目前在銳龍AI Max平臺部署大模型已經非常便捷和容易,無論是通過LM Studio還是Ollama軟件都能極快完成。在這里,我們通過Ollama軟件簡單教大家用幾分鐘時間來完成Gemma 4模型的部署。



首先第一步是在Ollama官網下載Ollama軟件或者通過命令行在電腦上安裝Ollama。



之后在Ollama官網的模型頁面找到Gemma 4系列模型的介紹頁。此次我們部署Gemma-4-26B-A4B模型,在電腦上安裝Ollama軟件之后,只需要在電腦的《終端管理員》中輸入“ollama run gemma4:26b”并回車即可,Ollama會自動下載該模型的Q4量化版本。



下載完成之后,我們簡單測試一下,可見華碩天選Air 2026銳龍AI Max版運行Gemma-4-26B-A4B模型的推理速度為45.35 Tokens/s,表現不錯,模型的吐字速度和反應都很快。



在LM Studio的模型下載頁面可以看到,Gemma-4-26B-A4B模型在主流的Q4量化之后體積為17.99GB,Q8量化之后的體積為28.05GB。也就是說,部署Q4量化版本的話,擁有20GB顯存其實就夠了。不過在銳龍AI Max+ 392平臺,我們為顯存分配了32GB空間,如此大的空間甚至支持直接部署Q8量化版本的Gemma-4-26B-A4B。如果你想要減少量化帶來的模型性能損失,建議你直接用Q8量化版本。

另外,可能有人會說,在適合筆記本部署的開源MoE模型領域,Qwen3.5-35B-A3B也非常火。不過,Qwen3.5-35B-A3B在Arena AI全球AI競技排行榜(文本領域)中排名第31位,它的Q4量化版本體積達到20.56GB,相對Gemma-4-26B-A4B模型的18GB體積來說還是大了不少。從這個角度來看,Gemma-4-26B-A4B模型對硬件的要求更低,實際意義更大。



可以看到,在Ollama中運行Gemma-4-26B-A4B模型時只占用22.6GB顯存,平臺在32GB顯存的設置下還剩余很大空間,內存占用僅10GB左右,留給系統的硬件空間還十分寬裕。如果換成其他32GB內存的筆記本,硬件空間就捉襟見肘了。

用Gemma 4驅動OpenClaw

目前以OpenClaw為代表的智能體工具非常火爆,而OpenClaw需要接入大模型才能工作,除了云端模型,接入本地模型不僅能得到數據和隱私上的安全保障,還能節省海量的Token費用,因此對于很多企業和AI開發者來講,把OpenClaw接入本地模型是更好的選擇。而在這方面,銳龍AI Max平臺優勢大,是大家的首選。

我們以華碩天選Air 2026銳龍AI Max版(64GB內存)為例,教大家在本地部署Gemma-4-26B-A4B模型并接入本地安裝的OpenClaw,帶大家感受一下Gemma-4-26B-A4B在OpenClaw中的表現。



如今,Ollama軟件已經集成了OpenClaw,我們只需要一段代碼即可輕松通過Ollama來安裝OpenClaw。我們在電腦上的《終端管理員》軟件中輸入以下安裝代碼并回車,系統就會自動下載安裝OpenClaw:ollama launch openclaw。



接下來選擇需要使用的大模型,Ollama不僅提供了云端大模型還支持本地部署好的模型。在這里,我們選擇剛剛部署好的Gemma-4-26B-A4B模型。



裝好OpenClaw之后,我們通過對話框讓“龍蝦”自主安裝騰訊Skillhub技能商店,同時通過該商店安裝“agent-browser”技能,我們的“龍蝦”很快就完成了任務。需要注意的是,OpenClaw會讓模型自主規劃步驟、調用工具和完成復雜任務,因此它對上下文窗口的要求很高,保底都需要1.6萬左右的上下文窗口,而增加上下文窗口又會加大對顯存和內存空間的占用,所以這要求硬件平臺擁有超大的內存和顯存容量。

得益于華碩天選Air 2026銳龍AI Max版的64GB內存配置,我們能夠分配32GB顯存(最高48GB)來使用,如此充裕的硬件空間為本地安裝部署OpenClaw帶來了極大的便捷性。我們為“龍蝦”設置到20萬長度的上下文窗口,同時本地還在加載Gemma-4-26B-A4B模型,完成技能安裝任務之后,OpenClaw和模型僅占用27.3GB顯存、11.6GB內存,系統非常流暢,沒有任何卡頓現象。



另外,我們還通過LM Studio軟件部署Gemma-4-26B-A4B模型,讓其接入OpenClaw,在10萬上下文長度窗口的設置下來體驗它在股票分析場景中的表現。實測可見,通過特定的技能,我們的“龍蝦”能夠對股票進行詳細分析,而且在運行過程中占用了很多上下文窗口,導致內存占用達到27GB,顯存占用達到22GB,這基本上將32GB內存+32GB顯存的配置完全“吃滿”。如果換成其他平臺,估計只有搭載RTX 5090筆記本電腦GPU的游戲本才能勉強做到——售價高達2萬元以上。



如果要讓OpenClaw在本地接入Qwen3.5-35B-A3B模型,同時設置為10萬的上下文窗口,那么讓“龍蝦”完成技能安裝的操作都需要占用31GB內存和25.2GB顯存,這換成RTX 5090游戲本都無法很好地完成——因為可能會爆顯存。

建議AI愛好者入手銳龍AI Max設備

說完Gemma 4和OpenClaw,我們回到銳龍AI Max平臺本身。可以看到,今天的AI開源生態正處在一個特別的節點,一方面模型能力在不斷突破,但另一方面,硬件門檻正在下降。以前,我們需要企業級GPU或者多個消費級GPU并聯才能體驗的高質量模型的能力,現在只需要一臺銳龍AI Max筆記本就能實現。

總體來看,銳龍AI Max平臺有幾個特點是目前主流筆記本平臺無法復制的。

首先是256GB/s的LPDDR5X帶寬,比同價位大多數筆記本的內存帶寬都高很多,這直接決定了大模型推理時的Token生成速度。

第二是大顯存的可行性和可玩性,AMD可變顯存技術(VGM)讓最高96GB顯存成為現實。這意味著隨著開源模型越來越強(參數量普遍在30B~70B區間),銳龍AI Max的大顯存優勢會越來越突出,今天能跑26B模型的機器,兩年后或許還能跑50B級別的新模型。

第三,相比NAS部署或者臺式機方案,筆記本的優勢顯而易見,拿起來就走,隨時隨地用本地AI,無論是在咖啡館還是飛機上,你不僅能用AI,還能獲得完整的PC體驗。另外,無須聯網、無需訂閱,所有推理都在本地完成,既不用擔心漫天的Token費用也不用擔心關鍵數據隱私泄露的問題,這也是銳龍AI Max平臺的優勢。

本次Gemma 4系列模型的發布,其實在某種程度上是替AMD銳龍AI Max平臺打了call。一個只需要20GB顯存的開源模型,綜合能力擠進全球開源模型的前列,這恰好是銳龍AI Max平臺最適合發力的區間。這不是巧合,這是開源AI軟件生態和以銳龍AI Max平臺為代表的計算硬件雙向奔赴的結果。如果你也想玩AI,想要搶先體驗前沿科技,建議你入手搭載銳龍AI Max系列處理器的筆記本或者智能體主機。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
英海事分析公司:過去36小時有35艘船只在駛出霍爾木茲海峽途中掉頭

英海事分析公司:過去36小時有35艘船只在駛出霍爾木茲海峽途中掉頭

界面新聞
2026-04-20 08:43:33
美國軍方做出大膽預測:解放軍武力收臺時間曝光,竟然大幅度提前

美國軍方做出大膽預測:解放軍武力收臺時間曝光,竟然大幅度提前

時光流轉追夢人
2026-04-19 11:14:47
白人女性與黑人女性的體味差異,網友真實分享引發熱議

白人女性與黑人女性的體味差異,網友真實分享引發熱議

特約前排觀眾
2025-12-22 00:20:06
福原愛沒撒謊,公開祝福、獨自帶娃的江宏杰,證實她當年評價

福原愛沒撒謊,公開祝福、獨自帶娃的江宏杰,證實她當年評價

白面書誏
2026-04-20 15:28:46
中國永遠的校長,死于1962年

中國永遠的校長,死于1962年

最愛歷史
2024-05-20 13:30:17
坐擁北京一條街,丈夫是京劇名家,如今身價過億32歲兒子卻成心病

坐擁北京一條街,丈夫是京劇名家,如今身價過億32歲兒子卻成心病

不似少年游
2026-04-07 22:24:49
丁俊暉對手想去看心理醫生:我總是難以集中注意力,情緒大起大落

丁俊暉對手想去看心理醫生:我總是難以集中注意力,情緒大起大落

二爺臺球解說
2026-04-20 19:37:26
中國不能獨享核聚變技術?美國可以獨享芯片技術,美國憑啥雙標?

中國不能獨享核聚變技術?美國可以獨享芯片技術,美國憑啥雙標?

史智文道
2026-04-19 10:15:13
涉嫌嚴重違紀違法,王西浩被查

涉嫌嚴重違紀違法,王西浩被查

吉刻新聞
2026-04-20 09:14:59
傾國傾城,哈蘭德賽后半裸妖嬈照片火爆網絡

傾國傾城,哈蘭德賽后半裸妖嬈照片火爆網絡

懂球帝
2026-04-20 02:20:13
張澤群退休曬證,全網追問一句扎心:兒子找到了嗎?

張澤群退休曬證,全網追問一句扎心:兒子找到了嗎?

吃貨的分享
2026-04-20 09:48:48
蘇林回國火車剛開動就變天?

蘇林回國火車剛開動就變天?

果媽聊娛樂
2026-04-20 10:17:41
金像獎最大贏家,不是影帝梁家輝,而是坐在古天樂背后的滕麗名

金像獎最大贏家,不是影帝梁家輝,而是坐在古天樂背后的滕麗名

阿訊說天下
2026-04-20 12:37:29
何潔自曝養家艱難,40歲斷崖式衰老?明明一手好牌,為何被打爛

何潔自曝養家艱難,40歲斷崖式衰老?明明一手好牌,為何被打爛

扒點半吃瓜
2026-03-10 07:00:13
沈醉晚年赴香港探親,小女孩問:你為何用竹簽刺江姐?他如何回答

沈醉晚年赴香港探親,小女孩問:你為何用竹簽刺江姐?他如何回答

浩渺青史
2026-04-19 17:44:00
曝王思聰近況:暴瘦脫相 禿頂脫發,拒付200萬后,黃一鳴頻繁發聲

曝王思聰近況:暴瘦脫相 禿頂脫發,拒付200萬后,黃一鳴頻繁發聲

東方不敗然多多
2026-04-18 15:31:29
美國質問中國:若中國真的愛好和平,為何還要大力發展軍事?

美國質問中國:若中國真的愛好和平,為何還要大力發展軍事?

聞識
2026-04-20 12:33:50
92歲老中醫仍出診!他的“5不”養生經,簡單到人人都能抄作業

92歲老中醫仍出診!他的“5不”養生經,簡單到人人都能抄作業

人民日報健康客戶端
2026-04-19 15:34:17
小S淚灑自責不該帶全家去日本發生憾事!曝大S「最后反常舉動」

小S淚灑自責不該帶全家去日本發生憾事!曝大S「最后反常舉動」

達達哥
2026-04-20 12:47:34
女演員千萬別整容!看“金像獎紅毯”章子怡,舒淇同框,就懂了

女演員千萬別整容!看“金像獎紅毯”章子怡,舒淇同框,就懂了

觀察鑒娛
2026-04-20 14:58:23
2026-04-20 20:12:49
微型計算機 incentive-icons
微型計算機
MC評測室團隊
8721文章數 21574關注度
往期回顧 全部

科技要聞

華為Pura90逆周期定價,4699元起,未漲價

頭條要聞

小學生遭多名中小學生施暴搜家 家長以"入室搶劫"報案

頭條要聞

小學生遭多名中小學生施暴搜家 家長以"入室搶劫"報案

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

鹿晗生日上熱搜,被關曉彤撕下體面

財經要聞

利潤暴跌7成,字節到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態度原創

家居
健康
本地
數碼
公開課

家居要聞

自然慢調 慢享時光

干細胞抗衰4大誤區,90%的人都中招

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

數碼要聞

華為新內存技術來了,Mate X7用戶6月有福

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版