網易首頁 > 網易號 > 正文申請入駐

顯存只用20GB！Gemma 4搭配銳龍AI Max：本地智能體天花板來了？

2026-04-10 11:33:43　來源: 微型計算機

重慶舉報

分享至

前幾天，谷歌在毫無預告的情況下突然發布了最新的Gemma 4系列開源模型。消息一出，國內外AI社區瞬間沸騰。不是因為谷歌終于“良心”地選擇開源，而是因為這次發布的規格實在太有意思：一個激活參數只有3.8B的MoE模型竟然在全球Arena AI開源排行榜上“殺進”前六，而它的對手里不乏參數規模是自己數十倍以上的DeepSeek-V3.2、Kimi K2.5等大塊頭。我們第一時間用手邊的AMD銳龍AI Max+ 392筆記本（華碩天選Air 2026銳龍AI Max版）在本地部署了Gemma-4-26B-A4B模型，然后跑了一圈OpenClaw，來看看它的表現吧！

Gemma 4系列模型

性能跨越提升的開源模型

2026年4月2日，谷歌正式發布最新的開源模型家族——Gemma 4，該系列模型以“每參數智能量”（intelligence-per-parameter）為核心突破，在同等規模的開源模型中達到業界領先水準。

與以往版本相比，Gemma 4帶來了很多變化。首先是架構全面升級，本次引入了“有效參數”（Effective Parameters）和混合專家（MoE）雙路線，極大地提升了單位參數的智能密度；其次，谷歌此次全面采用Apache 2.0協議，真正實現了完全開源可商用；最后，據谷歌表示，Gemma 4系列模型在數學推理、代碼生成和多模態理解三大維度上實現了與上一代完全不同量級的跨越。

這次谷歌一口氣發布了四個規格的Gemma 4，從手機到高性能服務器全面覆蓋。此次所有Gemma 4模型都內置可開關的思維鏈推理模式，開發者可以按需啟用深度推理，用于解決復雜邏輯、多步規劃任務；也可以關閉以追求響應速度。其中，兩款小模型（E2B和E4B）都采用全新的PLE技術，將嵌入層參數分布到每一個Transformer層中，使得較少的“有效參數”能夠在每次推理中充分利用全部模型權重。

規格方面，規模最小的是Gemma-4-E2B稠密模型，它的總參數量為5.1B，有效激活量僅2B，最大支持128K上下文窗口。它還支持文本、圖像和原生音頻輸入。這是專為移動端、樹莓派和低功耗邊緣設備設計的版本，可在手機上完全離線運行。

Gemma-4-E4B稠密模型是家族中的老二，它的總參數量為8B，有效激活參數為4B，最大支持128K上下文，同樣支持文本、圖像和音頻輸入。它主要面向中端設備、開發者本地調試場景，能力相比E2B全面提升，是性價比最高的個人開發者入門之選。

Gemma-4-26B-A4B是Gemma 4家族中唯一一款MoE模型，它的總參數為25.2B，但每次推理僅激活3.8B參數，最大支持256K超長上下文。從谷歌公布的成績來看，這個模型的推理速度接近4B模型，但智能水準逼近26B稠密模型，是當下開源領域性價比最高的推理模型之一。在Arena AI全球AI競技排行榜（文本領域）中，Gemma-4-26B-A4B模型排名第六，超越Kimi-K2.5-Instant、DeepSeek-V3.2、GLM-4.6和Qwen3-235B-A22B-Instruct-2507等一眾知名模型。

作為家族老大，Gemma-4-31B是一款全量30.7B參數的稠密模型，它支持最大256K上下文。在性能表現上，Gemma-4-31B在所有主流評測基準上表現最強，目前在Arena AI全球AI競技排行榜（文本領域）中穩居開源模型全球第三（冠軍和亞軍分別是GLM-5、Kimi-K2.5-Thinking）。

在AMD銳龍AI Max+ 392筆記本上部署Gemma 4

谷歌Gemma 4系列模型中全新引入了一系列小巧、快速且具備多模態能力的模型，能夠在各類設備上實現高效本地運行。在谷歌發布Gemma 4系列模型當天，AMD就發布技術博客宣布AMD整個AI硬件產品組合都將為全套Gemma 4模型提供首發支持。同一天，NVIDIA也發布技術博客宣布與谷歌合作對Gemma 4進行深度優化。

AMD在技術博客中還詳細介紹了如何通過vLLM、SGLang、LM Studio和Lemonade Server等工具部署Gemma 4系列模型。

▲華碩天選Air 2026銳龍AI Max版

既然谷歌宣稱Gemma 4系列模型的性能表現出色，而且在Arena AI全球AI競技排行榜中也確實名列前茅，再加上AMD、NVIDIA等公司的背書，我們也很好奇該系列模型的實際表現。接下來我們通過AMD銳龍AI Max+ 392筆記本（華碩天選Air 2026銳龍AI Max版）在本地部署Gemma-4-26B-A4B模型，來實際體驗一番。

在這里，我們簡單介紹一下銳龍AI Max平臺在本地部署大模型方面的獨特優勢。很多人買銳龍AI Max筆記本或者智能體主機時只知道它“能跑大模型”，但具體為什么能跑、憑什么比其他筆記本強呢？

▲華碩天選Air 2026銳龍AI Max版配備64GB內存，最高可分配48GB內存作為顯存使用。

AMD銳龍AI Max平臺最大的特色是配備統一內存，并支持VGM可變顯存技術。傳統筆記本的顯存是固定的，比如8GB就是8GB，但銳龍AI Max平臺通過統一內存技術，采用CPU與GPU、NPU共享同一內存池的設計，通過VGM技術可以將最高96GB系統內存動態分配給GPU使用。這意味著在48GB顯存配置下，Gemma-4-26B-A4B的BF16全精度版本可以完整加載，不需要任何量化損失。

即便是配備32GB顯存，也能完整裝下大多數熱門的量化模型，而如果換成獨顯的話，一張RTX 5090筆記本電腦GPU的顯存才24GB，主流的RTX 5060筆記本電腦GPU的顯存更是僅有8GB。更關鍵的是，銳龍AI Max平臺的顯存延遲和帶寬有充分保障，因為銳龍AI Max平臺集成的LPDDR5X內存帶寬高達256GB/s，這對大模型推理的Token生成速度有直接的正向影響。

銳龍AI Max+ 392處理器內置的Radeon 8060S集顯采用RDNA 3.5架構，其配備40組計算單元（CU），較上一代在AI推理相關指令集上做了專項優化。配合ROCm軟件棧的持續更新，目前llama.cpp、Ollama等主流本地部署框架對AMD GPU的支持已經相當成熟，Gemma 4系列模型的量化版本可以直接通過Vulkan或者ROCm后端調用GPU加速，不需要任何魔改操作。更重要的是，RDNA 3.5 GPU架構為Radeon 8060S集顯帶來了強大的性能，使得其能夠流暢驅動絕大多數大模型。

CPU在整個大模型推理鏈路中扮演的角色也很重要，比如大模型在推理時的Prefill階段（把輸入Prompt處理成KV緩存的過程）對CPU有一定依賴，尤其是在超長上下文場景下。銳龍AI Max+ 392處理器基于Zen 5 CPU架構，配備12個物理核心和24線程，單核IPC相比上代提升顯著，能為用戶提供性能上的保障。

我們手上的華碩天選Air 2026銳龍AI Max版配備64GB內存，在本次體驗的過程中我們將機器設置為32GB顯存+32GB內存的配置。值得一提的是，目前在銳龍AI Max平臺部署大模型已經非常便捷和容易，無論是通過LM Studio還是Ollama軟件都能極快完成。在這里，我們通過Ollama軟件簡單教大家用幾分鐘時間來完成Gemma 4模型的部署。

首先第一步是在Ollama官網下載Ollama軟件或者通過命令行在電腦上安裝Ollama。

之后在Ollama官網的模型頁面找到Gemma 4系列模型的介紹頁。此次我們部署Gemma-4-26B-A4B模型，在電腦上安裝Ollama軟件之后，只需要在電腦的《終端管理員》中輸入“ollama run gemma4:26b”并回車即可，Ollama會自動下載該模型的Q4量化版本。

下載完成之后，我們簡單測試一下，可見華碩天選Air 2026銳龍AI Max版運行Gemma-4-26B-A4B模型的推理速度為45.35 Tokens/s，表現不錯，模型的吐字速度和反應都很快。

在LM Studio的模型下載頁面可以看到，Gemma-4-26B-A4B模型在主流的Q4量化之后體積為17.99GB，Q8量化之后的體積為28.05GB。也就是說，部署Q4量化版本的話，擁有20GB顯存其實就夠了。不過在銳龍AI Max+ 392平臺，我們為顯存分配了32GB空間，如此大的空間甚至支持直接部署Q8量化版本的Gemma-4-26B-A4B。如果你想要減少量化帶來的模型性能損失，建議你直接用Q8量化版本。

另外，可能有人會說，在適合筆記本部署的開源MoE模型領域，Qwen3.5-35B-A3B也非常火。不過，Qwen3.5-35B-A3B在Arena AI全球AI競技排行榜（文本領域）中排名第31位，它的Q4量化版本體積達到20.56GB，相對Gemma-4-26B-A4B模型的18GB體積來說還是大了不少。從這個角度來看，Gemma-4-26B-A4B模型對硬件的要求更低，實際意義更大。

可以看到，在Ollama中運行Gemma-4-26B-A4B模型時只占用22.6GB顯存，平臺在32GB顯存的設置下還剩余很大空間，內存占用僅10GB左右，留給系統的硬件空間還十分寬裕。如果換成其他32GB內存的筆記本，硬件空間就捉襟見肘了。

用Gemma 4驅動OpenClaw

目前以OpenClaw為代表的智能體工具非常火爆，而OpenClaw需要接入大模型才能工作，除了云端模型，接入本地模型不僅能得到數據和隱私上的安全保障，還能節省海量的Token費用，因此對于很多企業和AI開發者來講，把OpenClaw接入本地模型是更好的選擇。而在這方面，銳龍AI Max平臺優勢大，是大家的首選。

我們以華碩天選Air 2026銳龍AI Max版（64GB內存）為例，教大家在本地部署Gemma-4-26B-A4B模型并接入本地安裝的OpenClaw，帶大家感受一下Gemma-4-26B-A4B在OpenClaw中的表現。

如今，Ollama軟件已經集成了OpenClaw，我們只需要一段代碼即可輕松通過Ollama來安裝OpenClaw。我們在電腦上的《終端管理員》軟件中輸入以下安裝代碼并回車，系統就會自動下載安裝OpenClaw：ollama launch openclaw。

接下來選擇需要使用的大模型，Ollama不僅提供了云端大模型還支持本地部署好的模型。在這里，我們選擇剛剛部署好的Gemma-4-26B-A4B模型。

裝好OpenClaw之后，我們通過對話框讓“龍蝦”自主安裝騰訊Skillhub技能商店，同時通過該商店安裝“agent-browser”技能，我們的“龍蝦”很快就完成了任務。需要注意的是，OpenClaw會讓模型自主規劃步驟、調用工具和完成復雜任務，因此它對上下文窗口的要求很高，保底都需要1.6萬左右的上下文窗口，而增加上下文窗口又會加大對顯存和內存空間的占用，所以這要求硬件平臺擁有超大的內存和顯存容量。

得益于華碩天選Air 2026銳龍AI Max版的64GB內存配置，我們能夠分配32GB顯存（最高48GB）來使用，如此充裕的硬件空間為本地安裝部署OpenClaw帶來了極大的便捷性。我們為“龍蝦”設置到20萬長度的上下文窗口，同時本地還在加載Gemma-4-26B-A4B模型，完成技能安裝任務之后，OpenClaw和模型僅占用27.3GB顯存、11.6GB內存，系統非常流暢，沒有任何卡頓現象。

另外，我們還通過LM Studio軟件部署Gemma-4-26B-A4B模型，讓其接入OpenClaw，在10萬上下文長度窗口的設置下來體驗它在股票分析場景中的表現。實測可見，通過特定的技能，我們的“龍蝦”能夠對股票進行詳細分析，而且在運行過程中占用了很多上下文窗口，導致內存占用達到27GB，顯存占用達到22GB，這基本上將32GB內存+32GB顯存的配置完全“吃滿”。如果換成其他平臺，估計只有搭載RTX 5090筆記本電腦GPU的游戲本才能勉強做到——售價高達2萬元以上。

如果要讓OpenClaw在本地接入Qwen3.5-35B-A3B模型，同時設置為10萬的上下文窗口，那么讓“龍蝦”完成技能安裝的操作都需要占用31GB內存和25.2GB顯存，這換成RTX 5090游戲本都無法很好地完成——因為可能會爆顯存。

建議AI愛好者入手銳龍AI Max設備

說完Gemma 4和OpenClaw，我們回到銳龍AI Max平臺本身。可以看到，今天的AI開源生態正處在一個特別的節點，一方面模型能力在不斷突破，但另一方面，硬件門檻正在下降。以前，我們需要企業級GPU或者多個消費級GPU并聯才能體驗的高質量模型的能力，現在只需要一臺銳龍AI Max筆記本就能實現。

總體來看，銳龍AI Max平臺有幾個特點是目前主流筆記本平臺無法復制的。

首先是256GB/s的LPDDR5X帶寬，比同價位大多數筆記本的內存帶寬都高很多，這直接決定了大模型推理時的Token生成速度。

第二是大顯存的可行性和可玩性，AMD可變顯存技術（VGM）讓最高96GB顯存成為現實。這意味著隨著開源模型越來越強（參數量普遍在30B~70B區間），銳龍AI Max的大顯存優勢會越來越突出，今天能跑26B模型的機器，兩年后或許還能跑50B級別的新模型。

第三，相比NAS部署或者臺式機方案，筆記本的優勢顯而易見，拿起來就走，隨時隨地用本地AI，無論是在咖啡館還是飛機上，你不僅能用AI，還能獲得完整的PC體驗。另外，無須聯網、無需訂閱，所有推理都在本地完成，既不用擔心漫天的Token費用也不用擔心關鍵數據隱私泄露的問題，這也是銳龍AI Max平臺的優勢。

本次Gemma 4系列模型的發布，其實在某種程度上是替AMD銳龍AI Max平臺打了call。一個只需要20GB顯存的開源模型，綜合能力擠進全球開源模型的前列，這恰好是銳龍AI Max平臺最適合發力的區間。這不是巧合，這是開源AI軟件生態和以銳龍AI Max平臺為代表的計算硬件雙向奔赴的結果。如果你也想玩AI，想要搶先體驗前沿科技，建議你入手搭載銳龍AI Max系列處理器的筆記本或者智能體主機。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.