網易首頁 > 網易號 > 正文 申請入駐

谷歌重磅開源Gemma 4!手機離線跑 Agent、還降內存,Qwen 被拉進正面對決

0
分享至


整理 | 褚杏娟

剛剛,谷歌正式發布 Gemma 4,稱“這是其迄今為止最智能的開放模型系列”。該系列面向復雜推理與智能體工作流設計,采用商業許可的 Apache 2.0 許可證開源。

Gemma 4 提供四種規格:Effective 2B(E2B)、Effective 4B(E4B)、26B 混合專家模型(MoE)和 31B 稠密模型(Dense)。

在端側,E2B 和 E4B 模型針對移動和物聯網設備優化,推理時分別激活約 20 億和 40 億參數,以降低內存和電量消耗。據介紹,這兩個模型已與谷歌 Pixel 團隊、高通和聯發科等硬件廠商合作,可在手機、Raspberry Pi、NVIDIA Jetson Nano 等設備上離線運行,延遲接近零。

與此同時,研究人員表示,26B MoE 模型有一個巧妙之處:在推理任務中,它只會激活 38 億參數,因此既能保持較高運行速度,又不會犧牲大模型所具備的深厚知識儲備。

26B 和 31B 模型提供面向 IDE、編程助手和 Agent 工作流的高級推理能力。模型針對消費級 GPU 進行了優化,讓學生、研究人員和開發者能夠把自己的工作站變成以本地優先為核心的 AI 服務器。

谷歌 DeepMind 研究人員 Clement Farabet 和 Olivier Lacombe 表示,在 Gemma 4 上,他們設法進一步壓榨出了更多“單位參數智能”,讓這些模型能夠顯著實現“越級發揮”。例如,31B Dense 版本目前在行業標準榜單的開源模型中排名第三。

Gemma 4 建立在與 Gemini 3 相同的架構基礎之上,旨在處理復雜推理任務,并支持在工作站、智能手機等低功耗設備上本地運行的自主 AI Agent。這次關鍵提升包括:


  • 推理能力更強:該系列所有模型都面向復雜推理任務進行了優化,并提供可配置的“思考”模式;

  • 多模態能力進一步擴展:所有模型都支持文本和圖像輸入,其中圖像支持可變寬高比和不同分辨率;E2B 和 E4B 還原生支持視頻與音頻輸入;

  • 上下文窗口更大:端側模型為 128K,較大模型(26B/31B)最高 256K;

  • 編碼與智能體能力增強:模型在代碼能力基準測試中有明顯提升,同時內置函數調用支持,能夠更好地驅動自主 Agent 執行任務;

  • 原生支持系統提示詞:Gemma 4 內置了 system role 支持,讓對話結構更清晰,也更容易控制模型行為。



Farabet 和 Lacombe 解釋稱,每個 Gemma 4 模型都更適合用于運行 AI Agent。此前幾代 Gemma 模型往往需要開發者額外調整設計,才能與其他軟件工具交互;而 Gemma 4 已原生支持函數調用和結構化 JSON 輸出、原生系統指令以及超過 140 種語言。這意味著,開發者可以用它們來驅動自主 Agent,與第三方工具交互,并執行多步驟任務規劃。


根據 Arena AI 文本排行榜(截至 2026 年 2 月 1 日),31B 模型排名全球開放模型第 3 位,26B MoE 模型排名第 6 位。


谷歌表示,Gemma 4 在部分基準測試中表現優于參數大 20 倍的模型。


不過,有網友自己測算結果 Qwen3.5-27B 要略優于 Gemma 4 31B。


還有網友評價道,“最讓人眼前一亮的部分在于:一共四種尺寸,全部都為 Agent 場景做好了準備,而且全都可以在本地運行。我們一直都在呼吁,需要那種不用每次‘思考’都把數據傳回云端的模型?,F在他們終于聽進去了,而且給出的東西甚至比預期還多?!?/p>

開源 + 本地,谷歌擴大優勢

此次,Gemma 4 繼續采用 Apache 2.0 許可證,允許商業使用、自由修改和部署。谷歌稱,這一選擇旨在給予開發者對數據、基礎設施和模型的完全控制權,支持本地或云端環境的安全部署。這消除了其他一些 AI 模型在商業使用上的諸多限制,或會成為企業應用開發者的理想選擇。

此外,谷歌還詳細列出了使用各種大小的 Gemma 4 模型版本運行推理所需的大致 GPU 或 TPU 內存。


Gemma 4 在架構設計上進一步兼顧了效率與部署現實。E2B 和 E4B 中的 “E” 指的是“有效參數”,這兩款小模型采用了 PLE(每層嵌入)技術,以提升端側部署時的參數利用效率。需要注意的是,PLE 雖然不會增加模型層數,但會為每層解碼器中的每個 token 配置獨立的小型嵌入,因此模型實際加載到內存中的靜態權重,往往會高于“有效參數規?!北砻嫔蠈恼加?。

26B 版本采用了混合專家(MoE)架構,雖然生成時每個 token 實際只會激活約 40 億參數,但為了保證路由和推理速度,全部 260 億參數仍需提前載入內存,所以它的實際顯存需求更接近稠密 26B 模型,而不是 4B 模型。

此外,官方給出的內存估算通常只覆蓋靜態模型權重本身,并不包含運行框架、上下文窗口和 KV Cache 帶來的額外顯存開銷;如果進一步進行微調,顯存需求還會明顯高于推理階段,具體占用則取決于開發框架、批量大小,以及采用全參數微調還是 LoRA 等參數高效微調方案。

這次發布再次凸顯了谷歌想要主導“本地 AI”產業的雄心。Constellation Research 分析師 Holger Mueller 表示,即便是較大規模的 Gemma 4,也小到足以在單張圖形處理器上運行,因此它們非常適合邊緣場景以及那些對低延遲和數字主權有較高要求的應用。

他認為,“谷歌正在擴大自己在 AI 領域的領先優勢,不只是依靠 Gemini,也包括通過 Gemma 4 家族這樣的開放模型。這些模型對于構建 AI 開發者生態非常重要,也將幫助公司切入不同設備形態下的功能型和垂直行業應用場景。谷歌在此前發布 Gemma 3 時已經樹立了很高的門檻,因此這次發布也承載了很多期待?!?/p>

現在,開發者可以通過谷歌云直接訪問這些模型,也可以在 Hugging Face、Kaggle 和 Ollama 上獲取模型及其開放權重。Android 開發者可在 AICore Developer Preview 中試用智能體工作流原型。

此外,谷歌提供了多種推理和微調路徑,包括:Hugging Face、LiteRT-LM、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM 和 NeMo、LM Studio、Unsloth、SGLang、Cactus、Docker、MaxText、Tunix、Keras。云上部署支持 Vertex AI、Cloud Run、GKE、Sovereign Cloud 及 TPU 加速服務。

Gemma 4 開箱支持 NVIDIA(從 Jetson Nano 到 Blackwell GPU)、AMD GPU(通過開源 ROCm? 棧)以及 Google Cloud TPU。谷歌方面稱,新模型采用與谷歌專有模型相同等級的基礎設施安全協議,適用于企業和主權機構的高標準安全與可靠性要求。

https://deepmind.google/models/gemma/gemma-4/-and-e4b

聲明:本文為 InfoQ 整理,不代表平臺觀點,未經許可禁止轉載。

會議推薦

QCon 全球軟件開發大會·2026 北京站將于 4 月 16 日 -18 日正式舉辦。本屆大會以“Agentic AI 時代的軟件工程重塑”為主題,聚焦 100+ 重磅議題,匯聚來自阿里、騰訊、字節跳動、小米、百度等一線科技企業與創新團隊的技術專家,圍繞 AI 工程化、系統架構與研發模式演進展開深入探討。更多詳情可掃碼或聯系票務經理 18514549229 進行咨詢。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
80W全能卷王,輕薄本也能玩3A!惠普星Book Pro 16深度測評

80W全能卷王,輕薄本也能玩3A!惠普星Book Pro 16深度測評

電腦報
2026-04-20 16:51:12
克媒:莫德里奇顴骨骨折賽季報銷,預計將戴面具出戰世界杯

克媒:莫德里奇顴骨骨折賽季報銷,預計將戴面具出戰世界杯

懂球帝
2026-04-27 22:00:51
羅永浩連發6個問句怒懟!俞敏洪反思“東方甄選多位主播離職”,有網友說“任何一個人遭遇羅永浩、董宇輝這種忘恩負義的小人都夠嗆”

羅永浩連發6個問句怒懟!俞敏洪反思“東方甄選多位主播離職”,有網友說“任何一個人遭遇羅永浩、董宇輝這種忘恩負義的小人都夠嗆”

魯中晨報
2026-04-27 17:56:12
大五座SUV市場都在演戲!嵐圖泰山X8,撕碎所有偽大五座

大五座SUV市場都在演戲!嵐圖泰山X8,撕碎所有偽大五座

科技每日推送
2026-04-23 18:25:22
車企為什么開始把新車首發押在京東上?

車企為什么開始把新車首發押在京東上?

豹變
2026-04-25 08:00:03
匈牙利一夜變天:馬扎爾開啟全面清算!歐爾班往哪走?

匈牙利一夜變天:馬扎爾開啟全面清算!歐爾班往哪走?

大江看潮
2026-04-27 09:05:55
江淮汽車:目前尊界S800面向國內銷售

江淮汽車:目前尊界S800面向國內銷售

每日經濟新聞
2026-04-27 16:27:20
演員陸毅嘴唇發紫,被網友提醒去醫院體檢;陸毅聽勸后回應:心臟沒問題,體重卻超標了,身高1米8,體重180斤,“我是方的”

演員陸毅嘴唇發紫,被網友提醒去醫院體檢;陸毅聽勸后回應:心臟沒問題,體重卻超標了,身高1米8,體重180斤,“我是方的”

浙江之聲
2026-04-27 13:09:03
吉林伊通驚現200萬豪華住宅式墓地,獨門獨戶地上地下兩層

吉林伊通驚現200萬豪華住宅式墓地,獨門獨戶地上地下兩層

大象新聞
2026-04-27 13:41:32
克宮發出最后通牒要求烏作出“痛苦決定”,德國炮彈產能超越美國

克宮發出最后通牒要求烏作出“痛苦決定”,德國炮彈產能超越美國

史政先鋒
2026-04-27 18:27:59
拆解健合:一季度數據里的抗周期基因

拆解健合:一季度數據里的抗周期基因

一點財經
2026-04-27 18:31:37
這才是提高數學成績最好的方法!(建議永久收藏)

這才是提高數學成績最好的方法?。ńㄗh永久收藏)

戶外阿毽
2026-04-27 09:46:34
這位派出所長,你瘋了嗎?

這位派出所長,你瘋了嗎?

新海言
2026-04-27 11:01:05
余承東在華為權力排名

余承東在華為權力排名

生活新鮮市
2026-04-27 18:30:53
32歲男子:一周多達9次,不幸猝死,妻子:多次勸說,他就是不聽

32歲男子:一周多達9次,不幸猝死,妻子:多次勸說,他就是不聽

川渝視覺
2026-04-27 22:04:50
開源模型橫掃21個科學任務!寬德Will聯手斯坦福清北,試錯變武器

開源模型橫掃21個科學任務!寬德Will聯手斯坦福清北,試錯變武器

機器之心Pro
2026-04-26 13:19:19
自導自演白宮記協晚宴槍擊事件?特朗普回應

自導自演白宮記協晚宴槍擊事件?特朗普回應

極目新聞
2026-04-27 19:31:28
我敢打賭99%的男人會選白衣服女孩做老婆,看腿型就知道

我敢打賭99%的男人會選白衣服女孩做老婆,看腿型就知道

朗威談星座
2026-04-26 10:47:21
隨著吳宜澤13-11勝塞爾比,火箭12-13,世錦賽8強對陣出爐附賽程

隨著吳宜澤13-11勝塞爾比,火箭12-13,世錦賽8強對陣出爐附賽程

小火箭愛體育
2026-04-28 00:09:23
上海地鐵32歲女子與66歲老太互毆后續:央媒發聲,拘留只是開始!

上海地鐵32歲女子與66歲老太互毆后續:央媒發聲,拘留只是開始!

青梅侃史啊
2026-04-27 11:38:30
2026-04-28 02:47:00
InfoQ incentive-icons
InfoQ
有內容的技術社區媒體
12309文章數 51863關注度
往期回顧 全部

科技要聞

DeepSeek V4上線三天,第一批實測出來了

頭條要聞

坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

頭條要聞

坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

體育要聞

人類馬拉松"破二"新紀元,一場跑鞋軍備競賽

娛樂要聞

黃楊鈿甜為“耳環風波”出鏡道歉:謠言已澄清

財經要聞

Meta 140億收購Manus遭中國發改委否決

汽車要聞

不那么小眾也可以 smart的路會越走越寬

態度原創

本地
健康
手機
藝術
教育

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

干細胞如何讓燒燙傷皮膚"再生"?

手機要聞

一加Nord CE6 Lite官宣5月7日發布,7000mAh電池

藝術要聞

他的油畫筆觸粗獷又細膩,透著一種不可言說的美!

教育要聞

你不說這是計算障礙,我真以為我是智障呢

無障礙瀏覽 進入關懷版