有一說一,最近這AI大模型圈,屬實有點抽象了。
各家都在悶聲鼓搗那些偏向商業(yè)落地的應用,幾家大廠們滿腦子都是怎么把OpenClaw的概念融入到自家的產品里,真正讓人覺得眼前一亮的底層技術突破反倒不怎么看得到了。
谷歌拍了拍腦袋,尋思這樣不得勁啊。
于是乎,就在前幾天,谷歌推出了新一代開源模型Gemma 4,包括E2B、E4B、26B、31B四個規(guī)格,其中 E2B、E4B 兩個較小模型直接可以在手機、樹莓派等設備上部署運行,26B、31B也只需要一張消費級顯卡就能跑起來。
![]()
(圖源:雷科技)
要知道,前兩年吵得沸沸揚揚的AI手機,大家買回家用了半年才發(fā)現(xiàn),超過九成的核心功能依然得依靠網(wǎng)絡把數(shù)據(jù)傳到云端服務器才能實現(xiàn),一旦斷網(wǎng)就是個啞巴,這實在讓人覺得差點意思。
谷歌這邊就表示,Gemma 4的發(fā)布代表了移動設備端AI的重大進步,它為手機、平板、筆記本電腦等端側設備帶來了強大的多模態(tài)功能,可以讓用戶體驗到過去只有云端先進模型上才能體驗的高效處理性能。
又來個以小搏大嗎?有點意思。
為了看看這玩意的真實成色,小雷也去下載了谷歌發(fā)布的最新模型進行測試,接下來就給大家說說里面的亮點吧。
谷歌要以小搏大
為什么谷歌這次能引起這么大的轟動?
要搞清楚這點,我們就要先搞清楚這個模型是什么。
Gemma 4 E2B/E4B是谷歌利用MatFormer架構打造的輕量化端側大模型,它借由PLE和Hybrid Attention結構實現(xiàn)了長上下文和低內存消耗設計,內存占用與傳統(tǒng)的2B和4B模型相當,最低只要3.2GB內存就能正常調用。
![]()
(圖源:谷歌)
其次,我們要搞清楚這個模型能做什么。
過去的手機端大模型,大多是簡單粗暴地把云端模型切掉一大部分參數(shù),然后硬塞進手機里,這就導致它們往往是個偏科生,只能做點簡單的文字問答。
但這次Gemma 4的E2B和E4B型號徹底改變了思路,就像上面說的那樣,它們從底層架構開始就采用了原生多模態(tài)設計。
原生多模態(tài)就是說,這個模型原生支持圖像、音視頻等多種輸入模態(tài),它不需要先把你說的話翻譯成文字再慢慢理解,而是能直接聽懂語氣和語意;它在看圖的時候也不需要把高分辨率的照片暴力壓縮,而是能直接看清畫面里的細節(jié)。
![]()
(圖源:谷歌)
至少理論上是這樣的。
最后,我要怎樣做,才能用上Gemma 4呢?
放在一年前,想在手機上部署端側大模型其實是一件異常復雜的事情,往往還要借助Linux虛擬機的幫助才能實現(xiàn),雷科技曾經(jīng)還為此推出過一篇教程,因此大家會有這樣的疑問也是很合理的。
但是現(xiàn)在,就沒有這個必要了。
Google在去年低調上線了一款新應用,名為Google AI Edge Gallery,支持用戶在手機上直接運行來自Hugging Face平臺的開源AI模型,這是Google首次嘗試將輕量AI推理帶入本地設備。
![]()
(圖源:谷歌)
目前該應用已在Android平臺開放下載,感興趣的讀者可以直接前往Play Store下載體驗。在完成大模型加載后,用戶就可以利用這款應用實現(xiàn)對話式AI、圖像理解以及提示詞實驗室功能,甚至可以導入自定義LiteRT格式模型。
無需聯(lián)網(wǎng),直接調用手機本地算力完成任務,就是這么簡單。
更適合移動設備體質
接下來,就輪到萬眾期待的測試環(huán)節(jié)了。
如圖所示,谷歌為這款應用默認準備了九款模型,其中有自家的Gemma系列,也有千問和深度求索的開源模型,我們選擇了目前最強的Gemma 4-E4B、前代Gemma 3n-E4B、千問的Qwen2.5-1.5B和DeepSeek-R1-1.5B進行測試。
首先是一系列經(jīng)典的邏輯問題:
Q:Strawberry一詞中有多少個字母“r”?
這一題看起來簡單,卻實實在在難倒過諸多AI大模型。
實測下來,通過谷歌部署的這一系列模型,全部都會回答“2個”,倒是我另外部署的Qwen3-4B GGUF能給出正確答案“3個”,只是莫名其妙的反復思考讓它整整生成了兩分半鐘,挺浪費時間的。
![]()
(圖源:雷科技)
Q:倆父子釣了三條魚,每個人都分到一條,這是咋回事?
這個就更絕了,愣是沒有一個能答對的,甚至連我在現(xiàn)實中問同事,也至少有一半是反應不過來的,只能說這種玩文字游戲的邏輯題目,對于人和大模型的專注度都是一種考驗。
![]()
(圖源:雷科技,從左到右:Gemma 4、Gemma 3n、DS R1、Qwen2.5)
Q:有三個人 A、B、C。其中一個是騎士(只說真話),一個是無賴(只說假話),一個是間諜(可說真話也可說假話)。
A 說:‘我是騎士。’
B 說:‘A 說的是真話。’
C 說:‘B 是間諜。’
已知三人身份各不相同,請推理出 A、B、C 分別是誰,并說明理由。
這回Gemma 4經(jīng)過一系列的窮舉推理,總算是拿捏了這道題目,總耗時59s,倒也不算長,至于其他三款大模型,除了一本正經(jīng)胡說八道的,就是自己陷入思考過程無限循環(huán)的。
![]()
(圖源:雷科技,從左到右:Gemma 4、Gemma 3n、DS R1、Qwen2.5)
從結果來看,小參數(shù)確實會顯著降低模型的邏輯思考能力,思考功能可以在一定程度上降低AI幻覺產生的可能性,但也因此會增加生成所需的時間。
然后是一道比較簡單的文學誤導題:
Q:“種豆南山下”的前一句是什么?
事實上,這是出自陶淵明《歸園田居·其三》的首句詩,并沒有前一句,正好能看看這幾款小參數(shù)模型是否存在為了回答問題編造數(shù)據(jù)的現(xiàn)象。
![]()
結果是全錯,論給人陶淵明整成現(xiàn)代詩人這一塊。
接下來,是一個簡單的文本處理任務。
具體來說,我這邊提供了2500字左右的文章,希望他們能夠給出對應的文章總結。
其中,只有Gemma 3n-E4B和Gemma 4-E4B算是能完成任務,但是前者耗時將近兩分鐘,而且給出的答案抓不住重點,后者給出來的答案更加簡明扼要。
至于參數(shù)最小的DS R1-1.5B,根本就給不出答復。
![]()
(圖源:雷科技,從左到右:Gemma 4、Gemma 3n、DS R1、Qwen2.5)
從以上四輪測試來看,在文本處理、邏輯推理能力上,Gemma 4-E4B算是有小幅提升,但是在生成速度、回復成功率上其實是領先不少的,只能說深度思考顯然是不適合本地模型的。
不過Gemma 3n并不是單純的文本大模型,人家可是罕有的小參數(shù)多模態(tài)大模型。
先測試一下僅限Gemma的Ask Audio,我導入了一份21分鐘的wav音頻,可以看到目前最多支持上傳30s內容,語音轉文字出來的內容和原音頻幾乎沒有關系,目前可用性挺一般的。
![]()
(圖源:雷科技)
接著是Ask Image,我可以通過隨手拍攝或者上傳照片的方式,向Gemma 4提問。
實測下來,Gemma 4對于圖片里的元素識別準確了不少,基本都能完整復述出圖片里的元素,只是它對于動漫角色依然是一竅不通,諸如花卉識別這類應用也不精準,只有比較常見的食物、硬件這類可以識別出來。
![]()
(圖源:雷科技)
至于Agent Skills...這玩意除了倆文字游戲外,目前幾個功能都是需要聯(lián)網(wǎng)實現(xiàn)的,和端側大模型關系不大。
![]()
(圖源:雷科技)
你別說,在功能的豐富程度上,Gemma 4確實贏太多了。
端側AI的拐點終于來了
好了,經(jīng)過我這幾天的輪番折騰,是時候給谷歌這次的Gemma 4下個結論了。
在我看來,這玩意兒確實可能會引發(fā)本地Agent浪潮。
在基礎的文本問答和邏輯能力上,Gemma 4并沒有做出什么突破,但是它的思考鏈更加合理,生成速度對比前代提升了1.5x-2x,這在應對很多不算復雜的日常問題時已經(jīng)綽綽有余。
而且它的優(yōu)點也很突出,除了兼容一系列Agent Skills外,Gemma 4-E4B甚至可以做到音頻和圖片的原生輸入,雖說前者目前限制多多,后者理解能力有待提升,但是這都是人無我有的核心價值。
![]()
(圖源:谷歌)
更重要的是,這件事并不是谷歌一家在做。
為了讓這兩個模型真的跑起來,谷歌這次是把整條硬件鏈路一起拉進來了,從Pixel 團隊,到高通、聯(lián)發(fā)科,再到ARM、英偉達都參與了優(yōu)化,這也讓Gemma 4可能成為市面上第一個能夠正常調用NPU的端側大模型
過去一年,手機大模型的賽道一直處于不溫不火的尷尬期。
如今谷歌直接把桌子掀了,把性能強悍的多模態(tài)模型塞進手機,必將逼迫國內廠商加快端側技術的迭代速度。
可以預見,在未來的大半年時間里,一場圍繞著手機本地算力的反擊戰(zhàn)即將打響。而當Agent可以調用本地模型完成推理、生成、任務執(zhí)行,一臺足夠安全、足夠懂你且無需連網(wǎng)的AI手機或許離我們已經(jīng)不遠了。
而在那一天到來之前,Gemma 4絕對是你當下最值得上手體驗的選擇。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.