今年 4 月,谷歌發(fā)布了新一代開源大模型 Gemma 4。這次一口氣推出了四種規(guī)格的版本,從手機(jī)到工作站全面覆蓋,其中最小的兩個(gè)版本專門為移動(dòng)設(shè)備設(shè)計(jì),主打完全離線運(yùn)行。這其實(shí)本來也沒啥稀奇的,但更重要的是,谷歌這次是想讓手機(jī)跑本地模型了。
可能大家都已經(jīng)刷到過不少關(guān)于Gemma4 實(shí)裝測試的內(nèi)容,但但網(wǎng)上現(xiàn)有的測試,基本都是在最新款 iPhone 或旗艦機(jī)上進(jìn)行的,這些旗艦本來就是最新款,性能和算力都是第一梯隊(duì)的,表現(xiàn)好也在情理之中。
而這時(shí)候小雷就不禁想發(fā)問,如果用的是一臺(tái)幾百到一千多塊的普通安卓機(jī),中端處理器、不算頂尖的算力,本地模型還能不能正常用?和那些旗艦機(jī)比,差距到底有多大?
![]()
(圖源:雷科技攝制)
往更深一層說,本地 AI 是不是注定只能是旗艦手機(jī)的專屬功能?我們想搞清楚這件事,所以直接拿了一臺(tái)搭載中端芯片的千元安卓機(jī)來實(shí)測 Gemma 4,看看它的表現(xiàn)到底怎么樣。
千元機(jī)跑本地模型,簡直「拉完了」
我們這次拿來測試的是 vivo Y500 Pro,很典型的一臺(tái)千元安卓機(jī),雖然不是什么老機(jī)型,但 SoC 整體性能還是偏一般的,畢竟它定價(jià)就在這兒,確實(shí)也沒啥好說的。它采用的是聯(lián)發(fā)科天璣 7400,臺(tái)積電 4nm 制程,CPU 配置是 4 個(gè) 2.6GHz 大核加 4 個(gè) 2.0GHz 小核,GPU 是 Mali-G615 MC2。
這套配置在千元價(jià)位段里算正常發(fā)揮,日常用沒什么問題,但要跟現(xiàn)在的旗艦芯片比算力,那真的不是一個(gè)量級的事。AI 這塊,天璣 7400 用的是聯(lián)發(fā)科 NPU 655,官方說比上一代提升了 15%。
谷歌為 Gemma 4 的手機(jī)端版本出了一個(gè)叫 Google AI Edge Gallery 的 App,應(yīng)用商店直接搜就有。下載完打開,選 Gemma 4 E4B,等模型文件下好,就可以直接用了,全程離線,不用聯(lián)網(wǎng),也不用搞任何配置。這個(gè)安裝體驗(yàn),谷歌還是做得挺用心的。那話不多說,直接開測。
![]()
(圖源:雷科技制圖)
第一題我們問了一個(gè)很生活化的問題:推薦三部適合在長途高鐵上看的電影,并說說理由。Gemma 4 給出的答案是阿甘正傳、盜夢空間和愛樂之城,選片本身沒什么問題,三部都挺經(jīng)典,推薦理由也說得通,但問題在于,它給出了將近 500 字的回答,還額外附上了一條"小貼士",像什么高鐵上看電影記得帶耳機(jī)。
![]()
(圖源:雷科技制圖)
這在 vivo Y500 Pro 上,這 500 字足足跑了 2.8 分鐘,說實(shí)話,小雷看完才發(fā)現(xiàn)后半段根本沒必要讀。
這其實(shí)是小參數(shù)模型的一個(gè)常見毛病,它回答的時(shí)候往往不知道什么時(shí)候該停下來,偶爾還會(huì)給一些「建議」來湊字?jǐn)?shù),仔細(xì)閱讀下來就會(huì)發(fā)現(xiàn)其實(shí)兩三句話就能總結(jié)完。
接下來我們選擇了一道比較經(jīng)典的多步邏輯推理題:五個(gè)人坐成一排,A 不坐在最左邊,B 坐在 C 的右邊,D 坐在 E 的左邊,E 不坐在最右邊,請問誰坐在最中間?雖然它在很認(rèn)真地一步步列條件、排列組合,但最后卻給不了正確答案,甚至耗時(shí) 3.3 分鐘,在這過程中,我們是不能退到后臺(tái)等待它回答的,必須一直保持亮屏。也就是說,這 3.3 分鐘徹底被浪費(fèi)掉了。
![]()
(圖源:雷科技制圖)
當(dāng)然,這也不能怪 Y500 Pro 性能不足,其實(shí)我們在 X300 Pro 這臺(tái)旗艦機(jī)型上,也沒能把這個(gè)問題整出答案來,但 X300 Pro 回答的速度幾乎就是碾壓級的,1.6 分鐘就給出錯(cuò)誤答案。就算錯(cuò),也算是錯(cuò)的干脆。
![]()
(圖源:雷科技制圖)
同樣如此,小雷還嘗試之前那個(gè)難倒一大片 AI 大模型的超經(jīng)典問題:洗車應(yīng)該開車去還是走路去?讓人意外的是,這次兩款手機(jī)在同一個(gè)模型下,有了不同的思考。Y500 Pro 花了 2.5 分鐘,告訴我們「如果你是為了“洗車”去的,那應(yīng)該選擇走路」,這種令人啼笑皆非的回答。
![]()
(圖源:雷科技制圖)
而 X300 Pro 中間是繞了一些彎子,它似乎也在反復(fù)確認(rèn)「洗車」這個(gè)行為到底需不需車,但最后它還是提到,假如要去洗車,那還是要開車去。
跑完這三道題,Y500 Pro 上的 Gemma 4 E4B 給我們留下的整體印象就是很慢、廢話連篇,但倒是不怎么發(fā)燙。
慢是最直觀的感受,每道題平均要等兩到三分鐘才能看完完整回答。這個(gè)速度放在日常使用里真的很難受,說實(shí)話沒有人會(huì)愿意盯著屏幕干等三分鐘就為了看一個(gè)答案。但這里有一個(gè)細(xì)節(jié)值得說一下,慢不是因?yàn)槟P蜎]在跑,而是天璣 7400 的 NPU 算力實(shí)在有限,每秒能處理的 token 數(shù)就那么多,再怎么努力也就這個(gè)速度了。
還有就是出錯(cuò)率也挺高的,但也情有可原,模型在處理復(fù)雜邏輯的時(shí)候,需要在中間步驟上反復(fù)"思考",算力越充裕,這個(gè)過程就越完整,而在千元機(jī)上,這個(gè)過程很可能在還沒走完之前就被迫給出結(jié)論了,因?yàn)樗懔χ挥羞@么多,如果分配給推算太多資源,那后續(xù)就很難繼續(xù)下去,所以也更容易出現(xiàn)幻覺。
Gemma 4 E4B 是一個(gè)多模態(tài)的模型,所以我們也打算讓 Y500 Pro 試試看識圖效果如何。我們先丟了一張夜景購物中心的照片進(jìn)去,問它圖里有什么信息。
它的回答說實(shí)話還過得去,描述了建筑規(guī)模、屋頂結(jié)構(gòu)、夜景氛圍,方向是對的,但有一個(gè)很明顯的問題,圖里那么大一個(gè) Apple Store 的招牌,它完全沒有提到,只說了個(gè)"現(xiàn)代大型購物中心"。品牌識別這件事對模型要求很高,需要把看到的視覺信息和背后的品牌知識對應(yīng)起來,E4B 這個(gè)參數(shù)量顯然還不夠用,看得出輪廓,但認(rèn)不出是誰。
![]()
(圖源:雷科技制圖)
第二張圖,我們隨手拍了個(gè)綠植的圖片問它這是什么,然后它就轉(zhuǎn)圈了。整整五分鐘,什么回答都沒有,只有那個(gè)一直在轉(zhuǎn)的加載動(dòng)畫,更讓人崩潰的是,這段時(shí)間里整個(gè) App 完全無法操作,不能打斷只能干等。其實(shí)這張圖片就是非常簡單的地插式噴頭,澆花用的,并不是很罕見的裝置。
![]()
(圖源:雷科技制圖)
那么 X300 Pro 是否能正確識別呢?其實(shí)是可以的,X300 Pro 僅用 32 秒就回答了這個(gè)難倒 Y500 Pro 的問題,只可惜它沒能準(zhǔn)確說出這個(gè)裝置是什么只是猜測這是一個(gè)小型的傳感器。
![]()
(圖源:雷科技制圖)
跑完這三輪測試,Y500 Pro 上的 Gemma 4 E4B 并沒有如我們想象中一般完全干不動(dòng),相反其實(shí)有一點(diǎn)點(diǎn)小驚喜,比如它基本不發(fā)燙、也不是很卡頓,一些簡單的問題還是能正確回答出來。但問題在于,作為一個(gè)本地模型,它的回答速度實(shí)在太慢了,目前 Google AI Edge Gallery 的權(quán)限也不夠,除了開關(guān)手電筒之外,做不了其他系統(tǒng)級操作。
這就顯得很尷尬了,假如只能做到這樣的水平,回答速度也這么慢、還容易出錯(cuò),用戶為什么還要繼續(xù)用下去呢?說白了,除非真的到了徹底斷網(wǎng)的場景,否則還真不如一個(gè)在線大模型好用。
本地模型,普通手機(jī)真的能用嗎?
從前面的測試來看,Gemma4 目前確實(shí)是得旗艦手機(jī)才能達(dá)到一個(gè)「及格線」的標(biāo)準(zhǔn),盡管還是有出錯(cuò)的情況,但至少速度不拉跨,不像千元機(jī)那樣又慢又不準(zhǔn)。
但回過頭來看,谷歌做這個(gè) App,背后到底在布什么局?
Google AI Edge Gallery 里有一個(gè)叫 Mobile Actions 的功能,可以把你的自然語言指令直接轉(zhuǎn)化成對 Android 系統(tǒng)的操作,比如"幫我創(chuàng)建一個(gè)午餐日歷事件"或者"打開手電筒",模型理解你的意圖之后,直接調(diào)用系統(tǒng)工具去完成。
這條路其實(shí)已經(jīng)在旗艦手機(jī)上開始走了,三星 Galaxy S25 系列推出了跨應(yīng)用執(zhí)行鏈,只用一句話就能讓多個(gè) App 協(xié)同工作,比如說"幫我導(dǎo)航到今晚開會(huì)的地方",AI 會(huì)自動(dòng)從日程表里讀取地址,再直接傳給地圖,整個(gè)過程不需要你復(fù)制粘貼,也不需要手動(dòng)切換。還有此前全網(wǎng)爆火的豆包手機(jī),更是實(shí)現(xiàn)了「手機(jī)自動(dòng)駕駛」。
但這里有一個(gè)很重要的事實(shí)需要說清楚,那就是這些自動(dòng)化操作,其實(shí)大部分都不是真正意義上的本地模型在跑。三星、蘋果,甚至豆包手機(jī),都是如此。
![]()
(圖源:豆包手機(jī)助手)
本質(zhì)上,本地模型的能力上限擺在那里,參數(shù)量越小能做的事情就越少,而用戶對 AI 的期待是越來越高的,單靠本地根本撐不起那個(gè)需求。所以云端成了兜底的方案,本地模型更多是承擔(dān)一些輕量、實(shí)時(shí)的任務(wù),比如通知總結(jié)、語音識別這類對速度要求高的場景。
所以,谷歌這款 App 更像是在試水本地模型進(jìn)入移動(dòng)端,并且逐步開放自動(dòng)化操作手機(jī)的功能權(quán)限,再讓盡可能多的設(shè)備都能跑起來,然后等芯片的算力跟上來。但芯片廠商什么時(shí)候愿意把真正夠用的 AI 算力下放到千元機(jī)這個(gè)價(jià)位?畢竟旗艦手機(jī),從來都不是手機(jī)市場的銷量大頭。
聯(lián)發(fā)科、高通這幾年每代新旗艦芯片發(fā)布,都會(huì)重點(diǎn)強(qiáng)調(diào) NPU 算力提升多少倍、AI 性能比上一代強(qiáng)多少,可中低端芯片往往并不重視這些,能效才是它們更在意的。因此,普通用戶能不能用上真正好用的本地 AI,取決于整個(gè)產(chǎn)業(yè)鏈有沒有足夠的動(dòng)力去推動(dòng)這件事。谷歌在軟件層面上開了一個(gè)口子,那么接下來就要看芯片廠商和手機(jī)廠商如何接招了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.