![]()
這項由螞蟻集團Venus團隊主導的研究于2026年2月發表,論文編號為arXiv:2604.06182,感興趣的讀者可通過該編號查詢完整論文原文。
手機里的AI助手,你真的信得過嗎?
每天早上,你拿起手機叫AI助手幫你訂一張下午三點的火車票,或者問它"能幫我把這份文件壓縮一下發給老王嗎?"這聽起來再普通不過。然而,當你真的依賴這類助手處理日常事務時,它究竟靠不靠譜,是個沒人認真考過的問題——至少,沒有人用真實、復雜的場景認真考過。
螞蟻集團的研究團隊意識到了這個問題。現有的AI手機助手測評,更像是只考了學生"默寫課文"的能力,卻從沒考過"在嘈雜的圖書館里完成一篇有截止時間的報告"這樣的真實任務。于是,他們設計了一套全新的考試系統,名叫VenusBench-Mobile,專門用來測評那些能自動幫你操作手機的AI智能體(也就是業內說的"移動端GUI智能體")。考試結果相當令人警醒:就連當前最頂尖的AI系統,也只能完成不到四成的任務。
這項研究的核心貢獻在于兩件事:一是重新定義"考什么",把考題從"能不能操作某個App"升級為"能不能真正幫到用戶";二是重新定義"怎么考",設計了一套能精確診斷AI哪里出了問題的能力分析框架。
一、為什么現有的考試都在"放水"
要理解這套新考試為什么重要,得先明白舊考試哪里出了問題。
現有的AI手機助手評測基準,大多遵循同一個套路:選幾款App,然后針對每個App出一批操作題。比如選了"備忘錄"這個App,就出題"創建一個新筆記"或者"把某條筆記加粗"。這種設計思路叫做"以App為中心"——App是考試的主角,所有題目都圍繞App能做什么來出。
問題在于,真實世界里用手機的人,從來不是圍著App轉的。你打開手機的出發點是"我要解決一件事",比如"我想找到上個月花在外賣上的總金額",而不是"我想測試一下Pro Expense這款記賬App的功能"。App只是實現目的的工具,用戶才是主角。
當考題全都是"打開某某App,點這里,填那里"這種預設好路徑的操作時,AI要做的不過是按圖索驥,跟著確定的腳本走。但現實中,用戶說的話往往是模糊的、帶有上下文的,甚至是不完整的。"幫我把那個壓縮包里的文件找出來發給老王"——這句話里沒有說用哪個App解壓,沒有說發送方式,甚至"老王"是誰也得AI自己去聯系人里找。
更棘手的是,現有考試還有另一個缺陷:當AI答錯了,你不知道它到底哪里錯了。是它沒看清屏幕?還是沒理解你說的話?還是走到一半忘了你叫它干什么?就好比一個學生考試考了60分,老師只知道他沒及格,卻不知道他是數學題不會做、還是閱讀理解沒看懂、還是最后幾道題時間來不及了。這種粗糙的評分方式,對改進AI幾乎沒有指導意義。
正是針對這兩個核心痛點——"考的內容不夠真實"和"考完了不知道問題在哪"——螞蟻集團的研究團隊設計了VenusBench-Mobile。
二、這套考試到底考什么:十種真實用戶需求
VenusBench-Mobile的題庫共包含149道主要題目,橫跨十大類用戶需求場景,全部在真實的安卓模擬器環境中運行,涵蓋27款開源Android應用。
第一大類叫做"功能輔助",針對的是一個很普遍的現實:大多數人并不完全了解手機里每款App能做什么。這類題目包括三種形式。第一種是操作說明,比如"告訴我怎么用ZipXtract這個App解壓文件",AI需要自己去探索這款App,然后把操作步驟完整地告訴用戶。第二種是功能探索,比如"我想在Markor里新建一個LaTeX文件并編譯成PDF,這個App支持嗎?"AI需要自己去查清楚再回答。第三種是界面導航,比如"幫我找到Fitbook里可以添加體重記錄的那個界面",AI要把用戶帶到對的地方。
第二大類叫做"沖突處理"。用戶給了一個指令,但實際情況和指令對不上。比如用戶說"刪掉Markor的Algo文件夾里所有3條筆記",但實際上這個文件夾里有4條。這時AI應該察覺到矛盾,主動聯系用戶確認,而不是自作主張地刪掉3條就算完事。
第三大類叫做"模糊指令"。用戶表達的意思清楚,但省略了關鍵信息,比如沒說用哪個App。"幫我把這個zip文件里的內容找出來",用戶心里是明白的,但AI要能自己判斷出用ZipXtract來解壓,而不是一臉懵地不知道從何下手。
第四大類叫做"多輪對話"。真實的用戶交互往往不是一次性的。用戶先讓AI"創建一條筆記",然后說"把標題改一下",再說"把剛才加的那行字加粗",最后說"通過短信分享給朋友"。AI需要記住每一輪的上下文,把一系列零散的指令串成一個完整的任務。
第五大類叫做"界面狀態感知"。手機屏幕上的內容是動態變化的,不是靜止等AI去讀的。比如一道題要求AI打開番茄計時器App,等長休息計時跑到18到20秒的時候按下暫停。AI要像真人一樣盯著屏幕上的數字變化,在對的時間做出反應。
第六大類叫做"視覺操作"。有些任務需要在手機屏幕上做精細的圖形操作,比如"打開Draw這個繪圖App,用藍色筆圈出橡皮擦,用紅色筆圈出卷筆刀"。AI必須能準確識別圖片里的具體物體,并在正確位置進行精確的繪制操作。
第七大類叫做"復雜信息瀏覽"。用戶需要在多個頁面、多個來源之間查找并比較信息。這類題目的難度遠超"在搜索框里查個關鍵詞"——比如要求AI閱讀Gallery里存儲的一張外賣截圖,在多個商家的多款飲品中找出30分鐘內能送達的最便宜的美式咖啡,并返回商家名稱和商品全名。
第八大類叫做"噪聲抵抗"。現實中用手機時,隨時可能有電話打進來、App崩潰、彈出一個無關的廣告窗口。AI在執行任務的途中遭遇這些干擾,能不能處理完干擾后繼續完成原來的任務?這類題目專門測試這種抗干擾能力。研究團隊模擬了四種干擾類型:來電、App崩潰、操作失敗、無關彈窗。
第九大類叫做"超難瀏覽題",靈感來自斯坦福大學專門用來難倒網絡搜索AI的BrowseComp基準。這類題目把多個約束條件疊加在一起,比如"在這7款App里,找出圖標是藍色的、而且主界面沒有搜索欄的那一款"。AI必須逐一檢查每個App,同時滿足所有條件才能得分。
第十大類叫做"穩定性評測",這是一個獨立的子集,包含20道基礎題,每道題衍生出四個變體版本:把指令翻譯成中文、換一種語氣但意思相同的英文表達、把手機界面切換成深色模式、把設備換成平板橫屏模式。一道題只有在全部五種條件下都答對,才算真正穩定通過。
三、怎么衡量AI哪里出了問題:五維能力雷達圖
出完題,還需要一套精密的評分體系。VenusBench-Mobile提出了"PUDAM"能力分類框架,把AI需要具備的核心能力拆分成五個維度,每個維度又分四個難度等級。
第一個維度是感知能力,衡量的是AI看懂手機屏幕的水平。最基礎的一級是認識文字和圖標,第二級是理解整體界面的布局和邏輯關系,第三級是精確定位細小的視覺元素,比如一個角落里只有幾個像素大的感嘆號按鈕,第四級是追蹤動態變化,比如實時讀取一個倒計時數字。
第二個維度是理解能力,衡量的是AI讀懂用戶意圖的水平。從理解"點擊確認按鈕"這樣最簡單的單步指令,到處理帶有多個限定條件的復雜指令,再到識別出指令里的隱含矛盾或者信息缺失。
第三個維度是決策能力,衡量的是AI在執行過程中臨機應變的水平。最基礎的是照著既定路線走,不需要臨時調整;高一級的是遇到彈窗、廣告、意外情況時能靈活繞過;最高級的是遇到沖突時主動反思、自我糾錯、評估風險。
第四個維度是操作能力,衡量的是AI在屏幕上執行動作的精準度。從點擊、長按這類基礎操作,到需要拖拽軌跡控制的復雜手勢,再到精確調整滑塊到特定位置,最高級是像人手一樣實時根據視覺反饋調整動作軌跡。
第五個維度是記憶能力,衡量的是AI跨步驟、跨頁面保持任務上下文的能力。最基礎的是在多個步驟中記住自己要干什么;高一級的是在瀏覽多個頁面時積累并記錄信息;再高一級是在整個長任務中追蹤不斷變化的狀態;最高級的是跨越多個獨立任務保留記憶,比如"刪掉我剛才創建的前兩條筆記"。
當AI在某道題上失敗時,研究團隊可以對照這張能力矩陣,精確地找到是哪個維度、哪個難度級別出了問題,而不只是記錄一個"失敗"的結果。
四、考試結果:全軍覆沒的成績單
研究團隊找來了目前業界最強的一批AI手機助手來應考,包括螞蟻集團自家的UI-Venus系列、阿里的Qwen3-VL系列、專門為手機操作訓練的GUI-Owl和MAI-UI等開源模型,以及用谷歌Gemini-3-Pro和OpenAI GPT-5.1作為"大腦"、配合UI-Venus-72B執行操作的商業級方案。
成績出來,場面相當難看。最強的商業方案Gemini-3-Pro加UI-Venus-72B的組合,總體成功率只有36.9%。也就是說,接近三分之二的任務都沒有完成。其余的開源模型更是慘烈,大多數成功率低于15%,Qwen3-VL-8B和GUI-Owl-7B只有6.7%。
這個數字和同一批AI在AndroidWorld(目前業界最主流的舊式評測基準)上的成績相比,差距觸目驚心——平均成功率下降了約50個百分點。換句話說,同一個AI,在舊考試里考了七八十分,在這套新考試里只能考二三十分甚至更低。這說明舊考試確實存在嚴重的"放水"問題,高分并不代表真正有用。
從具體題目類型來看,界面狀態感知和視覺操作是最難攻克的兩類,所有模型的平均成功率分別只有2.5%和4.2%,幾乎全軍覆沒。噪聲抵抗類題目表現稍好,但也只有32.1%的平均成功率,而且高度依賴模型規模——Gemini-3-Pro能達到75%,而小模型們卻普遍跌到個位數。
通過PUDAM框架的細粒度分析,研究團隊找到了失敗的根本原因所在。在所有能力維度中,記憶能力是最致命的瓶頸。幾乎所有的開源小模型,在需要長期追蹤狀態的高難度記憶任務中,成功率接近于零。即使是體量更大的Gemini-3-Pro,記憶維度的成功率也從基礎任務的41%跌到了高難度任務的31%。這說明問題不僅僅是模型不夠大,而是現有的AI在架構層面就缺少持續追蹤信息的機制——單純地擴大"上下文窗口"(也就是AI一次性能記住的內容長度)是不夠的,需要專門設計的狀態追蹤機制。
感知能力是第二個明顯瓶頸,從基礎任務到高難度任務,平均成功率從17.5%跌到10.3%。特別是動態畫面感知——當屏幕上有內容在實時變化時,幾乎所有AI都不知所措。決策能力在高難度場景中也出現了崩潰,大多數開源模型在需要反思和糾錯的任務中跌入個位數,說明它們本質上還是在執行預設腳本,一旦遭遇意外情況就束手無策。
五、穩定性測試:換個皮膚就不認識了
穩定性評測子集的結果揭示了另一個令人不安的現實。
研究團隊給20道基礎題分別出了四種變體,最終統計每個AI能否在全部五種條件下都答對同一道題。這個叫做"穩定通過率"的指標,代表的是AI在輕微的條件變化下是否依然可靠。結果是:絕大多數模型的穩定通過率為零。即使是最強的Gemini-3-Pro組合,穩定通過率也只有15%。GPT-5.1組合是5%,其余全部是0%。
這意味著,哪怕只是把指令從英文翻成中文,或者把手機界面切換成深色模式,又或者換成平板橫屏顯示,本來就有不穩定通過概率的任務,就徹底做不到了。其中影響最大的是平板橫屏模式——很多AI在豎屏手機布局上訓練出來,一換成橫版平板布局,界面元素的位置關系完全變了,AI就徹底迷路。這暴露出一個根本問題:現有AI的"能力"更像是對特定視覺模式的記憶,而不是真正理解了界面背后的邏輯。
六、算力開銷:多想一步要付出多大代價
研究團隊還測量了每個AI在完成任務時消耗的計算資源,用輸出的文字令牌數量來衡量(這也是決定使用商業AI時API費用高低的關鍵指標)。
在單模型方案里,UI-Venus-72B(720億參數的大模型)消耗了85萬個令牌,而GPT-5.1只消耗了16.75萬個令牌,每一步平均只用54.6個令牌,是所有模型里最經濟的,暗示它在處理視覺輸入時用了更高效的壓縮方式。
最引人注目的開銷來自"多智能體框架"——這是一種讓AI通過內部多輪討論和反思來提升效果的方案,由Mobile-Agent-v3加GUI-Owl-7B實現。這套方案消耗了164萬個令牌,每步平均438.7個,是單獨使用GUI-Owl-7B的三倍。這說明"讓AI多想幾步"會帶來巨大的計算開銷,對于需要在手機上實時運行的邊緣部署場景來說,這是一個必須認真對待的工程挑戰。
說到底,這項研究戳穿了一個流行的神話:那些在測評排行榜上大放異彩的AI手機助手,其實并沒有我們想象的那么能干。舊式考試太簡單,太像教科書上的標準題,而真實的用戶需求復雜、模糊、充滿干擾和意外。螞蟻集團這套考試框架,相當于第一次把AI助手放到了接近真實的"工作場景"里來考核,結果自然原形畢露。
更有價值的是能力診斷框架。知道AI"考了15分"不如知道AI"在記憶和感知方面存在根本性缺陷"——后者才能告訴研究者下一步該怎么改進。這就像是從"你這次考試不及格"升級到"你的閱讀理解和長篇綜合題需要重點補強",指導意義天壤之別。
對于普通用戶來說,這項研究傳遞的信息很實際:目前市面上的AI手機助手,在簡單的單步操作上確實有用,但如果你指望它幫你完成一件跨越多個步驟、需要在不同App之間來回切換的復雜任務,出錯的概率相當高。在AI手機助手真正可靠地進入我們的日常生活之前,還有相當長的路要走。
Q&A
Q1:VenusBench-Mobile和AndroidWorld這類老測評基準的區別是什么?
A:AndroidWorld等舊基準主要圍繞某款App的具體功能出題,題目路徑固定,AI只要按預設步驟操作就能得高分,但這和真實用戶的使用場景差距很大。VenusBench-Mobile從用戶真實需求出發設計題目,涵蓋模糊指令、沖突處理、多輪對話、動態界面感知等十大類場景,并加入了深色模式、平板橫屏、中文指令等變體測試,更貼近實際使用中的復雜情況。
Q2:PUDAM框架具體是如何幫助診斷AI問題的?
A:PUDAM把AI需要的核心能力拆分成感知、理解、決策、操作、記憶五個維度,每個維度分四個難度級別。當AI做某道題失敗時,可以對照這個框架判斷是哪個維度出了問題。比如AI在瀏覽多頁信息后忘記之前讀到的內容,就屬于記憶維度的高難度級別缺陷,而不只是籠統地"失敗了"。這種診斷方式能給AI研究者提供明確的改進方向。
Q3:為什么AI手機助手在平板橫屏模式下成功率會大幅下降?
A:現有的AI手機助手大多在豎屏手機的界面截圖上訓練,學到的更多是對特定視覺布局的記憶,而非對界面邏輯的真正理解。一旦切換到平板橫屏模式,同樣的App界面元素位置、比例和排列方式都會發生變化,AI就像在一個重新擺放了家具的房間里找東西,很容易迷路。這暴露出當前AI缺乏對界面結構的抽象理解能力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.