網易首頁 > 網易號 > 正文 申請入駐

螞蟻集團推出"地獄級"手機AI考試,現有智能助手集體翻車

0
分享至


這項由螞蟻集團Venus團隊主導的研究于2026年2月發表,論文編號為arXiv:2604.06182,感興趣的讀者可通過該編號查詢完整論文原文。

手機里的AI助手,你真的信得過嗎?

每天早上,你拿起手機叫AI助手幫你訂一張下午三點的火車票,或者問它"能幫我把這份文件壓縮一下發給老王嗎?"這聽起來再普通不過。然而,當你真的依賴這類助手處理日常事務時,它究竟靠不靠譜,是個沒人認真考過的問題——至少,沒有人用真實、復雜的場景認真考過。

螞蟻集團的研究團隊意識到了這個問題。現有的AI手機助手測評,更像是只考了學生"默寫課文"的能力,卻從沒考過"在嘈雜的圖書館里完成一篇有截止時間的報告"這樣的真實任務。于是,他們設計了一套全新的考試系統,名叫VenusBench-Mobile,專門用來測評那些能自動幫你操作手機的AI智能體(也就是業內說的"移動端GUI智能體")。考試結果相當令人警醒:就連當前最頂尖的AI系統,也只能完成不到四成的任務。

這項研究的核心貢獻在于兩件事:一是重新定義"考什么",把考題從"能不能操作某個App"升級為"能不能真正幫到用戶";二是重新定義"怎么考",設計了一套能精確診斷AI哪里出了問題的能力分析框架。

一、為什么現有的考試都在"放水"

要理解這套新考試為什么重要,得先明白舊考試哪里出了問題。

現有的AI手機助手評測基準,大多遵循同一個套路:選幾款App,然后針對每個App出一批操作題。比如選了"備忘錄"這個App,就出題"創建一個新筆記"或者"把某條筆記加粗"。這種設計思路叫做"以App為中心"——App是考試的主角,所有題目都圍繞App能做什么來出。

問題在于,真實世界里用手機的人,從來不是圍著App轉的。你打開手機的出發點是"我要解決一件事",比如"我想找到上個月花在外賣上的總金額",而不是"我想測試一下Pro Expense這款記賬App的功能"。App只是實現目的的工具,用戶才是主角。

當考題全都是"打開某某App,點這里,填那里"這種預設好路徑的操作時,AI要做的不過是按圖索驥,跟著確定的腳本走。但現實中,用戶說的話往往是模糊的、帶有上下文的,甚至是不完整的。"幫我把那個壓縮包里的文件找出來發給老王"——這句話里沒有說用哪個App解壓,沒有說發送方式,甚至"老王"是誰也得AI自己去聯系人里找。

更棘手的是,現有考試還有另一個缺陷:當AI答錯了,你不知道它到底哪里錯了。是它沒看清屏幕?還是沒理解你說的話?還是走到一半忘了你叫它干什么?就好比一個學生考試考了60分,老師只知道他沒及格,卻不知道他是數學題不會做、還是閱讀理解沒看懂、還是最后幾道題時間來不及了。這種粗糙的評分方式,對改進AI幾乎沒有指導意義。

正是針對這兩個核心痛點——"考的內容不夠真實"和"考完了不知道問題在哪"——螞蟻集團的研究團隊設計了VenusBench-Mobile。

二、這套考試到底考什么:十種真實用戶需求

VenusBench-Mobile的題庫共包含149道主要題目,橫跨十大類用戶需求場景,全部在真實的安卓模擬器環境中運行,涵蓋27款開源Android應用。

第一大類叫做"功能輔助",針對的是一個很普遍的現實:大多數人并不完全了解手機里每款App能做什么。這類題目包括三種形式。第一種是操作說明,比如"告訴我怎么用ZipXtract這個App解壓文件",AI需要自己去探索這款App,然后把操作步驟完整地告訴用戶。第二種是功能探索,比如"我想在Markor里新建一個LaTeX文件并編譯成PDF,這個App支持嗎?"AI需要自己去查清楚再回答。第三種是界面導航,比如"幫我找到Fitbook里可以添加體重記錄的那個界面",AI要把用戶帶到對的地方。

第二大類叫做"沖突處理"。用戶給了一個指令,但實際情況和指令對不上。比如用戶說"刪掉Markor的Algo文件夾里所有3條筆記",但實際上這個文件夾里有4條。這時AI應該察覺到矛盾,主動聯系用戶確認,而不是自作主張地刪掉3條就算完事。

第三大類叫做"模糊指令"。用戶表達的意思清楚,但省略了關鍵信息,比如沒說用哪個App。"幫我把這個zip文件里的內容找出來",用戶心里是明白的,但AI要能自己判斷出用ZipXtract來解壓,而不是一臉懵地不知道從何下手。

第四大類叫做"多輪對話"。真實的用戶交互往往不是一次性的。用戶先讓AI"創建一條筆記",然后說"把標題改一下",再說"把剛才加的那行字加粗",最后說"通過短信分享給朋友"。AI需要記住每一輪的上下文,把一系列零散的指令串成一個完整的任務。

第五大類叫做"界面狀態感知"。手機屏幕上的內容是動態變化的,不是靜止等AI去讀的。比如一道題要求AI打開番茄計時器App,等長休息計時跑到18到20秒的時候按下暫停。AI要像真人一樣盯著屏幕上的數字變化,在對的時間做出反應。

第六大類叫做"視覺操作"。有些任務需要在手機屏幕上做精細的圖形操作,比如"打開Draw這個繪圖App,用藍色筆圈出橡皮擦,用紅色筆圈出卷筆刀"。AI必須能準確識別圖片里的具體物體,并在正確位置進行精確的繪制操作。

第七大類叫做"復雜信息瀏覽"。用戶需要在多個頁面、多個來源之間查找并比較信息。這類題目的難度遠超"在搜索框里查個關鍵詞"——比如要求AI閱讀Gallery里存儲的一張外賣截圖,在多個商家的多款飲品中找出30分鐘內能送達的最便宜的美式咖啡,并返回商家名稱和商品全名。

第八大類叫做"噪聲抵抗"。現實中用手機時,隨時可能有電話打進來、App崩潰、彈出一個無關的廣告窗口。AI在執行任務的途中遭遇這些干擾,能不能處理完干擾后繼續完成原來的任務?這類題目專門測試這種抗干擾能力。研究團隊模擬了四種干擾類型:來電、App崩潰、操作失敗、無關彈窗。

第九大類叫做"超難瀏覽題",靈感來自斯坦福大學專門用來難倒網絡搜索AI的BrowseComp基準。這類題目把多個約束條件疊加在一起,比如"在這7款App里,找出圖標是藍色的、而且主界面沒有搜索欄的那一款"。AI必須逐一檢查每個App,同時滿足所有條件才能得分。

第十大類叫做"穩定性評測",這是一個獨立的子集,包含20道基礎題,每道題衍生出四個變體版本:把指令翻譯成中文、換一種語氣但意思相同的英文表達、把手機界面切換成深色模式、把設備換成平板橫屏模式。一道題只有在全部五種條件下都答對,才算真正穩定通過。

三、怎么衡量AI哪里出了問題:五維能力雷達圖

出完題,還需要一套精密的評分體系。VenusBench-Mobile提出了"PUDAM"能力分類框架,把AI需要具備的核心能力拆分成五個維度,每個維度又分四個難度等級。

第一個維度是感知能力,衡量的是AI看懂手機屏幕的水平。最基礎的一級是認識文字和圖標,第二級是理解整體界面的布局和邏輯關系,第三級是精確定位細小的視覺元素,比如一個角落里只有幾個像素大的感嘆號按鈕,第四級是追蹤動態變化,比如實時讀取一個倒計時數字。

第二個維度是理解能力,衡量的是AI讀懂用戶意圖的水平。從理解"點擊確認按鈕"這樣最簡單的單步指令,到處理帶有多個限定條件的復雜指令,再到識別出指令里的隱含矛盾或者信息缺失。

第三個維度是決策能力,衡量的是AI在執行過程中臨機應變的水平。最基礎的是照著既定路線走,不需要臨時調整;高一級的是遇到彈窗、廣告、意外情況時能靈活繞過;最高級的是遇到沖突時主動反思、自我糾錯、評估風險。

第四個維度是操作能力,衡量的是AI在屏幕上執行動作的精準度。從點擊、長按這類基礎操作,到需要拖拽軌跡控制的復雜手勢,再到精確調整滑塊到特定位置,最高級是像人手一樣實時根據視覺反饋調整動作軌跡。

第五個維度是記憶能力,衡量的是AI跨步驟、跨頁面保持任務上下文的能力。最基礎的是在多個步驟中記住自己要干什么;高一級的是在瀏覽多個頁面時積累并記錄信息;再高一級是在整個長任務中追蹤不斷變化的狀態;最高級的是跨越多個獨立任務保留記憶,比如"刪掉我剛才創建的前兩條筆記"。

當AI在某道題上失敗時,研究團隊可以對照這張能力矩陣,精確地找到是哪個維度、哪個難度級別出了問題,而不只是記錄一個"失敗"的結果。

四、考試結果:全軍覆沒的成績單

研究團隊找來了目前業界最強的一批AI手機助手來應考,包括螞蟻集團自家的UI-Venus系列、阿里的Qwen3-VL系列、專門為手機操作訓練的GUI-Owl和MAI-UI等開源模型,以及用谷歌Gemini-3-Pro和OpenAI GPT-5.1作為"大腦"、配合UI-Venus-72B執行操作的商業級方案。

成績出來,場面相當難看。最強的商業方案Gemini-3-Pro加UI-Venus-72B的組合,總體成功率只有36.9%。也就是說,接近三分之二的任務都沒有完成。其余的開源模型更是慘烈,大多數成功率低于15%,Qwen3-VL-8B和GUI-Owl-7B只有6.7%。

這個數字和同一批AI在AndroidWorld(目前業界最主流的舊式評測基準)上的成績相比,差距觸目驚心——平均成功率下降了約50個百分點。換句話說,同一個AI,在舊考試里考了七八十分,在這套新考試里只能考二三十分甚至更低。這說明舊考試確實存在嚴重的"放水"問題,高分并不代表真正有用。

從具體題目類型來看,界面狀態感知和視覺操作是最難攻克的兩類,所有模型的平均成功率分別只有2.5%和4.2%,幾乎全軍覆沒。噪聲抵抗類題目表現稍好,但也只有32.1%的平均成功率,而且高度依賴模型規模——Gemini-3-Pro能達到75%,而小模型們卻普遍跌到個位數。

通過PUDAM框架的細粒度分析,研究團隊找到了失敗的根本原因所在。在所有能力維度中,記憶能力是最致命的瓶頸。幾乎所有的開源小模型,在需要長期追蹤狀態的高難度記憶任務中,成功率接近于零。即使是體量更大的Gemini-3-Pro,記憶維度的成功率也從基礎任務的41%跌到了高難度任務的31%。這說明問題不僅僅是模型不夠大,而是現有的AI在架構層面就缺少持續追蹤信息的機制——單純地擴大"上下文窗口"(也就是AI一次性能記住的內容長度)是不夠的,需要專門設計的狀態追蹤機制。

感知能力是第二個明顯瓶頸,從基礎任務到高難度任務,平均成功率從17.5%跌到10.3%。特別是動態畫面感知——當屏幕上有內容在實時變化時,幾乎所有AI都不知所措。決策能力在高難度場景中也出現了崩潰,大多數開源模型在需要反思和糾錯的任務中跌入個位數,說明它們本質上還是在執行預設腳本,一旦遭遇意外情況就束手無策。

五、穩定性測試:換個皮膚就不認識了

穩定性評測子集的結果揭示了另一個令人不安的現實。

研究團隊給20道基礎題分別出了四種變體,最終統計每個AI能否在全部五種條件下都答對同一道題。這個叫做"穩定通過率"的指標,代表的是AI在輕微的條件變化下是否依然可靠。結果是:絕大多數模型的穩定通過率為零。即使是最強的Gemini-3-Pro組合,穩定通過率也只有15%。GPT-5.1組合是5%,其余全部是0%。

這意味著,哪怕只是把指令從英文翻成中文,或者把手機界面切換成深色模式,又或者換成平板橫屏顯示,本來就有不穩定通過概率的任務,就徹底做不到了。其中影響最大的是平板橫屏模式——很多AI在豎屏手機布局上訓練出來,一換成橫版平板布局,界面元素的位置關系完全變了,AI就徹底迷路。這暴露出一個根本問題:現有AI的"能力"更像是對特定視覺模式的記憶,而不是真正理解了界面背后的邏輯。

六、算力開銷:多想一步要付出多大代價

研究團隊還測量了每個AI在完成任務時消耗的計算資源,用輸出的文字令牌數量來衡量(這也是決定使用商業AI時API費用高低的關鍵指標)。

在單模型方案里,UI-Venus-72B(720億參數的大模型)消耗了85萬個令牌,而GPT-5.1只消耗了16.75萬個令牌,每一步平均只用54.6個令牌,是所有模型里最經濟的,暗示它在處理視覺輸入時用了更高效的壓縮方式。

最引人注目的開銷來自"多智能體框架"——這是一種讓AI通過內部多輪討論和反思來提升效果的方案,由Mobile-Agent-v3加GUI-Owl-7B實現。這套方案消耗了164萬個令牌,每步平均438.7個,是單獨使用GUI-Owl-7B的三倍。這說明"讓AI多想幾步"會帶來巨大的計算開銷,對于需要在手機上實時運行的邊緣部署場景來說,這是一個必須認真對待的工程挑戰。

說到底,這項研究戳穿了一個流行的神話:那些在測評排行榜上大放異彩的AI手機助手,其實并沒有我們想象的那么能干。舊式考試太簡單,太像教科書上的標準題,而真實的用戶需求復雜、模糊、充滿干擾和意外。螞蟻集團這套考試框架,相當于第一次把AI助手放到了接近真實的"工作場景"里來考核,結果自然原形畢露。

更有價值的是能力診斷框架。知道AI"考了15分"不如知道AI"在記憶和感知方面存在根本性缺陷"——后者才能告訴研究者下一步該怎么改進。這就像是從"你這次考試不及格"升級到"你的閱讀理解和長篇綜合題需要重點補強",指導意義天壤之別。

對于普通用戶來說,這項研究傳遞的信息很實際:目前市面上的AI手機助手,在簡單的單步操作上確實有用,但如果你指望它幫你完成一件跨越多個步驟、需要在不同App之間來回切換的復雜任務,出錯的概率相當高。在AI手機助手真正可靠地進入我們的日常生活之前,還有相當長的路要走。

Q&A

Q1:VenusBench-Mobile和AndroidWorld這類老測評基準的區別是什么?

A:AndroidWorld等舊基準主要圍繞某款App的具體功能出題,題目路徑固定,AI只要按預設步驟操作就能得高分,但這和真實用戶的使用場景差距很大。VenusBench-Mobile從用戶真實需求出發設計題目,涵蓋模糊指令、沖突處理、多輪對話、動態界面感知等十大類場景,并加入了深色模式、平板橫屏、中文指令等變體測試,更貼近實際使用中的復雜情況。

Q2:PUDAM框架具體是如何幫助診斷AI問題的?

A:PUDAM把AI需要的核心能力拆分成感知、理解、決策、操作、記憶五個維度,每個維度分四個難度級別。當AI做某道題失敗時,可以對照這個框架判斷是哪個維度出了問題。比如AI在瀏覽多頁信息后忘記之前讀到的內容,就屬于記憶維度的高難度級別缺陷,而不只是籠統地"失敗了"。這種診斷方式能給AI研究者提供明確的改進方向。

Q3:為什么AI手機助手在平板橫屏模式下成功率會大幅下降?

A:現有的AI手機助手大多在豎屏手機的界面截圖上訓練,學到的更多是對特定視覺布局的記憶,而非對界面邏輯的真正理解。一旦切換到平板橫屏模式,同樣的App界面元素位置、比例和排列方式都會發生變化,AI就像在一個重新擺放了家具的房間里找東西,很容易迷路。這暴露出當前AI缺乏對界面結構的抽象理解能力。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
理想高管:理想汽車雙層夾膠玻璃取得重大突破 出廠自帶2000塊的防曬膜

理想高管:理想汽車雙層夾膠玻璃取得重大突破 出廠自帶2000塊的防曬膜

快科技
2026-04-21 15:51:06
切爾西五連敗創113年紀錄,主帥為何把鍋甩給球員?

切爾西五連敗創113年紀錄,主帥為何把鍋甩給球員?

熱血體育社
2026-04-22 05:49:00
難怪特朗普對伊朗慫了,美國情報部門評估結果出爐,確實沒法打了

難怪特朗普對伊朗慫了,美國情報部門評估結果出爐,確實沒法打了

溫讀史
2026-04-22 00:27:49
梅開二度助國米逆轉科莫,恰爾汗奧盧達成國米生涯50球里程碑

梅開二度助國米逆轉科莫,恰爾汗奧盧達成國米生涯50球里程碑

懂球帝
2026-04-22 05:08:22
1960年閻錫山去世,臨終前留下奇怪遺言:我死后你們不要放聲大哭

1960年閻錫山去世,臨終前留下奇怪遺言:我死后你們不要放聲大哭

云霄紀史觀
2026-04-22 01:31:13
人窮能卑微到什么地步?網友說:一個男人兩千塊買了我三個晚上!

人窮能卑微到什么地步?網友說:一個男人兩千塊買了我三個晚上!

黯泉
2026-04-14 12:13:04
漢語犧牲了什么,才成為如今最高效的語言

漢語犧牲了什么,才成為如今最高效的語言

刺頭體育
2026-04-20 15:36:12
北京大興某國際學校現狀點評

北京大興某國際學校現狀點評

手工制作阿愛
2026-04-21 21:30:37
獲取北京房產、車牌越來越容易,只有戶口最難

獲取北京房產、車牌越來越容易,只有戶口最難

新浪財經
2026-04-21 23:08:07
600421,業績“變臉”,預計退市

600421,業績“變臉”,預計退市

新浪財經
2026-04-21 20:59:02
穆斯卡特:球隊上下半場表現涇渭分明,過高期待會給楊希壓力

穆斯卡特:球隊上下半場表現涇渭分明,過高期待會給楊希壓力

懂球帝
2026-04-21 23:06:08
1979年打越南,高層其實吵翻了天?葉劍英粟裕為何反對出兵?

1979年打越南,高層其實吵翻了天?葉劍英粟裕為何反對出兵?

勇哥讀史
2026-04-21 07:52:13
新一輪四大名著翻拍潮來了,高希希和正午陽光正面競爭《三國》

新一輪四大名著翻拍潮來了,高希希和正午陽光正面競爭《三國》

歪歌社團
2026-04-17 01:45:20
蘇契奇:我們配得上逆轉科莫;雙冠王?我來國米就是為了勝利

蘇契奇:我們配得上逆轉科莫;雙冠王?我來國米就是為了勝利

懂球帝
2026-04-22 06:02:26
炸翻全球軍界!沙特怒砸120億買斷中國神裝,美軍徹底被踢出局

炸翻全球軍界!沙特怒砸120億買斷中國神裝,美軍徹底被踢出局

風信子的花
2026-04-21 14:31:44
10年麻將館老板娘口述:凡是愛打牌的,沒一個日子過得好

10年麻將館老板娘口述:凡是愛打牌的,沒一個日子過得好

蘭亭墨未干
2026-04-11 00:28:10
俄軍總參謀長稱已完全控制盧甘斯克地區

俄軍總參謀長稱已完全控制盧甘斯克地區

財聯社
2026-04-21 17:16:23
央視一位優秀主持人,原來已經前年去世。

央視一位優秀主持人,原來已經前年去世。

歲月有情1314
2026-04-22 01:58:37
李綺虹移居加拿大22年,直言住在人口稀少城市,每天素顏生活儉樸

李綺虹移居加拿大22年,直言住在人口稀少城市,每天素顏生活儉樸

陳意小可愛
2026-04-19 18:15:30
1場10-7后,希金斯改寫2大紀錄!75雙雄或會師,賀國強阻擊火箭?

1場10-7后,希金斯改寫2大紀錄!75雙雄或會師,賀國強阻擊火箭?

劉姚堯的文字城堡
2026-04-21 08:24:03
2026-04-22 06:28:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業世界
8088文章數 562關注度
往期回顧 全部

科技要聞

創造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經要聞

現實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

健康
數碼
房產
家居
公開課

干細胞抗衰4大誤區,90%的人都中招

數碼要聞

大疆DJI Mic Mini 2發布:329元起 可更換麥克風磁吸前蓋

房產要聞

年薪40-50萬!海南地產圈還在猛招人

家居要聞

詩意光影 窺見自然之境

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版