![]()
這項由浙江大學多個團隊聯合開展的研究,以預印本形式發布于2026年4月,論文編號為arXiv:2604.11784,有興趣深入了解技術細節的讀者可以通過該編號檢索完整論文。
手機屏幕是現代人生活的核心戰場。打開微信、刷視頻、訂外賣、設置鬧鐘——這些日常操作對人來說輕而易舉,但對AI來說卻是一座難以翻越的高山。不像讓AI寫文章或回答問題,操控手機需要AI真正"看懂"屏幕,然后用手指去點擊、滑動、輸入文字,就像一個真實的人類用戶在使用手機一樣。這類能夠像人一樣操作圖形界面的AI,被研究者稱為"GUI智能體"(Graphical User Interface Agent)。
過去兩年里,這個領域的研究像雨后春筍般涌現,但有一個讓所有研究者頭疼的問題始終沒有解決:大家各自做研究、各自跑實驗、各自報告數字,卻沒有一套統一的工具鏈把訓練、評測和實際部署串在一起。就好像廚師們各自研發菜譜,但廚房設備不通用、食材計量不統一、菜端上桌的方式也各不相同——最終沒人能比較誰做的更好,更沒法讓普通食客真正吃到這道菜。
浙江大學的研究團隊正是為了解決這個問題,開發了ClawGUI這套完整的工具鏈。它的名字暗含"爪子"之意,象征著AI用爪子(手指)去抓取和操控手機屏幕。這套框架把訓練AI、測試AI、把AI部署到真實手機上這三件事,統統裝進了同一個工具箱,讓研究者和普通用戶都能從中受益。
一、為什么給AI教會"用手機"這么難?
在正式介紹ClawGUI之前,需要先搞清楚這個問題:為什么訓練一個會操作手機界面的AI,比想象中困難得多?
回到廚房的比喻。假設你要訓練一個廚師學徒,需要三件事同時到位:一是要有一個真實的廚房讓他練手(這是"訓練環境"的問題);二是要有一套公平的評分標準判斷他做得好不好(這是"評測"的問題);三是要有辦法讓他畢業后真的去餐廳工作(這是"部署"的問題)。現有的GUI智能體研究,這三件事全都卡殼了。
在訓練環境方面,目前確實有一些研究團隊使用強化學習(Reinforcement Learning,簡單理解就是讓AI通過反復試錯來學習,成功了給獎勵,失敗了扣分)來訓練GUI智能體,效果也不錯。但這些團隊都沒有公開自己的訓練系統,外界無法復現。更嚴重的是,所有訓練都在虛擬手機模擬器里進行,沒有人嘗試在真實物理手機上訓練。而且手機模擬器本身非常脆弱,跑著跑著就會崩潰,訓練過程極不穩定。
在評測方面,問題同樣棘手。各個論文報告的數字根本沒法互相比較——同一個AI模型,用不同的提問方式、不同的圖片分辨率、不同的坐標計算方式,得出的測試分數可以差好幾個百分點。一篇論文說自己的AI在某個測試集上提高了2%,但誰也不知道這2%是真的進步,還是換了一種更巧妙的提問方式帶來的。
在部署方面,就更慘了。實驗室里訓練好的AI幾乎從來不會真正出現在普通用戶手中。研究者要么把代碼放在GitHub上等別人自己折騰,要么只支持某一款安卓手機,換個系統就不行了,更談不上什么個性化記憶或者跨平臺使用。
ClawGUI就是為了同時堵上這三個漏洞而生的。
二、訓練場:給AI搭建一個穩定的手機練習室
ClawGUI的第一個核心模塊叫做ClawGUI-RL,專門負責訓練AI。RL是"Reinforcement Learning"的縮寫,也就是強化學習的意思。
這套訓練系統最核心的設計是一個"環境管理器",可以理解為一個能同時管理幾十個虛擬手機的調度員。訓練的時候,這些虛擬手機同時運行,每臺手機都在執行不同的任務,AI則在這些任務中反復練習。每當一臺虛擬手機崩潰或者卡死,調度員就會自動把它替換成一臺新的備用機器,確保訓練不會中斷。這個設計解決了之前虛擬環境容易崩潰導致訓練失敗的老大難問題。
更難得的是,ClawGUI-RL是第一個公開支持在真實物理手機上訓練的系統。在真實手機上訓練和在模擬器里訓練有本質的區別。模擬器里,研究者可以直接讀取手機系統的底層數據來判斷任務是否完成——比如直接查看數據庫里有沒有新增一條聯系人記錄。但真實手機沒有這個權限,沒法直接讀取系統數據。ClawGUI-RL的解決方案是讓另一個強大的多模態AI來當"裁判",通過觀察任務執行完成后的手機截圖,判斷AI有沒有把事情做對。這個裁判AI就像一個監考老師,看著屏幕上的最終結果來打分,不需要翻看學生的考試過程。
在獎勵設計上,ClawGUI-RL采用了一種非常聰明的雙層獎勵機制。基礎層是一個簡單粗暴的二元判斷:任務完成給1分,失敗給0分。但問題在于,操控手機往往需要十幾步甚至幾十步操作,只在最后告訴AI"你失敗了",AI根本不知道是哪一步走錯了,就像考試只給最終成績而不告訴你錯在哪道題。
為了解決這個問題,ClawGUI-RL引入了"過程獎勵模型"(Process Reward Model,PRM)。這個模型會在AI每執行一步操作之后,立刻評判這步操作有沒有朝著目標方向前進。比如AI要發一條微信消息,先打開微信應用——好,這步方向對了;然后找到目標聯系人——好,繼續前進;接著點擊輸入框——對;最后輸入內容并發送——完成!整個過程中每一步都有即時反饋,而不是等到最后才知道對錯。這樣AI就能學到哪些中間操作是有價值的,哪些是在浪費時間。
在具體的訓練算法選擇上,ClawGUI-RL同時支持兩種方法:GRPO和GiGPO。可以把GRPO理解為"按軌跡打分"——整段操作完成后,把這段操作整體與其他嘗試比較,評出高下。這對短任務很管用,但對于需要幾十步操作的復雜任務,就顯得太粗糙了。GiGPO則更精細,它會把不同嘗試中遇到相同中間狀態的操作步驟歸組,分別比較每個節點上各個AI的選擇孰優孰劣,從而給出更細粒度的評分。這就好比教練不只看運動員最終跑了多少分鐘,還會分析每一個彎道上的跑姿是否標準。
三、考場:讓AI測試成績真正可比較
訓練好了AI之后,怎么知道它究竟有多強?這就需要ClawGUI的第二個核心模塊——ClawGUI-Eval,一個標準化評測流水線。
這個模塊的核心理念是:把整個評測過程拆成三個嚴格分離的階段,分別是"推理""評判"和"計算指標"。就像流水線上的三個工位各司其職,任何一個工位出了問題都可以單獨返工,而不需要把整條流水線全部重跑一遍。
第一個工位"推理"負責讓AI模型看題作答,生成原始預測結果。這個工位支持兩種接入方式:一種是在本地GPU上直接運行模型,另一種是通過API遠程調用模型。多塊GPU可以并行工作,而且如果中途斷了,可以從斷點續跑,不需要從頭開始。第二個工位"評判"負責把AI的答案和標準答案對比,判斷每道題對不對。針對不同類型的題目,有專門的評判邏輯。比如標準的GUI定位題,判斷AI點擊的坐標是否落在目標元素的范圍框內;針對多步操作題,則有專門的多步驟評判器。第三個工位"計算指標"把所有判斷結果匯總成最終分數,并且按照平臺類型、界面元素類別、任務類型等不同維度細分,讓研究者能看清楚AI到底在哪些地方強、在哪些地方弱。
ClawGUI-Eval覆蓋了6個主流評測基準,包括ScreenSpot-Pro(專注于高分辨率桌面界面的定位測試)、ScreenSpot-V2、UI-Vision(桌面GUI的視覺感知與交互測試)、MMBench-GUI(多平臺層次化評估)、OSWorld-G(操作系統級別的界面定位)以及AndroidControl(安卓端的操作控制)。同時支持超過11個主流AI模型,涵蓋Qwen3-VL、Qwen2.5-VL、UI-TARS、MAI-UI、GUI-G?、UI-Venus、GUI-Owl、StepGUI、Gemini以及Seed 1.8等。
為了驗證這套標準化流水線的可靠性,研究團隊把自己重新跑出來的成績與各個模型官方公布的數字逐一對比,結果達到了95.8%的復現率——也就是說,在有官方數字可以對比的48組數據中,46組的誤差在2%以內或超過官方數字。這個成績相當漂亮,基本證明了ClawGUI-Eval的標準化做到位了。
僅有兩組復現失敗,恰恰發生在那些沒有公開評測配置細節的模型上。這個發現本身就很有說服力:GUI評測的可重復性問題,根子在于配置細節沒有透明化,而不是評測這件事本身就無法標準化。
對于無法直接調用的閉源商業模型,研究團隊還設計了一種叫"縮放范式"(Zoom paradigm)的兩階段處理方法。簡單說就是先把高分辨率大圖切成多個小塊分別送給模型看,再從各個小塊的定位結果還原到整張圖上的坐標。用Gemini模型測試時切成25%大小的瓦片,用Seed模型時切成50%的瓦片,這樣處理后成功復現了官方數字,而且完全不需要接觸模型內部結構。
四、出門上崗:把訓練好的AI真正裝進手機
前兩個模塊解決了訓練和評測的問題,第三個模塊ClawGUI-Agent要解決最后一公里的問題:把AI真正送到用戶手中,在真實手機上為真實用戶服務。
這個模塊支持安卓、鴻蒙和iOS三大手機操作系統,同時接入了包括飛書、釘釘、Telegram、Discord、Slack、QQ在內的超過12個聊天平臺。用戶只需要在自己日常用的聊天軟件里給AI發一條消息,AI就能去操控手機完成任務,執行完后把結果回復給用戶。這就好像你有一個遠程秘書,你在微信里說"幫我訂一張明天去上海的高鐵票",秘書就用你的手機把這件事辦完,然后告訴你票已經訂好了。
ClawGUI-Agent還支持兩種控制模式。"遠程控制模式"是你用另一臺設備通過聊天軟件來控制目標手機,適合需要遠程管理手機的場景。"本地控制模式"則是直接在手機本身上運行的聊天軟件里發指令,AI直接接管這臺手機操作,不需要額外的硬件或云端中繼。
在操控手機的具體方式上,ClawGUI-Agent采取了一種"CLI+GUI混合控制"策略。CLI是命令行界面(Command Line Interface)的縮寫,可以理解為通過程序代碼直接給手機系統下命令,效率極高,一條指令就能完成普通用戶需要點擊好幾個頁面才能完成的操作。GUI控制則是像人一樣去看屏幕、點按鈕、滑屏幕,覆蓋范圍更廣,任何應用都能控制,但需要的步驟更多。這兩種方式各有優劣,ClawGUI-Agent的策略是優先用CLI處理有程序接口的任務,遇到沒有程序接口的應用再切換到GUI控制。這種混合策略既保留了CLI的高效,又確保了GUI的廣覆蓋。
ClawGUI-Agent還有一個個性化記憶系統,是整個框架中相當有溫度的一個設計。AI在執行任務的過程中,會自動從互動中提取結構化信息,比如你常用的應用、你的聯系人關系、你的使用習慣和偏好,然后把這些信息以向量嵌入的形式存儲起來。下次你再發指令的時候,系統會檢索出與當前任務最相關的歷史記憶,注入到AI的上下文里,讓AI能認出你說的"我媽"是指哪個聯系人,知道你每天早上9點開會,知道你偏好用某個外賣平臺。重復的記憶條目會被合并而不是累積,確保記憶庫保持精簡和相關性。
更有趣的是,ClawGUI-Agent把前面介紹的評測模塊ClawGUI-Eval也打包成了一個可以直接調用的"技能"。研究者不需要寫任何代碼,只要對著聊天窗口說一句"幫我評測Qwen3-VL在ScreenSpot-Pro上的表現",系統就會自動完成環境檢查、啟動多GPU并行推理、運行評判器、計算指標、生成報告這一整套流程,最后把結構化的成績單發給你,還附上與官方數字的對比。
五、訓練成果:用2B參數的小模型超越72B的大模型
ClawGUI-2B是研究團隊在這套框架里端到端訓練出來的一個成果模型,基于MAI-UI-2B(一個由行業團隊發布的2B參數基礎模型)繼續用強化學習訓練而來。訓練使用了64個并行虛擬手機環境,運行在8塊A6000 GPU上,采用GiGPO算法,批次大小為8,訓練了3個輪次。步級獎勵的評判工作交給Qwen3.5-72B這個大模型來完成。
評測在MobileWorld基準上進行,這是一個在線交互式測試集,專門用來衡量GUI智能體完成真實移動端任務的端到端能力。研究團隊重點關注其中的"GUI-Only"分組,共117個任務,要求AI純靠視覺操控完成真實手機上的任務,不借助任何程序接口。成功率的定義很直接:AI在規定步數(最多50步)內完成任務就算成功。
ClawGUI-2B在這個測試上取得了17.1%的成功率。這個數字乍看不高,但對比其他選手就很能說明問題了。同等參數規模的MAI-UI-2B只有11.1%,ClawGUI-2B比它高出整整6個百分點,而且兩者的起點是同一個基礎模型,差距完全來自ClawGUI-RL這套訓練基礎設施的貢獻。
更引人注目的對比來自那些體量大得多的模型。Qwen3-VL-32B是ClawGUI-2B的16倍大,成績卻只有11.9%。UI-Venus-72B是ClawGUI-2B的36倍大,成績也只有16.4%,還比ClawGUI-2B低了0.7個百分點。換句話說,一個經過精良訓練的2B小模型,在真實手機操控任務上能打敗36倍于自身體積的模型,這件事本身就很有意義——說明在這個領域,訓練方式的質量比模型的原始參數量更重要。
當然,頂部還有一個完全不同的競爭梯隊:把超強的商業大模型(如Gemini-3-Pro、GPT-5、Claude-4.5-Sonnet)和專門的界面定位小模型組合在一起的"框架型方案",成績最高能到55.6%。但這類方案依賴閉源的商業模型,無法自己端到端訓練,更適合作為參考對象而不是競爭對手。
在GRPO和GiGPO的對比測試中,兩者使用完全相同的其他設置,唯一差別在于獎勵的粒度。GRPO只給每條軌跡整體打分,成績是14.5%;換成GiGPO之后,成績提升到17.1%,相對提升幅度達到17.9%。這個對比直接證實了一件事:在需要幾十步操作的復雜任務中,每一步的細粒度信用分配對于AI的學習質量有實質性影響,不是細枝末節。
說到底,ClawGUI做的事情看起來像是在修繕工具箱,而不是發明一件驚天動地的新武器。但正是這種扎扎實實的基礎設施建設,往往才是推動一個領域真正成熟的關鍵。GUI智能體這個領域已經有很多聰明的想法和模型,缺的恰恰是一個大家都能用、都能對比、都能把成果真正送到用戶手里的統一平臺。
這對于普通用戶意味著什么?最近幾年,AI助手的能力已經讓很多人感到震驚,但"能和你聊天"和"能替你操作手機"之間還有很長的距離。ClawGUI這套框架的價值,在于它把這條路上最難走的幾段工程問題都鋪平了,讓后續的研究者可以踩著這塊基石繼續往前走。按照這個方向發展下去,在不遠的未來,一個真正能在手機上替你處理日常雜務、記住你的習慣、跨多個平臺無縫工作的AI助手,變得更加可期。
如果你對這套框架的技術細節感興趣,可以通過論文編號arXiv:2604.11784找到完整論文,所有代碼也已開源在GitHub上的zju-real/ClawGUI倉庫。不妨思考一個問題:當AI真正能像人一樣熟練操控手機之后,你最希望它幫你處理哪件日常雜事?
Q&A
Q1:ClawGUI和普通的AI手機助手有什么區別?
A:普通AI手機助手(比如Siri或小愛同學)主要靠調用系統級API完成任務,覆蓋范圍有限。ClawGUI訓練出來的GUI智能體是直接"看屏幕、點按鈕"來操控手機,和人類用手機的方式一樣,理論上可以操作任何應用,不需要應用開放專門的接口。ClawGUI還是一套完整的研究工具鏈,同時解決了訓練、評測和部署三個環節的問題。
Q2:ClawGUI-2B成績只有17%,是不是表現很差?
A:這個數字需要放到具體背景里理解。MobileWorld GUI-Only測試的117個任務要求AI純靠視覺操控完成真實手機操作,任務難度相當高。17.1%的成績在同等規模的開源端到端模型里處于領先位置,比參數量大得多的Qwen3-VL-32B(11.9%)和UI-Venus-72B(16.4%)都要高。頂部成績超過50%的方案依賴閉源商業大模型,不在同一個可比較的類別里。
Q3:GiGPO和GRPO的區別對普通用戶有影響嗎?
A:直接影響不大,但間接影響明顯。GiGPO通過給每一步操作單獨打分,讓AI學得更精準,最終體現在任務完成率上——同樣的訓練資源和基礎模型,用GiGPO訓練比用GRPO訓練成功率高了約17.9%(從14.5%到17.1%)。對于普通用戶來說,這意味著AI更少在中途走彎路,完成任務的概率更高、速度更快。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.