![]()
港中深聯(lián)合騰訊混元首次系統(tǒng)揭示:手機(jī) Agent 真正卡落地的,不只是成功率,而是隱私邊界。
這兩年,Agent 的風(fēng)向已經(jīng)很明顯了。
從會(huì)聊天、會(huì)寫代碼,到會(huì)自己看界面、點(diǎn)按鈕、填表單,Agent 正在一步步接管真實(shí)設(shè)備操作。OpenClaw、Claude Computer Use 這一類系統(tǒng)火起來之后,大家開始越來越認(rèn)真地討論一件事:
Agent 不是個(gè)聊天框了,它真的開始接近"幫你做事"的階段了。
而一旦 Agent 開始往手機(jī)里走,一個(gè)更現(xiàn)實(shí)的問題就來了:
你敢把它真的放在手機(jī)上跑嗎?
不是因?yàn)樗粫?huì)做事,恰恰相反,是因?yàn)樗赡?做過頭"。
它可能會(huì)多要一步權(quán)限,多填一個(gè)本來不該填的框,甚至把你的手機(jī)號又交給一個(gè)你根本沒注意到的小入口。這些都不是黑客攻擊,也不是惡意 prompt。它們就發(fā)生在最正常、最日常的手機(jī)任務(wù)里。
圍繞這個(gè)問題,港中深FreedomAI團(tuán)隊(duì)聯(lián)合騰訊混元視覺大模型團(tuán)隊(duì)、港中文、港大、港科、上海交大合作完成了一項(xiàng)新工作。它最重要的意義,不是再多做一個(gè)榜,而是第一次讓行業(yè)能認(rèn)真回答:
手機(jī) Agent 在完成正常任務(wù)的過程中,是否真的守住了用戶隱私邊界?
? 論文:Do Phone-Use Agents Respect Your Privacy?
? 代碼:https://github.com/FreedomIntelligence/MyPhoneBench
? Leaderboard: https://freedomintelligence.github.io/MyPhoneBench/
? 軌跡數(shù)據(jù):MyPhoneBench-Trajectories
01
一個(gè)點(diǎn)漢堡的任務(wù),為什么會(huì)讓人后背發(fā)涼?
先看一個(gè)最生活化的例子。下面這張圖把這個(gè)問題講得非常直白:同樣只是點(diǎn)個(gè)漢堡,Agent 卻可能在過程中一步步把用戶信息交出去。
![]()
你讓手機(jī) Agent 在肯德基小程序里幫你點(diǎn)個(gè)漢堡,聽起來再正常不過了。
但看看它實(shí)際做了什么:
? 先是未經(jīng)你確認(rèn)就獲取了手機(jī)號;
? 接著自己輸入了短信驗(yàn)證碼;
? 然后開啟了持久登錄;
? 最后頁面彈出一個(gè)領(lǐng)優(yōu)惠券的營銷彈窗,它又順手把你的手機(jī)號填了進(jìn)去。
整個(gè)任務(wù)表面上當(dāng)然"成功"了。漢堡能點(diǎn),流程能跑,頁面能繼續(xù)往下走。
但問題是:
一個(gè)點(diǎn)漢堡的任務(wù),為什么最后會(huì)變成手機(jī)號被額外交給一個(gè)營銷入口,驗(yàn)證碼也被直接填寫?
這就是手機(jī) Agent 最讓人不安的地方。
它不是不會(huì)做,而是太會(huì)做了。它會(huì)自己把一件事做完整,甚至"多做一點(diǎn)"。但這種"多做一點(diǎn)",很多時(shí)候恰恰就是越界的開始。
所以,手機(jī) Agent 真正卡落地的,可能不是成功率,而是隱私。
02
大家都在卷"能不能做成",
但用戶會(huì)關(guān)心"別越界"
今天很多人看手機(jī) Agent,第一反應(yīng)還是:
? 它能不能跨頁面操作?
? 它能不能把流程跑通?
? 它能不能把外賣點(diǎn)好、把酒店訂好、把事辦完?
這些當(dāng)然重要。
但如果手機(jī) Agent 真要進(jìn)入真實(shí)生活,光看"做沒做成"其實(shí)遠(yuǎn)遠(yuǎn)不夠。因?yàn)槭謾C(jī)不是普通 GUI。手機(jī)里裝的不是一個(gè)網(wǎng)頁,而是:
? 你的手機(jī)號
? 你的住址
? 你的病史和藥物信息
? 你的出行偏好
? 你的支付相關(guān)信息
? 以及越來越多 Agent 想長期保存的"關(guān)于你"的記憶
也就是說,手機(jī) Agent 面對的不是"一個(gè)任務(wù)",而是"一個(gè)人的生活"。
所以手機(jī) Agent 真正難的,不是"會(huì)不會(huì)點(diǎn)",而是:
它會(huì)不會(huì)邊幫你做事,邊順手越界。
問題在于,今天很多評測其實(shí)看不見這些。
現(xiàn)有不少工作主要還是看:
? 任務(wù)有沒有完成;
? 頁面有沒有走到目標(biāo)狀態(tài);
? 最終結(jié)果是不是對的。
但它們通常回答不了這些問題:
? Agent 有沒有多申請權(quán)限?
? 有沒有把本來可選的信息也填了?
? 有沒有把手機(jī)號又交給一個(gè)不必要的小入口?
? 有沒有在后續(xù)任務(wù)里亂用之前保存的偏好?
換句話說,今天很多評測回答的是:
它能不能把事辦成?
但回答不了:
它在把事辦成的過程中,有沒有順手把用戶隱私"辦沒了"?
03
這項(xiàng)工作的關(guān)鍵,不是再做一張榜,
而是第一次把"越界"這件事真正看清楚
這項(xiàng)工作的最大價(jià)值,在于它第一次把手機(jī) Agent 的隱私問題,做成了一件:
? 過程可見
? 規(guī)則可驗(yàn)
? 結(jié)果可比較
的現(xiàn)實(shí)問題。
更直白一點(diǎn)說,就是第一次讓行業(yè)能認(rèn)真檢查:
一個(gè)手機(jī) Agent 到底值不值得被交給用戶。
它主要做了三件事。
第一,把"什么叫越界"先說清楚
很多時(shí)候大家會(huì)說,Agent 要尊重隱私。但問題是,什么叫尊重?什么叫越界?
如果這件事說不清楚,后面就根本沒法測。
先別急著看后面的評估,第一件事其實(shí)是把規(guī)則說清楚:哪些信息默認(rèn)能用,哪些必須先申請,哪些記憶能留到后面再用,以及這些記憶最終由誰來管。下面這個(gè)界面最關(guān)鍵的,不只是把數(shù)據(jù)分成 LOW 和 HIGH 兩檔,而是把"Agent 能用什么、什么時(shí)候必須先問、已經(jīng)記住了什么、用戶能不能管"都擺到了臺面上。
![]()
所以這項(xiàng)工作先設(shè)計(jì)了一套叫iMy的隱私交互協(xié)議。你可以把它理解成:先把 Agent 在手機(jī)上"該怎么拿數(shù)據(jù)、什么時(shí)候該先問、什么能記下來、最后由誰說了算"這件事講清楚。
簡單來說:
? 普通信息,Agent 可以直接用;
? 敏感信息,必須先申請,用戶點(diǎn)頭后才能拿;
? 真正學(xué)到的用戶偏好,可以保存下來;
? 但這些記憶不是 Agent 自己偷偷留著,而是用戶隨時(shí)都能看到、修改、刪除;
? 如果它拿不準(zhǔn),就先問,而不是自己猜。
這套設(shè)計(jì)最關(guān)鍵的地方,不只是"給數(shù)據(jù)分級",而是讓 Agent 的每一步都帶著邊界,也讓用戶始終握著最后的控制權(quán)。
第二,把手機(jī)里的關(guān)鍵過程變成"能看見"
真實(shí)商業(yè) App 大多是黑盒。
你可能只看到 Agent 最后把任務(wù)做成了,但你根本不知道它中間到底往哪個(gè)框里填了什么。
所以這項(xiàng)工作從頭做了10 個(gè) mock Android apps,覆蓋醫(yī)療、餐飲、訂房、政務(wù)、外賣、保險(xiǎn)、活動(dòng)服務(wù)等多個(gè)高頻手機(jī)場景。
最關(guān)鍵的是,這些 App 不只是給 Agent 一個(gè)界面,還會(huì)把關(guān)鍵輸入過程完整記錄下來。
于是你終于能真正看見:
? 它讀了什么;
? 它填了什么;
? 它有沒有多填、亂填、重復(fù)填。
第三,把最常見的越界行為壓成幾類可以重復(fù)檢查的問題
團(tuán)隊(duì)沒有把"隱私"做成一堆空泛口號,而是把手機(jī) Agent 最常見的風(fēng)險(xiǎn)壓成了幾類非常具體的問題。如果把手機(jī) Agent 最容易出事的地方壓縮一下,基本就濃縮成下面這三類:多要數(shù)據(jù)、把信息又交給一個(gè)不必要的小入口、以及把本來不用填的也順手填了。
![]()
1)它會(huì)不會(huì)多要你的信息?
任務(wù)不需要,但它還是去申請、去讀取。
2)它會(huì)不會(huì)把你的信息又填進(jìn)一個(gè)看起來正常、其實(shí)根本沒必要的小框里?
比如頁面里多出來一個(gè)"優(yōu)惠提醒""優(yōu)先預(yù)約""活動(dòng)通知""營銷入口"之類的小模塊,看著挺合理,但當(dāng)前任務(wù)根本不需要它。如果 Agent 只是看到"這里也能填手機(jī)號",就順手填了,那就是多一次沒必要的暴露。
3)它會(huì)不會(huì)把本來不用填的隱私項(xiàng)也順手填了?
這也是最隱蔽的一類。不是因?yàn)樗粫?huì)做,恰恰是因?yàn)樗氚咽虑樽鐾暾恕?/p>
最重要的是,這些檢查最后都不是靠 LLM 主觀打分,而是基于訪問日志、表單記錄和數(shù)據(jù)庫狀態(tài)去做規(guī)則驗(yàn)證。所以它不是"看起來像",而是真的能復(fù)現(xiàn)、能對比、能檢查。
04
三個(gè)最有意思的結(jié)論
這項(xiàng)工作一共評估了5 個(gè)前沿模型、10 個(gè) App、300 個(gè)任務(wù)。
如果把整篇工作的結(jié)果壓縮成最值得記住的三句話,我覺得是下面這三點(diǎn)。
第一,同樣一套工具,模型和模型之間的"邊界感"差別可能非常大
很多人會(huì)以為,只要給所有模型同樣的工具,最后差別主要就是誰更會(huì)做任務(wù)。
但這項(xiàng)工作里一個(gè)很直觀的觀察是:
同樣一套手機(jī)任務(wù)、同樣一套隱私協(xié)議,不同模型對邊界的理解會(huì)差很多。
下面這張圖看的就是這一點(diǎn)。
![]()
有的模型會(huì)先申請?jiān)僮x取,遇到不必要的字段會(huì)主動(dòng)跳過,任務(wù)做完還會(huì)順手把真正有價(jià)值的偏好保存下來;有的模型雖然也把任務(wù)做成了,但過程里已經(jīng)多要了不需要的數(shù)據(jù)、把手機(jī)號填進(jìn)了無關(guān)入口。
這說明,手機(jī) Agent 的差別不只是"誰更會(huì)點(diǎn)按鈕",更是"誰更知道什么時(shí)候該停一下"。能力和克制,并不是綁定出現(xiàn)的。
第二,最強(qiáng)的不一定最克制,而且沒有任何一個(gè)模型能三項(xiàng)全贏
這項(xiàng)工作同時(shí)看三條軸:
? 任務(wù)能不能做成;
? 能不能隱私合規(guī)地做成;
? 能不能在后續(xù)任務(wù)里正確使用之前保存的偏好。
結(jié)果非常反直覺:
"能把事做成"和"能在不越界的情況下把事做成",不是同一種能力。
而且,再進(jìn)一步看:
沒有任何一個(gè)模型能同時(shí)在任務(wù)成功、隱私表現(xiàn)、偏好遷移這三件事上都領(lǐng)先。
下面這張主結(jié)果表最值得看的,不是哪家排第一,而是第一名根本不是同一個(gè)模型——每換一個(gè)維度看,領(lǐng)先者就會(huì)變。
![]()
這其實(shí)很說明問題:今天的手機(jī) Agent,離"真正讓人放心交給它"還有明顯距離。
第三,當(dāng)前最普遍的問題,不是不會(huì)做,而是做過頭
這可能是整篇工作里最值得記住的一點(diǎn)。
很多人會(huì)以為手機(jī) Agent 最大的隱私風(fēng)險(xiǎn)來自奇怪彈窗、權(quán)限誤點(diǎn)或者對抗攻擊。但這項(xiàng)工作里最穩(wěn)定、最普遍的問題,其實(shí)更貼近日常,也更反直覺:
它太想把事情做完整了。
明明某個(gè)字段不是必須的,明明任務(wù)根本不需要,但因?yàn)樗呀?jīng)知道這個(gè)信息,于是它就順手填上了。這種風(fēng)險(xiǎn)最麻煩的地方在于,它不是明顯的錯(cuò)誤,而是**"看起來挺合理"的過度幫助**。
下面這張分析圖說明了這一點(diǎn):真正把模型拉開的,往往不是它會(huì)不會(huì)做任務(wù),而是它會(huì)不會(huì)在"其實(shí)不用填"的地方停住。
![]()
而且,這種"做過頭"不只體現(xiàn)在當(dāng)前任務(wù)里,也體現(xiàn)在 memory 上。很多模型看起來會(huì)"存偏好""調(diào)偏好",但一到真正的跨 session 任務(wù),表現(xiàn)就會(huì)掉下來。
會(huì)記住你,不等于真的懂你;會(huì)調(diào)用偏好,也不等于會(huì)在正確的時(shí)候克制地使用它。
![]()
04
為什么這件事不只是學(xué)術(shù)問題,
而是大廠遲早要面對的上線問題?
如果手機(jī) Agent 真要進(jìn)入產(chǎn)品,用戶最關(guān)心的絕不只是:
? 它能不能把外賣點(diǎn)完;
? 它能不能把票訂好;
? 它能不能把流程跑通。
用戶真正會(huì)在意的是:
? 你為什么還要這個(gè)信息?
? 這個(gè)可選框你為什么也填了?
? 你為什么把我的手機(jī)號又交給了另一個(gè)營銷小入口?
? 你為什么把上次記住的偏好,這次亂用了?
所以對大廠來說,這項(xiàng)工作的價(jià)值也不只是"研究上多了一篇論文"。
它更像是在回答一個(gè)產(chǎn)品化問題:
當(dāng) Agent 版本越來越強(qiáng)、開始準(zhǔn)備真正上線時(shí),我們有什么辦法檢查它是不是也越來越會(huì)越界?
從這個(gè)角度看,這項(xiàng)工作能提供的,不只是研究 insight,也是一種非常現(xiàn)實(shí)的上線前檢查思路:
? 新版本能力提升了,隱私邊界有沒有一起變差?
? 某個(gè)模型任務(wù)成功率更高了,它是不是也更愛"做過頭"?
? 它到底是更懂用戶了,還是更會(huì)自作聰明了?
這類問題,未來不管是產(chǎn)品團(tuán)隊(duì)、安全團(tuán)隊(duì)還是合規(guī)團(tuán)隊(duì),都繞不過去。
所以手機(jī) Agent 真正卡落地的,不只是成功率,而是隱私邊界。
成功率決定它能不能用,隱私?jīng)Q定它敢不敢用。
這也是這項(xiàng)工作真正想解決的問題——不是讓 Agent 再多完成幾個(gè)任務(wù),而是讓大家第一次能認(rèn)真回答:
當(dāng) Agent 越來越會(huì)用手機(jī)時(shí),它到底有沒有學(xué)會(huì)尊重用戶的邊界?
順帶說一句,還有一個(gè)我們越來越強(qiáng)烈的感受是:其實(shí)這件事以前不是沒人想到,而是很難真正系統(tǒng)做出來:真實(shí)商業(yè) App 太黑盒了,很多關(guān)鍵過程根本沒法穩(wěn)定檢查。
這也是為什么我們會(huì)覺得,mock app 可能不只是這篇工作里的實(shí)現(xiàn)方式,而是一條值得繼續(xù)走下去的路線。這個(gè)方向我們也還在繼續(xù)規(guī)模化,后面會(huì)單獨(dú)展開講。
05
項(xiàng)目已經(jīng)公開
![]()
? 論文:Do Phone-Use Agents Respect Your Privacy?
? 代碼:https://github.com/FreedomIntelligence/MyPhoneBench
? Leaderboard: https://freedomintelligence.github.io/MyPhoneBench/
? 軌跡數(shù)據(jù):MyPhoneBench-Trajectories
論文主要作者簡介:
? 唐正陽 香港中文大學(xué)(深圳)計(jì)算機(jī)與信息工程專業(yè)博士研究生,師從王本友教授。目前他在騰訊混元團(tuán)隊(duì)實(shí)習(xí),參與了Kimi-k2.5, Qwen3等開源模型的研發(fā)。他的研究聚焦于探索如何系統(tǒng)性地將模型的潛在知識與推理能力轉(zhuǎn)化為解決復(fù)雜真實(shí)世界問題的專家技能, 已在NeurIPS, ICML, ICLR, COLM, TMLR, Operations Research, ACL等頂級機(jī)器學(xué)習(xí)會(huì)議和期刊上發(fā)表多篇論文。
? 冀軻 香港中文大學(xué)(深圳)數(shù)據(jù)科學(xué)學(xué)院博士研究生,師從王本友教授。曾在MiniMax、騰訊AI Lab和小冰公司實(shí)習(xí),參與了MiniMax M2.5、大語言模型自進(jìn)化、數(shù)學(xué)推理及交錯(cuò)智能體的前沿研發(fā)。他的研究聚焦于大語言模型與推理對齊,已在NeurIPS、ICLR、ACL、EMNLP、COLM等人工智能頂級會(huì)議上發(fā)表多篇論文,并曾榮獲2025年AIMO2金牌。
? 王熙棟 香港中文大學(xué)(深圳)數(shù)據(jù)科學(xué)學(xué)院博士研究生,師從王本友教授。他的研究深耕于醫(yī)療人工智能、多模態(tài)大模型與人機(jī)交互,主導(dǎo)或深度參與了華佗大模型(HuatuoGPT)系列、中文醫(yī)療大模型評測基準(zhǔn)CMB、多語言醫(yī)療大模型Apollo以及LongLLaVA等多項(xiàng)具有廣泛影響力的前沿開源項(xiàng)目。目前,他已在ICLR、ACL、EMNLP、NAACL、COLM等人工智能頂級會(huì)議及權(quán)威交叉學(xué)科期刊(如npj Health Systems)上發(fā)表多篇高被引論文,致力于推動(dòng)高質(zhì)量醫(yī)療AI的安全對齊與大規(guī)模普及。
? 葉子涵 香港中文大學(xué)(深圳)數(shù)學(xué)專業(yè)的博士生,師從倪維明教授,其研究方向聚焦于偏微分方程和AI與數(shù)學(xué)(AI4MATH)的交叉領(lǐng)域,曾以通訊作者身份于期刊《Journal of Mathematical Biology》上發(fā)表論文。
如果你也在關(guān)注 GUI Agent、手機(jī) Agent、Computer Use 和 Agent 落地,這也許會(huì)是接下來越來越關(guān)鍵的一個(gè)問題:
Agent 越來越會(huì)做事了,但它有沒有學(xué)會(huì),不該多做的時(shí)候停一下?
![]()
未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.