你敢把「龍蝦」放在手機(jī)上跑嗎？手機(jī) Agent 離落地還差一道「隱私關(guān)」

2026-04-06 11:33:44　來源: AI科技評論

廣東舉報(bào)

分享至

港中深聯(lián)合騰訊混元首次系統(tǒng)揭示：手機(jī) Agent 真正卡落地的，不只是成功率，而是隱私邊界。

這兩年，Agent 的風(fēng)向已經(jīng)很明顯了。

從會(huì)聊天、會(huì)寫代碼，到會(huì)自己看界面、點(diǎn)按鈕、填表單，Agent 正在一步步接管真實(shí)設(shè)備操作。OpenClaw、Claude Computer Use 這一類系統(tǒng)火起來之后，大家開始越來越認(rèn)真地討論一件事：

Agent 不是個(gè)聊天框了，它真的開始接近"幫你做事"的階段了。

而一旦 Agent 開始往手機(jī)里走，一個(gè)更現(xiàn)實(shí)的問題就來了：

你敢把它真的放在手機(jī)上跑嗎？

不是因?yàn)樗粫?huì)做事，恰恰相反，是因?yàn)樗赡?做過頭"。

它可能會(huì)多要一步權(quán)限，多填一個(gè)本來不該填的框，甚至把你的手機(jī)號又交給一個(gè)你根本沒注意到的小入口。這些都不是黑客攻擊，也不是惡意 prompt。它們就發(fā)生在最正常、最日常的手機(jī)任務(wù)里。

圍繞這個(gè)問題，港中深FreedomAI團(tuán)隊(duì)聯(lián)合騰訊混元視覺大模型團(tuán)隊(duì)、港中文、港大、港科、上海交大合作完成了一項(xiàng)新工作。它最重要的意義，不是再多做一個(gè)榜，而是第一次讓行業(yè)能認(rèn)真回答：

手機(jī) Agent 在完成正常任務(wù)的過程中，是否真的守住了用戶隱私邊界？

? 論文：Do Phone-Use Agents Respect Your Privacy?

? 代碼：https://github.com/FreedomIntelligence/MyPhoneBench

? Leaderboard: https://freedomintelligence.github.io/MyPhoneBench/

? 軌跡數(shù)據(jù)：MyPhoneBench-Trajectories

一個(gè)點(diǎn)漢堡的任務(wù)，為什么會(huì)讓人后背發(fā)涼？

先看一個(gè)最生活化的例子。下面這張圖把這個(gè)問題講得非常直白：同樣只是點(diǎn)個(gè)漢堡，Agent 卻可能在過程中一步步把用戶信息交出去。

你讓手機(jī) Agent 在肯德基小程序里幫你點(diǎn)個(gè)漢堡，聽起來再正常不過了。

但看看它實(shí)際做了什么：

? 先是未經(jīng)你確認(rèn)就獲取了手機(jī)號；

? 接著自己輸入了短信驗(yàn)證碼；

? 然后開啟了持久登錄；

? 最后頁面彈出一個(gè)領(lǐng)優(yōu)惠券的營銷彈窗，它又順手把你的手機(jī)號填了進(jìn)去。

整個(gè)任務(wù)表面上當(dāng)然"成功"了。漢堡能點(diǎn)，流程能跑，頁面能繼續(xù)往下走。

但問題是：

一個(gè)點(diǎn)漢堡的任務(wù)，為什么最后會(huì)變成手機(jī)號被額外交給一個(gè)營銷入口，驗(yàn)證碼也被直接填寫？

這就是手機(jī) Agent 最讓人不安的地方。

它不是不會(huì)做，而是太會(huì)做了。它會(huì)自己把一件事做完整，甚至"多做一點(diǎn)"。但這種"多做一點(diǎn)"，很多時(shí)候恰恰就是越界的開始。

所以，手機(jī) Agent 真正卡落地的，可能不是成功率，而是隱私。

大家都在卷"能不能做成"，

但用戶會(huì)關(guān)心"別越界"

今天很多人看手機(jī) Agent，第一反應(yīng)還是：

? 它能不能跨頁面操作？

? 它能不能把流程跑通？

? 它能不能把外賣點(diǎn)好、把酒店訂好、把事辦完？

這些當(dāng)然重要。

但如果手機(jī) Agent 真要進(jìn)入真實(shí)生活，光看"做沒做成"其實(shí)遠(yuǎn)遠(yuǎn)不夠。因?yàn)槭謾C(jī)不是普通 GUI。手機(jī)里裝的不是一個(gè)網(wǎng)頁，而是：

? 你的手機(jī)號

? 你的住址

? 你的病史和藥物信息

? 你的出行偏好

? 你的支付相關(guān)信息

? 以及越來越多 Agent 想長期保存的"關(guān)于你"的記憶

也就是說，手機(jī) Agent 面對的不是"一個(gè)任務(wù)"，而是"一個(gè)人的生活"。

所以手機(jī) Agent 真正難的，不是"會(huì)不會(huì)點(diǎn)"，而是：

它會(huì)不會(huì)邊幫你做事，邊順手越界。

問題在于，今天很多評測其實(shí)看不見這些。

現(xiàn)有不少工作主要還是看：

? 任務(wù)有沒有完成；

? 頁面有沒有走到目標(biāo)狀態(tài)；

? 最終結(jié)果是不是對的。

但它們通常回答不了這些問題：

? Agent 有沒有多申請權(quán)限？

? 有沒有把本來可選的信息也填了？

? 有沒有把手機(jī)號又交給一個(gè)不必要的小入口？

? 有沒有在后續(xù)任務(wù)里亂用之前保存的偏好？

換句話說，今天很多評測回答的是：

它能不能把事辦成？

但回答不了：

它在把事辦成的過程中，有沒有順手把用戶隱私"辦沒了"？

這項(xiàng)工作的關(guān)鍵，不是再做一張榜，

而是第一次把"越界"這件事真正看清楚

這項(xiàng)工作的最大價(jià)值，在于它第一次把手機(jī) Agent 的隱私問題，做成了一件：

? 過程可見

? 規(guī)則可驗(yàn)

? 結(jié)果可比較

的現(xiàn)實(shí)問題。

更直白一點(diǎn)說，就是第一次讓行業(yè)能認(rèn)真檢查：

一個(gè)手機(jī) Agent 到底值不值得被交給用戶。

它主要做了三件事。

第一，把"什么叫越界"先說清楚

很多時(shí)候大家會(huì)說，Agent 要尊重隱私。但問題是，什么叫尊重？什么叫越界？

如果這件事說不清楚，后面就根本沒法測。

先別急著看后面的評估，第一件事其實(shí)是把規(guī)則說清楚：哪些信息默認(rèn)能用，哪些必須先申請，哪些記憶能留到后面再用，以及這些記憶最終由誰來管。下面這個(gè)界面最關(guān)鍵的，不只是把數(shù)據(jù)分成 LOW 和 HIGH 兩檔，而是把"Agent 能用什么、什么時(shí)候必須先問、已經(jīng)記住了什么、用戶能不能管"都擺到了臺面上。

所以這項(xiàng)工作先設(shè)計(jì)了一套叫iMy的隱私交互協(xié)議。你可以把它理解成：先把 Agent 在手機(jī)上"該怎么拿數(shù)據(jù)、什么時(shí)候該先問、什么能記下來、最后由誰說了算"這件事講清楚。

簡單來說：

? 普通信息，Agent 可以直接用；

? 敏感信息，必須先申請，用戶點(diǎn)頭后才能拿；

? 真正學(xué)到的用戶偏好，可以保存下來；

? 但這些記憶不是 Agent 自己偷偷留著，而是用戶隨時(shí)都能看到、修改、刪除；

? 如果它拿不準(zhǔn)，就先問，而不是自己猜。

這套設(shè)計(jì)最關(guān)鍵的地方，不只是"給數(shù)據(jù)分級"，而是讓 Agent 的每一步都帶著邊界，也讓用戶始終握著最后的控制權(quán)。

第二，把手機(jī)里的關(guān)鍵過程變成"能看見"

真實(shí)商業(yè) App 大多是黑盒。

你可能只看到 Agent 最后把任務(wù)做成了，但你根本不知道它中間到底往哪個(gè)框里填了什么。

所以這項(xiàng)工作從頭做了10 個(gè) mock Android apps，覆蓋醫(yī)療、餐飲、訂房、政務(wù)、外賣、保險(xiǎn)、活動(dòng)服務(wù)等多個(gè)高頻手機(jī)場景。

最關(guān)鍵的是，這些 App 不只是給 Agent 一個(gè)界面，還會(huì)把關(guān)鍵輸入過程完整記錄下來。

于是你終于能真正看見：

? 它讀了什么；

? 它填了什么；

? 它有沒有多填、亂填、重復(fù)填。

第三，把最常見的越界行為壓成幾類可以重復(fù)檢查的問題

團(tuán)隊(duì)沒有把"隱私"做成一堆空泛口號，而是把手機(jī) Agent 最常見的風(fēng)險(xiǎn)壓成了幾類非常具體的問題。如果把手機(jī) Agent 最容易出事的地方壓縮一下，基本就濃縮成下面這三類：多要數(shù)據(jù)、把信息又交給一個(gè)不必要的小入口、以及把本來不用填的也順手填了。

1）它會(huì)不會(huì)多要你的信息？

任務(wù)不需要，但它還是去申請、去讀取。

2）它會(huì)不會(huì)把你的信息又填進(jìn)一個(gè)看起來正常、其實(shí)根本沒必要的小框里？

比如頁面里多出來一個(gè)"優(yōu)惠提醒""優(yōu)先預(yù)約""活動(dòng)通知""營銷入口"之類的小模塊，看著挺合理，但當(dāng)前任務(wù)根本不需要它。如果 Agent 只是看到"這里也能填手機(jī)號"，就順手填了，那就是多一次沒必要的暴露。

3）它會(huì)不會(huì)把本來不用填的隱私項(xiàng)也順手填了？

這也是最隱蔽的一類。不是因?yàn)樗粫?huì)做，恰恰是因?yàn)樗氚咽虑樽鐾暾恕?/p>

最重要的是，這些檢查最后都不是靠 LLM 主觀打分，而是基于訪問日志、表單記錄和數(shù)據(jù)庫狀態(tài)去做規(guī)則驗(yàn)證。所以它不是"看起來像"，而是真的能復(fù)現(xiàn)、能對比、能檢查。

三個(gè)最有意思的結(jié)論

這項(xiàng)工作一共評估了5 個(gè)前沿模型、10 個(gè) App、300 個(gè)任務(wù)。

如果把整篇工作的結(jié)果壓縮成最值得記住的三句話，我覺得是下面這三點(diǎn)。

第一，同樣一套工具，模型和模型之間的"邊界感"差別可能非常大

很多人會(huì)以為，只要給所有模型同樣的工具，最后差別主要就是誰更會(huì)做任務(wù)。

但這項(xiàng)工作里一個(gè)很直觀的觀察是：

同樣一套手機(jī)任務(wù)、同樣一套隱私協(xié)議，不同模型對邊界的理解會(huì)差很多。

下面這張圖看的就是這一點(diǎn)。

有的模型會(huì)先申請?jiān)僮x取，遇到不必要的字段會(huì)主動(dòng)跳過，任務(wù)做完還會(huì)順手把真正有價(jià)值的偏好保存下來；有的模型雖然也把任務(wù)做成了，但過程里已經(jīng)多要了不需要的數(shù)據(jù)、把手機(jī)號填進(jìn)了無關(guān)入口。

這說明，手機(jī) Agent 的差別不只是"誰更會(huì)點(diǎn)按鈕"，更是"誰更知道什么時(shí)候該停一下"。能力和克制，并不是綁定出現(xiàn)的。

第二，最強(qiáng)的不一定最克制，而且沒有任何一個(gè)模型能三項(xiàng)全贏

這項(xiàng)工作同時(shí)看三條軸：

? 任務(wù)能不能做成；

? 能不能隱私合規(guī)地做成；

? 能不能在后續(xù)任務(wù)里正確使用之前保存的偏好。

結(jié)果非常反直覺：

"能把事做成"和"能在不越界的情況下把事做成"，不是同一種能力。

而且，再進(jìn)一步看：

沒有任何一個(gè)模型能同時(shí)在任務(wù)成功、隱私表現(xiàn)、偏好遷移這三件事上都領(lǐng)先。

下面這張主結(jié)果表最值得看的，不是哪家排第一，而是第一名根本不是同一個(gè)模型——每換一個(gè)維度看，領(lǐng)先者就會(huì)變。

這其實(shí)很說明問題：今天的手機(jī) Agent，離"真正讓人放心交給它"還有明顯距離。

第三，當(dāng)前最普遍的問題，不是不會(huì)做，而是做過頭

這可能是整篇工作里最值得記住的一點(diǎn)。

很多人會(huì)以為手機(jī) Agent 最大的隱私風(fēng)險(xiǎn)來自奇怪彈窗、權(quán)限誤點(diǎn)或者對抗攻擊。但這項(xiàng)工作里最穩(wěn)定、最普遍的問題，其實(shí)更貼近日常，也更反直覺：

它太想把事情做完整了。

明明某個(gè)字段不是必須的，明明任務(wù)根本不需要，但因?yàn)樗呀?jīng)知道這個(gè)信息，于是它就順手填上了。這種風(fēng)險(xiǎn)最麻煩的地方在于，它不是明顯的錯(cuò)誤，而是**"看起來挺合理"的過度幫助**。

下面這張分析圖說明了這一點(diǎn)：真正把模型拉開的，往往不是它會(huì)不會(huì)做任務(wù)，而是它會(huì)不會(huì)在"其實(shí)不用填"的地方停住。

而且，這種"做過頭"不只體現(xiàn)在當(dāng)前任務(wù)里，也體現(xiàn)在 memory 上。很多模型看起來會(huì)"存偏好""調(diào)偏好"，但一到真正的跨 session 任務(wù)，表現(xiàn)就會(huì)掉下來。

會(huì)記住你，不等于真的懂你；會(huì)調(diào)用偏好，也不等于會(huì)在正確的時(shí)候克制地使用它。

為什么這件事不只是學(xué)術(shù)問題，

而是大廠遲早要面對的上線問題？

如果手機(jī) Agent 真要進(jìn)入產(chǎn)品，用戶最關(guān)心的絕不只是：

? 它能不能把外賣點(diǎn)完；

? 它能不能把票訂好；

? 它能不能把流程跑通。

用戶真正會(huì)在意的是：

? 你為什么還要這個(gè)信息？

? 這個(gè)可選框你為什么也填了？

? 你為什么把我的手機(jī)號又交給了另一個(gè)營銷小入口？

? 你為什么把上次記住的偏好，這次亂用了？

所以對大廠來說，這項(xiàng)工作的價(jià)值也不只是"研究上多了一篇論文"。

它更像是在回答一個(gè)產(chǎn)品化問題：

當(dāng) Agent 版本越來越強(qiáng)、開始準(zhǔn)備真正上線時(shí)，我們有什么辦法檢查它是不是也越來越會(huì)越界？

從這個(gè)角度看，這項(xiàng)工作能提供的，不只是研究 insight，也是一種非常現(xiàn)實(shí)的上線前檢查思路：

? 新版本能力提升了，隱私邊界有沒有一起變差？

? 某個(gè)模型任務(wù)成功率更高了，它是不是也更愛"做過頭"？

? 它到底是更懂用戶了，還是更會(huì)自作聰明了？

這類問題，未來不管是產(chǎn)品團(tuán)隊(duì)、安全團(tuán)隊(duì)還是合規(guī)團(tuán)隊(duì)，都繞不過去。

所以手機(jī) Agent 真正卡落地的，不只是成功率，而是隱私邊界。

成功率決定它能不能用，隱私?jīng)Q定它敢不敢用。

這也是這項(xiàng)工作真正想解決的問題——不是讓 Agent 再多完成幾個(gè)任務(wù)，而是讓大家第一次能認(rèn)真回答：

當(dāng) Agent 越來越會(huì)用手機(jī)時(shí)，它到底有沒有學(xué)會(huì)尊重用戶的邊界？

順帶說一句，還有一個(gè)我們越來越強(qiáng)烈的感受是：其實(shí)這件事以前不是沒人想到，而是很難真正系統(tǒng)做出來：真實(shí)商業(yè) App 太黑盒了，很多關(guān)鍵過程根本沒法穩(wěn)定檢查。

這也是為什么我們會(huì)覺得，mock app 可能不只是這篇工作里的實(shí)現(xiàn)方式，而是一條值得繼續(xù)走下去的路線。這個(gè)方向我們也還在繼續(xù)規(guī)模化，后面會(huì)單獨(dú)展開講。

項(xiàng)目已經(jīng)公開

? 論文：Do Phone-Use Agents Respect Your Privacy?

? 代碼：https://github.com/FreedomIntelligence/MyPhoneBench

? Leaderboard: https://freedomintelligence.github.io/MyPhoneBench/

? 軌跡數(shù)據(jù)：MyPhoneBench-Trajectories

論文主要作者簡介:

? 唐正陽香港中文大學(xué)（深圳）計(jì)算機(jī)與信息工程專業(yè)博士研究生，師從王本友教授。目前他在騰訊混元團(tuán)隊(duì)實(shí)習(xí)，參與了Kimi-k2.5, Qwen3等開源模型的研發(fā)。他的研究聚焦于探索如何系統(tǒng)性地將模型的潛在知識與推理能力轉(zhuǎn)化為解決復(fù)雜真實(shí)世界問題的專家技能, 已在NeurIPS, ICML, ICLR, COLM, TMLR, Operations Research, ACL等頂級機(jī)器學(xué)習(xí)會(huì)議和期刊上發(fā)表多篇論文。

? 冀軻香港中文大學(xué)（深圳）數(shù)據(jù)科學(xué)學(xué)院博士研究生，師從王本友教授。曾在MiniMax、騰訊AI Lab和小冰公司實(shí)習(xí)，參與了MiniMax M2.5、大語言模型自進(jìn)化、數(shù)學(xué)推理及交錯(cuò)智能體的前沿研發(fā)。他的研究聚焦于大語言模型與推理對齊，已在NeurIPS、ICLR、ACL、EMNLP、COLM等人工智能頂級會(huì)議上發(fā)表多篇論文，并曾榮獲2025年AIMO2金牌。

? 王熙棟香港中文大學(xué)（深圳）數(shù)據(jù)科學(xué)學(xué)院博士研究生，師從王本友教授。他的研究深耕于醫(yī)療人工智能、多模態(tài)大模型與人機(jī)交互，主導(dǎo)或深度參與了華佗大模型（HuatuoGPT）系列、中文醫(yī)療大模型評測基準(zhǔn)CMB、多語言醫(yī)療大模型Apollo以及LongLLaVA等多項(xiàng)具有廣泛影響力的前沿開源項(xiàng)目。目前，他已在ICLR、ACL、EMNLP、NAACL、COLM等人工智能頂級會(huì)議及權(quán)威交叉學(xué)科期刊（如npj Health Systems）上發(fā)表多篇高被引論文，致力于推動(dòng)高質(zhì)量醫(yī)療AI的安全對齊與大規(guī)模普及。

? 葉子涵香港中文大學(xué)（深圳）數(shù)學(xué)專業(yè)的博士生，師從倪維明教授，其研究方向聚焦于偏微分方程和AI與數(shù)學(xué)（AI4MATH）的交叉領(lǐng)域，曾以通訊作者身份于期刊《Journal of Mathematical Biology》上發(fā)表論文。

如果你也在關(guān)注 GUI Agent、手機(jī) Agent、Computer Use 和 Agent 落地，這也許會(huì)是接下來越來越關(guān)鍵的一個(gè)問題：

Agent 越來越會(huì)做事了，但它有沒有學(xué)會(huì)，不該多做的時(shí)候停一下？

未經(jīng)「AI科技評論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.