網易首頁 > 網易號 > 正文申請入駐

浙江大學聯合蘋果、騰訊，打造手機AI助手評測新標準

2026-04-17 23:42:14　來源: 科技行者

天津舉報

分享至

這項由浙江大學主導、聯合蘋果公司與騰訊的研究團隊于2026年4月發布，論文編號為arXiv:2604.08455，有興趣深入探索的讀者可以通過該編號查詢完整論文。研究的核心問題聽起來很簡單，卻戳中了所有人的痛點：我們的手機AI助手，到底算不算真正"懂你"？

你有沒有遇到過這樣的場景——對著手機語音說"幫我點份午飯"，結果AI一臉茫然地問你要點什么？或者你明明不吃辣，AI偏偏給你推薦了一家川菜？更別提那種感覺：你每天早上8點都會開啟"勿擾模式"，但AI助手還是在最關鍵的時候彈出一個煩人的提醒。這些經歷背后有一個共同的問題：現有的手機AI助手，本質上只是一個聽指令的執行機器，而不是一個真正了解你、懂你習慣、能替你著想的"數字管家"。

浙江大學的研究團隊決定徹底搞清楚一件事：當前最先進的AI模型，到底有沒有能力成為這樣一個真正"懂你"的管家？為了回答這個問題，他們構建了一套全新的測試系統，起名叫"KnowU-Bench"（知你基準），專門用來測量AI助手在"真正了解用戶"這件事上的能力高下。

這套測試系統的獨特之處在于，它不是讓AI助手完成那些干凈利落、指令清晰的任務，而是專門設計了三類不同難度的挑戰，層層遞進，步步升級，把AI助手逼到"知己知彼"的極限邊緣。研究人員同時對11款當前最主流的AI模型進行了評測，結果發現了一個令人深思的現象：那些在標準任務上表現亮眼的頂尖模型，一旦面對需要"讀懂用戶心思"的任務，成功率竟然普遍跌破50%——包括赫赫有名的Claude Sonnet 4.6。

一、為什么"聽話"不等于"懂你"——研究的起點

日常生活中存在一種非常普遍的誤解，認為只要AI能準確執行指令，就算是一個好助手了。但實際情況是，人們在使用手機AI助手時，往往說的是一件事，心里想的卻是另一件事。

以"幫我訂個午飯"為例，這句話背后隱藏了多少潛臺詞？你可能不吃花生，可能慣用支付寶，可能喜歡用某一款外賣App，可能討厭太油膩的食物，可能還有一個常用的送餐地址。這些都是你的"個人偏好"，你不會每次點餐都重復一遍，但你期待AI助手能記得、能懂、能自動幫你搞定。

現有的AI評測系統幾乎都集中在測試"指令執行能力"——AI能不能按照清晰的說明一步一步完成任務。就像考駕照只考科目二，但真實駕駛還需要應對堵車、雨雪、迷路……科目二過了不代表你是個好司機，同樣地，AI通過了"執行指令"的測試，不代表它能當一個貼心的生活助理。

浙江大學的研究團隊發現，現有的評測系統存在三個明顯的漏洞。第一個漏洞是，偏好信息測試大多是"翻卷子"——給AI看一份用戶的歷史記錄，問它能不能猜出用戶喜好，但這種方式就像開卷考試，真實場景中AI不可能直接讀到你的"人設檔案"。第二個漏洞是，沒有任何測試系統檢驗AI能不能通過"主動問你"來補全缺失的信息——就像一個懂事的服務員，發現你沒說要幾分熟，會主動來問，而不是直接上一塊半生不熟的牛排。第三個漏洞是，"主動服務"的測試嚴重不完整——AI不僅要會"該出手時就出手"，還要會"該沉默時絕不打擾"，更要在你拒絕后懂得"收手"，現有測試完全沒有涵蓋這些能力。

正是為了填補這三個漏洞，KnowU-Bench應運而生。

二、KnowU-Bench是怎么工作的——一套精心設計的"考場"

KnowU-Bench的核心設計理念，可以用一個比喻來理解：它相當于一家專門測試"貼身管家"水平的培訓機構，考核內容不是"能不能端盤子"，而是"知不知道主人不吃芫荽""主動幫主人訂好了早報""被主人拒絕后不再多嘴"。

整套系統運行在一個真實模擬的安卓手機環境里——一個裝在計算機里的虛擬Pixel 8手機，里面安裝了23款App，包括購物平臺、外賣應用、社交軟件、日歷、地圖、通訊錄等，涵蓋了日常生活的方方面面。每次測試都從一個固定的"起始狀態"開始，確保不同模型之間的對比是公平的。

為了讓測試更接近真實情況，研究團隊還設計了四類"虛擬用戶"，分別是研究員、開發者、學生和奶奶，每種用戶都有詳細的個人檔案，包括年齡、工作、家庭住址、飲食偏好、購物習慣、常用App、生活作息……這些檔案被嚴格保密，AI助手看不到，只有扮演"用戶"的模擬程序能看到。AI助手能看到的，只有一份"行為日志"——記錄了用戶過去在手機上做了什么的流水賬，就像你手機里的使用記錄。

考場上的任務被分成了三個難度級別，每一級都比前一級更考驗AI助手對用戶的理解深度。

三、三關考核，層層加碼——從"聽話"到"懂心"

第一關是"基礎任務"，共42道題，考的是最基本的界面操作能力。題目都是明確清晰的指令，比如"幫我在Mastodon上找一條關于人工智能的帖子，然后轉發到Mattermost的Town Square頻道"。這類任務就像給新招來的助理一份操作手冊，按圖索驥就能完成，考的是AI能不能看懂手機屏幕、能不能點對按鈕、能不能跨越多個App完成一系列操作。這是最低門檻的考核，用來確認AI至少"會操作手機"。

第二關是"個性化任務"，共86道題，難度驟然上升。這些題目的指令是模糊的，隱藏了關鍵信息。比如"幫我點份今天的午飯，我時間緊，預算合理就好，可以參考我的App偏好"。這句話里，AI需要自己搞清楚：用戶喜歡用哪個外賣App？有什么忌口？什么叫"合理預算"？送到哪里？用什么支付方式？

這些信息，AI需要從行為日志里推斷，或者通過主動提問來獲取。如果日志里有足夠的線索，AI應該能推斷出用戶的習慣；如果線索不夠，AI就必須主動問用戶——"您平時用哪個App點外賣？""您有什么飲食禁忌嗎？"這種"主動問問題的能力"，正是這關考核的核心。

第三關是"主動服務任務"，共64道題，難度達到頂峰。這類任務完全沒有明確指令——AI只能看到當前的時間、地點和手機狀態，然后自己判斷：現在需要主動做點什么嗎？做什么？要不要先問問用戶？如果用戶拒絕了，怎么辦？

舉個例子，一個早上八點多、在家里、用戶剛解鎖手機的場景。根據用戶的歷史行為，AI可能判斷出用戶每天早上習慣瀏覽學術論文網站，于是主動幫他打開；或者用戶從來沒有這個習慣，AI就應該什么都不做，靜靜等待。更難的情況是：AI提出了一個建議，但用戶拒絕了，AI必須懂得"就此打住"，不能一意孤行繼續執行。

這三關加在一起，總共192道題，覆蓋了從"聽話執行"到"主動貼心"的完整能力光譜。

四、"虛擬用戶"是怎么扮演的——一個會聊天的AI"演員"

為了讓測試真實可信，研究團隊需要一個能夠扮演用戶、回答AI助手提問的系統。這個"虛擬用戶"本身也是一個AI模型，具體使用的是GPT-4o來擔任這個角色。

這個"用戶演員"被注入了完整的用戶檔案，知道自己的每一個偏好和習慣。當AI助手發出提問，比如"請問您有什么飲食忌口嗎"，"用戶演員"會按照檔案里的設定給出符合角色的回答——比如"我不吃花生，其他都行"。當AI助手在主動服務任務中提出建議，比如"我發現您經常在早上看論文，要不要我幫您打開？"，"用戶演員"會根據該用戶的檔案和當前情境，給出接受或拒絕的回應。

這個設計的精妙之處在于：AI助手永遠看不到用戶的完整檔案，只能通過行為日志和對話來一點一點拼湊出用戶的真實偏好。這就像一個新來的秘書，沒有前任秘書留下的詳細說明書，只有一份老板過去幾個月的日程記錄，和偶爾的幾次當面溝通。能不能從中讀懂老板的心思，是衡量這個秘書是否合格的關鍵標準。

五、成績單揭曉——頂尖模型的真實表現

測試結果讓研究人員頗為震驚，同時也驗證了他們最初的猜想：在基礎任務上輕松拿高分的模型，一旦面對個性化和主動服務任務，成績會出現斷崖式下跌。

在11款參與評測的模型中，Claude Sonnet 4.6是綜合表現最好的，整體成功率達到60.4%。在基礎任務的"簡單題"中，它拿到了94.4%的成功率，表現相當穩定。然而，當進入個性化任務的"難題"區域，它的成功率跌到了44.2%。考慮到這已經是11款模型里的最高成績，其他模型的情況可想而知——所有開源模型在個性化難題上的成功率都低于12%。

不同類型的模型表現出鮮明差異。在參與評測的三類模型中，專門針對手機界面操作訓練的"GUI專用模型"（包括MAI-UI-8B、UI-Venus-1.5-8B、GUI-Owl-1.5-8B這三款8B參數規模的小模型）在基礎任務上表現尚可，但在個性化和主動服務任務上幾乎全軍覆沒。通用開源大模型（包括Qwen系列的幾個不同規模版本）隨著參數量增加，個性化任務的表現有所提升，但與閉源商業模型之間的差距仍然顯著。而閉源商業模型Gemini 3.1 Pro Preview、Seed 2.0 Pro和Claude Sonnet 4.6則總體領先，但同樣在高難度任務面前力不從心。

特別值得注意的是，兩款在基礎任務上都能達到100%成功率的模型——MAI-UI-8B和Seed 2.0 Pro，它們會操作手機、能完成明確指令，但一旦任務需要理解用戶偏好，成績便大幅下滑。這說明"會用手機"和"懂得用戶"是兩套完全不同的能力，前者并不能帶來后者。

六、為什么會失敗——深挖錯誤背后的原因

研究團隊對Claude Sonnet 4.6（表現最好的模型）的所有失敗案例進行了仔細分析，找到了兩類任務失敗的主要根源，這兩類根源截然不同，揭示了AI助手在"懂你"這件事上的兩大軟肋。

在個性化任務中，失敗最主要的原因不是"弄錯了用戶的喜好"，而是"根本沒有去搞清楚用戶的喜好"。具體來說，66.7%的失敗屬于"沒有充分澄清"——AI助手在信息不足的情況下，沒有主動提問，而是直接按照自己的猜測行動，結果猜錯了。另外27.1%屬于"部分滿足偏好"——AI知道了用戶的主要偏好，但在多個偏好需要同時滿足時，顧此失彼，只滿足了一部分。真正因為"認錯了偏好"而失敗的情況只占2.1%，因為"界面操作失誤"而失敗的只占4.2%。換句話說，失敗的根源不在于AI不會操作手機，而在于它不善于主動追問、不善于把用戶的反饋真正用起來。

在主動服務任務中，失敗的主要原因恰恰相反——不是"問太少"，而是"出手太多"。60%的失敗屬于"不該出手卻出手了"——AI在沒有明確觸發條件的情況下，自作主張地啟動了某個任務，這在真實場景中會讓用戶感到非常困擾和不安。20%的失敗屬于"該出手時卻袖手旁觀"——明明用戶有一個固定的日常習慣，AI卻沒有認出這個觸發信號，什么都沒做。另外還有5%的失敗屬于"用戶拒絕后仍然一意孤行"——這是最危險的失敗類型，就像一個助手被老板明確說了"不用了"，卻還是偷偷幫你做完，這不是貼心，是越權。

這兩種失敗模式說明，主動服務能力的核心不是單純的技術水平，而是"分寸感"——知道什么時候該出手、什么時候該等待、什么時候該問一下、被拒絕后怎么優雅收場。目前的AI模型在這個"分寸感"上，還差得很遠。

七、問得多就能更懂你嗎——關于"主動追問"的反直覺發現

一個很自然的想法是：AI助手如果多問幾個問題，是不是就能更好地滿足用戶需求？研究團隊的數據給出了一個有些反直覺的答案：問問題的數量，和最終的任務成功率之間，并沒有簡單的正相關關系。

Claude Sonnet 4.6在個性化任務中平均每個任務只問了0.4個問題，問得相當克制，但它的成功率和平均得分是11款模型中最高的。相比之下，Seed 2.0 Pro平均每個任務問了將近1個問題，問得比Claude多一倍，但最終成績卻不如Claude。兩款Qwen模型問的問題數量差不多，但Qwen3.5-122B-A10B的得分明顯高于另一款，兩款模型都需要超過36步才能完成任務，效率相當低下。

這個發現指向一個更深的道理：問問題只是手段，真正關鍵的是能不能把用戶的回答轉化為正確的后續行動。就像一個偵探，光會提問是不夠的，還要能從回答中提煉出有價值的線索，并據此做出正確判斷。AI助手的瓶頸不在于它問不問，而在于它問了之后能不能真正"聽進去"、"用起來"。

八、記憶方式也是一門學問——日志怎么用，結果差很多

研究團隊還測試了一個很實際的問題：AI助手以不同方式"記住"用戶歷史行為，對最終表現有什么影響？

他們設計了兩種記憶方式——"全部歷史"（把所有行為日志都喂給AI）和"檢索式歷史"（只給AI看與當前任務最相關的幾條記錄）。同時，日志還分為"干凈版"（只保留與用戶偏好相關的記錄）和"噪聲版"（額外混入了25%的無關記錄，比如廣告、誤觸操作、騷擾信息等，模擬真實手機使用的復雜性）。

不同模型在這四種組合下的表現差異非常有趣。Qwen3-VL-8B在"檢索式干凈日志"下的成功率比"全量干凈日志"高出近7個百分點，說明對它來說，少而精的信息比多而雜的信息更有幫助。而UI-Venus-1.5-8B則相反，全量日志對它更有利，檢索式日志反而可能丟失掉對它有用的內容。MAI-UI-8B在所有配置下都表現偏弱，而且在"檢索式噪聲日志"下成績最差，說明嘈雜的檢索信息會嚴重干擾它的判斷。

這個發現說明，沒有放之四海而皆準的"最佳記憶方式"，不同模型有不同的"消化信息"習慣。未來真正實用的AI助手，需要根據自身特點找到最合適的個人歷史處理方式。

九、四種用戶，誰最難伺候——用戶角色的影響

研究團隊還檢驗了一個有趣的問題：AI助手對不同類型的用戶，理解能力是不是一樣強？結果表明，確實存在明顯差異。

Claude Sonnet 4.6在四個用戶角色上的平均得分相對穩定，波動區間在71.7%到79.4%之間，相對均衡。而Seed 2.0 Pro的波動就大得多——它在"研究員"角色上的得分高達71.3%，但在"奶奶"角色上只有48.5%，相差超過20個百分點。總體來看，"奶奶"這個角色是平均最難伺候的，而"學生"角色則在不同模型間產生的得分分布最分散。

這個現象背后有一個合理的解釋：不同類型用戶的行為模式、表達方式、偏好結構差異很大。一個AI研究員的行為日志充滿了專業信號，比較容易被AI模型識別和推斷；而一位年長的奶奶的行為模式可能更多樣、更難捉摸，對AI助手的理解能力要求更高。這也說明，真正"懂你"的AI，需要有能力適應截然不同的用戶群體，而不只是擅長應對某一類人。

十、怎么打分才公平——混合評分系統的設計

既然測試內容這么復雜，打分方式自然也不能簡單地用對錯來衡量。研究團隊設計了一套"混合評分系統"，把規則判斷和AI判斷結合起來。

規則判斷部分負責檢驗客觀事實：收件人對不對？訂單有沒有創建成功？鬧鐘有沒有正確設置？時間窗口對不對？這類有明確標準的問題，都由程序自動核驗，給出0或1的二元評分。

AI判斷部分則負責評估那些"說不清對錯"的主觀維度：用戶偏好有沒有被充分滿足？溝通方式合不合適？在情境上恰當不恰當？提問的質量好不好？這部分由一個專門調好參數的"評判AI"來打分，它會參考一套針對每道題定制的評分標準，給出從0到1之間的連續分數，并附上打分理由。

最終得分是兩部分的加權平均，權重根據每道題的特點動態調整——純機械操作的任務完全依賴規則判斷，純主觀表達的任務完全依賴AI判斷，大多數任務介于兩者之間。

為了驗證這套打分系統的可靠性，研究團隊讓四位人類專家對26個任務軌跡打了分，然后與混合評分系統的結果進行對比。結果顯示，混合系統的平均誤差只有0.035，遠低于純規則系統的0.12，說明加入AI判斷后，打分結果更接近人類的真實感受。

說到底，KnowU-Bench這項研究揭示的不是某款AI模型的優劣，而是整個AI助手行業面臨的一道真正的坎——從"會操作"到"真懂你"，中間還有一段相當漫長的路要走。

那些在標準測試中大放異彩的頂尖模型，一旦面對"替我想清楚，幫我做對"的真實需求，成功率便快速潰敗。這說明當前AI助手的訓練方向可能存在偏差：我們花了太多精力讓AI學會"怎么做"，卻沒有足夠重視讓AI學會"該為誰做什么、什么時候做、做到什么程度"。

從這項研究的發現來看，未來真正實用的手機AI助手，需要在至少三個方向上有所突破。一是更聰明的"長期記憶"——不只是存儲歷史，而是能從混亂的日常行為中提煉出穩定的偏好模式。二是更精準的"缺口識別"——當現有信息不足時，能判斷出哪些信息是關鍵缺口，然后用最少的問題獲取最有價值的補充。三是更成熟的"分寸感"——在主動服務中知道進退，既不過分打擾，也不錯過真正需要幫忙的時機，被拒絕后能優雅收場而不是一意孤行。

這三項能力，歸根結底考驗的是AI對"人"的理解深度，而不僅僅是對"任務"的執行效率。一個真正貼心的管家，并不是那個最勤快的，而是那個最"有眼力見兒"的。有興趣深入了解這項研究細節的讀者，可以通過arXiv編號2604.08455查閱完整論文。

Q&A

Q1：KnowU-Bench測試的三類任務分別是什么，難度有什么不同？

A：KnowU-Bench包含三類任務。基礎任務共42道，指令明確，考驗AI能不能按步驟操作手機App完成具體事項。個性化任務共86道，指令模糊，AI需要從用戶的歷史行為日志中推斷偏好，或主動提問來補全信息，難度明顯更高。主動服務任務共64道，完全沒有明確指令，AI只看到當前時間、地點和手機狀態，要自己判斷該做什么、要不要先問用戶、被拒絕后怎么辦，是三類任務中最具挑戰性的。

Q2：KnowU-Bench測試中，為什么AI助手主動問更多問題并不代表表現更好？

A：因為問問題只是手段，關鍵在于能不能把用戶的回答轉化成正確的后續行動。Claude Sonnet 4.6每個任務平均只問0.4個問題，但成功率最高；Seed 2.0 Pro問了差不多兩倍的問題，成績卻不如Claude。問題數量和成功率之間沒有簡單正相關，真正的瓶頸在于AI能不能把獲取到的偏好信息真正用起來，指導后續的具體操作。

Q3：KnowU-Bench研究中，AI助手在主動服務任務里最常見的失敗方式是什么？

A：最常見的失敗是"不該出手卻出手了"，占主動服務任務失敗總數的60%。AI在沒有任何明確觸發信號的情況下，自作主張地啟動了某個任務，用戶根本沒有這個需求。另外20%是"該出手時袖手旁觀"，明明用戶有固定習慣，AI卻沒識別出觸發條件，什么都沒做。還有5%是最危險的"用戶拒絕后還繼續"，這三類問題歸根結底都屬于"分寸感"失調。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.