![]()
這項由浙江大學主導、聯合蘋果公司與騰訊的研究團隊于2026年4月發布,論文編號為arXiv:2604.08455,有興趣深入探索的讀者可以通過該編號查詢完整論文。研究的核心問題聽起來很簡單,卻戳中了所有人的痛點:我們的手機AI助手,到底算不算真正"懂你"?
你有沒有遇到過這樣的場景——對著手機語音說"幫我點份午飯",結果AI一臉茫然地問你要點什么?或者你明明不吃辣,AI偏偏給你推薦了一家川菜?更別提那種感覺:你每天早上8點都會開啟"勿擾模式",但AI助手還是在最關鍵的時候彈出一個煩人的提醒。這些經歷背后有一個共同的問題:現有的手機AI助手,本質上只是一個聽指令的執行機器,而不是一個真正了解你、懂你習慣、能替你著想的"數字管家"。
浙江大學的研究團隊決定徹底搞清楚一件事:當前最先進的AI模型,到底有沒有能力成為這樣一個真正"懂你"的管家?為了回答這個問題,他們構建了一套全新的測試系統,起名叫"KnowU-Bench"(知你基準),專門用來測量AI助手在"真正了解用戶"這件事上的能力高下。
這套測試系統的獨特之處在于,它不是讓AI助手完成那些干凈利落、指令清晰的任務,而是專門設計了三類不同難度的挑戰,層層遞進,步步升級,把AI助手逼到"知己知彼"的極限邊緣。研究人員同時對11款當前最主流的AI模型進行了評測,結果發現了一個令人深思的現象:那些在標準任務上表現亮眼的頂尖模型,一旦面對需要"讀懂用戶心思"的任務,成功率竟然普遍跌破50%——包括赫赫有名的Claude Sonnet 4.6。
一、為什么"聽話"不等于"懂你"——研究的起點
日常生活中存在一種非常普遍的誤解,認為只要AI能準確執行指令,就算是一個好助手了。但實際情況是,人們在使用手機AI助手時,往往說的是一件事,心里想的卻是另一件事。
以"幫我訂個午飯"為例,這句話背后隱藏了多少潛臺詞?你可能不吃花生,可能慣用支付寶,可能喜歡用某一款外賣App,可能討厭太油膩的食物,可能還有一個常用的送餐地址。這些都是你的"個人偏好",你不會每次點餐都重復一遍,但你期待AI助手能記得、能懂、能自動幫你搞定。
現有的AI評測系統幾乎都集中在測試"指令執行能力"——AI能不能按照清晰的說明一步一步完成任務。就像考駕照只考科目二,但真實駕駛還需要應對堵車、雨雪、迷路……科目二過了不代表你是個好司機,同樣地,AI通過了"執行指令"的測試,不代表它能當一個貼心的生活助理。
浙江大學的研究團隊發現,現有的評測系統存在三個明顯的漏洞。第一個漏洞是,偏好信息測試大多是"翻卷子"——給AI看一份用戶的歷史記錄,問它能不能猜出用戶喜好,但這種方式就像開卷考試,真實場景中AI不可能直接讀到你的"人設檔案"。第二個漏洞是,沒有任何測試系統檢驗AI能不能通過"主動問你"來補全缺失的信息——就像一個懂事的服務員,發現你沒說要幾分熟,會主動來問,而不是直接上一塊半生不熟的牛排。第三個漏洞是,"主動服務"的測試嚴重不完整——AI不僅要會"該出手時就出手",還要會"該沉默時絕不打擾",更要在你拒絕后懂得"收手",現有測試完全沒有涵蓋這些能力。
正是為了填補這三個漏洞,KnowU-Bench應運而生。
二、KnowU-Bench是怎么工作的——一套精心設計的"考場"
KnowU-Bench的核心設計理念,可以用一個比喻來理解:它相當于一家專門測試"貼身管家"水平的培訓機構,考核內容不是"能不能端盤子",而是"知不知道主人不吃芫荽""主動幫主人訂好了早報""被主人拒絕后不再多嘴"。
整套系統運行在一個真實模擬的安卓手機環境里——一個裝在計算機里的虛擬Pixel 8手機,里面安裝了23款App,包括購物平臺、外賣應用、社交軟件、日歷、地圖、通訊錄等,涵蓋了日常生活的方方面面。每次測試都從一個固定的"起始狀態"開始,確保不同模型之間的對比是公平的。
為了讓測試更接近真實情況,研究團隊還設計了四類"虛擬用戶",分別是研究員、開發者、學生和奶奶,每種用戶都有詳細的個人檔案,包括年齡、工作、家庭住址、飲食偏好、購物習慣、常用App、生活作息……這些檔案被嚴格保密,AI助手看不到,只有扮演"用戶"的模擬程序能看到。AI助手能看到的,只有一份"行為日志"——記錄了用戶過去在手機上做了什么的流水賬,就像你手機里的使用記錄。
考場上的任務被分成了三個難度級別,每一級都比前一級更考驗AI助手對用戶的理解深度。
三、三關考核,層層加碼——從"聽話"到"懂心"
第一關是"基礎任務",共42道題,考的是最基本的界面操作能力。題目都是明確清晰的指令,比如"幫我在Mastodon上找一條關于人工智能的帖子,然后轉發到Mattermost的Town Square頻道"。這類任務就像給新招來的助理一份操作手冊,按圖索驥就能完成,考的是AI能不能看懂手機屏幕、能不能點對按鈕、能不能跨越多個App完成一系列操作。這是最低門檻的考核,用來確認AI至少"會操作手機"。
第二關是"個性化任務",共86道題,難度驟然上升。這些題目的指令是模糊的,隱藏了關鍵信息。比如"幫我點份今天的午飯,我時間緊,預算合理就好,可以參考我的App偏好"。這句話里,AI需要自己搞清楚:用戶喜歡用哪個外賣App?有什么忌口?什么叫"合理預算"?送到哪里?用什么支付方式?
這些信息,AI需要從行為日志里推斷,或者通過主動提問來獲取。如果日志里有足夠的線索,AI應該能推斷出用戶的習慣;如果線索不夠,AI就必須主動問用戶——"您平時用哪個App點外賣?""您有什么飲食禁忌嗎?"這種"主動問問題的能力",正是這關考核的核心。
第三關是"主動服務任務",共64道題,難度達到頂峰。這類任務完全沒有明確指令——AI只能看到當前的時間、地點和手機狀態,然后自己判斷:現在需要主動做點什么嗎?做什么?要不要先問問用戶?如果用戶拒絕了,怎么辦?
舉個例子,一個早上八點多、在家里、用戶剛解鎖手機的場景。根據用戶的歷史行為,AI可能判斷出用戶每天早上習慣瀏覽學術論文網站,于是主動幫他打開;或者用戶從來沒有這個習慣,AI就應該什么都不做,靜靜等待。更難的情況是:AI提出了一個建議,但用戶拒絕了,AI必須懂得"就此打住",不能一意孤行繼續執行。
這三關加在一起,總共192道題,覆蓋了從"聽話執行"到"主動貼心"的完整能力光譜。
四、"虛擬用戶"是怎么扮演的——一個會聊天的AI"演員"
為了讓測試真實可信,研究團隊需要一個能夠扮演用戶、回答AI助手提問的系統。這個"虛擬用戶"本身也是一個AI模型,具體使用的是GPT-4o來擔任這個角色。
這個"用戶演員"被注入了完整的用戶檔案,知道自己的每一個偏好和習慣。當AI助手發出提問,比如"請問您有什么飲食忌口嗎","用戶演員"會按照檔案里的設定給出符合角色的回答——比如"我不吃花生,其他都行"。當AI助手在主動服務任務中提出建議,比如"我發現您經常在早上看論文,要不要我幫您打開?","用戶演員"會根據該用戶的檔案和當前情境,給出接受或拒絕的回應。
這個設計的精妙之處在于:AI助手永遠看不到用戶的完整檔案,只能通過行為日志和對話來一點一點拼湊出用戶的真實偏好。這就像一個新來的秘書,沒有前任秘書留下的詳細說明書,只有一份老板過去幾個月的日程記錄,和偶爾的幾次當面溝通。能不能從中讀懂老板的心思,是衡量這個秘書是否合格的關鍵標準。
五、成績單揭曉——頂尖模型的真實表現
測試結果讓研究人員頗為震驚,同時也驗證了他們最初的猜想:在基礎任務上輕松拿高分的模型,一旦面對個性化和主動服務任務,成績會出現斷崖式下跌。
在11款參與評測的模型中,Claude Sonnet 4.6是綜合表現最好的,整體成功率達到60.4%。在基礎任務的"簡單題"中,它拿到了94.4%的成功率,表現相當穩定。然而,當進入個性化任務的"難題"區域,它的成功率跌到了44.2%。考慮到這已經是11款模型里的最高成績,其他模型的情況可想而知——所有開源模型在個性化難題上的成功率都低于12%。
不同類型的模型表現出鮮明差異。在參與評測的三類模型中,專門針對手機界面操作訓練的"GUI專用模型"(包括MAI-UI-8B、UI-Venus-1.5-8B、GUI-Owl-1.5-8B這三款8B參數規模的小模型)在基礎任務上表現尚可,但在個性化和主動服務任務上幾乎全軍覆沒。通用開源大模型(包括Qwen系列的幾個不同規模版本)隨著參數量增加,個性化任務的表現有所提升,但與閉源商業模型之間的差距仍然顯著。而閉源商業模型Gemini 3.1 Pro Preview、Seed 2.0 Pro和Claude Sonnet 4.6則總體領先,但同樣在高難度任務面前力不從心。
特別值得注意的是,兩款在基礎任務上都能達到100%成功率的模型——MAI-UI-8B和Seed 2.0 Pro,它們會操作手機、能完成明確指令,但一旦任務需要理解用戶偏好,成績便大幅下滑。這說明"會用手機"和"懂得用戶"是兩套完全不同的能力,前者并不能帶來后者。
六、為什么會失敗——深挖錯誤背后的原因
研究團隊對Claude Sonnet 4.6(表現最好的模型)的所有失敗案例進行了仔細分析,找到了兩類任務失敗的主要根源,這兩類根源截然不同,揭示了AI助手在"懂你"這件事上的兩大軟肋。
在個性化任務中,失敗最主要的原因不是"弄錯了用戶的喜好",而是"根本沒有去搞清楚用戶的喜好"。具體來說,66.7%的失敗屬于"沒有充分澄清"——AI助手在信息不足的情況下,沒有主動提問,而是直接按照自己的猜測行動,結果猜錯了。另外27.1%屬于"部分滿足偏好"——AI知道了用戶的主要偏好,但在多個偏好需要同時滿足時,顧此失彼,只滿足了一部分。真正因為"認錯了偏好"而失敗的情況只占2.1%,因為"界面操作失誤"而失敗的只占4.2%。換句話說,失敗的根源不在于AI不會操作手機,而在于它不善于主動追問、不善于把用戶的反饋真正用起來。
在主動服務任務中,失敗的主要原因恰恰相反——不是"問太少",而是"出手太多"。60%的失敗屬于"不該出手卻出手了"——AI在沒有明確觸發條件的情況下,自作主張地啟動了某個任務,這在真實場景中會讓用戶感到非常困擾和不安。20%的失敗屬于"該出手時卻袖手旁觀"——明明用戶有一個固定的日常習慣,AI卻沒有認出這個觸發信號,什么都沒做。另外還有5%的失敗屬于"用戶拒絕后仍然一意孤行"——這是最危險的失敗類型,就像一個助手被老板明確說了"不用了",卻還是偷偷幫你做完,這不是貼心,是越權。
這兩種失敗模式說明,主動服務能力的核心不是單純的技術水平,而是"分寸感"——知道什么時候該出手、什么時候該等待、什么時候該問一下、被拒絕后怎么優雅收場。目前的AI模型在這個"分寸感"上,還差得很遠。
七、問得多就能更懂你嗎——關于"主動追問"的反直覺發現
一個很自然的想法是:AI助手如果多問幾個問題,是不是就能更好地滿足用戶需求?研究團隊的數據給出了一個有些反直覺的答案:問問題的數量,和最終的任務成功率之間,并沒有簡單的正相關關系。
Claude Sonnet 4.6在個性化任務中平均每個任務只問了0.4個問題,問得相當克制,但它的成功率和平均得分是11款模型中最高的。相比之下,Seed 2.0 Pro平均每個任務問了將近1個問題,問得比Claude多一倍,但最終成績卻不如Claude。兩款Qwen模型問的問題數量差不多,但Qwen3.5-122B-A10B的得分明顯高于另一款,兩款模型都需要超過36步才能完成任務,效率相當低下。
這個發現指向一個更深的道理:問問題只是手段,真正關鍵的是能不能把用戶的回答轉化為正確的后續行動。就像一個偵探,光會提問是不夠的,還要能從回答中提煉出有價值的線索,并據此做出正確判斷。AI助手的瓶頸不在于它問不問,而在于它問了之后能不能真正"聽進去"、"用起來"。
八、記憶方式也是一門學問——日志怎么用,結果差很多
研究團隊還測試了一個很實際的問題:AI助手以不同方式"記住"用戶歷史行為,對最終表現有什么影響?
他們設計了兩種記憶方式——"全部歷史"(把所有行為日志都喂給AI)和"檢索式歷史"(只給AI看與當前任務最相關的幾條記錄)。同時,日志還分為"干凈版"(只保留與用戶偏好相關的記錄)和"噪聲版"(額外混入了25%的無關記錄,比如廣告、誤觸操作、騷擾信息等,模擬真實手機使用的復雜性)。
不同模型在這四種組合下的表現差異非常有趣。Qwen3-VL-8B在"檢索式干凈日志"下的成功率比"全量干凈日志"高出近7個百分點,說明對它來說,少而精的信息比多而雜的信息更有幫助。而UI-Venus-1.5-8B則相反,全量日志對它更有利,檢索式日志反而可能丟失掉對它有用的內容。MAI-UI-8B在所有配置下都表現偏弱,而且在"檢索式噪聲日志"下成績最差,說明嘈雜的檢索信息會嚴重干擾它的判斷。
這個發現說明,沒有放之四海而皆準的"最佳記憶方式",不同模型有不同的"消化信息"習慣。未來真正實用的AI助手,需要根據自身特點找到最合適的個人歷史處理方式。
九、四種用戶,誰最難伺候——用戶角色的影響
研究團隊還檢驗了一個有趣的問題:AI助手對不同類型的用戶,理解能力是不是一樣強?結果表明,確實存在明顯差異。
Claude Sonnet 4.6在四個用戶角色上的平均得分相對穩定,波動區間在71.7%到79.4%之間,相對均衡。而Seed 2.0 Pro的波動就大得多——它在"研究員"角色上的得分高達71.3%,但在"奶奶"角色上只有48.5%,相差超過20個百分點。總體來看,"奶奶"這個角色是平均最難伺候的,而"學生"角色則在不同模型間產生的得分分布最分散。
這個現象背后有一個合理的解釋:不同類型用戶的行為模式、表達方式、偏好結構差異很大。一個AI研究員的行為日志充滿了專業信號,比較容易被AI模型識別和推斷;而一位年長的奶奶的行為模式可能更多樣、更難捉摸,對AI助手的理解能力要求更高。這也說明,真正"懂你"的AI,需要有能力適應截然不同的用戶群體,而不只是擅長應對某一類人。
十、怎么打分才公平——混合評分系統的設計
既然測試內容這么復雜,打分方式自然也不能簡單地用對錯來衡量。研究團隊設計了一套"混合評分系統",把規則判斷和AI判斷結合起來。
規則判斷部分負責檢驗客觀事實:收件人對不對?訂單有沒有創建成功?鬧鐘有沒有正確設置?時間窗口對不對?這類有明確標準的問題,都由程序自動核驗,給出0或1的二元評分。
AI判斷部分則負責評估那些"說不清對錯"的主觀維度:用戶偏好有沒有被充分滿足?溝通方式合不合適?在情境上恰當不恰當?提問的質量好不好?這部分由一個專門調好參數的"評判AI"來打分,它會參考一套針對每道題定制的評分標準,給出從0到1之間的連續分數,并附上打分理由。
最終得分是兩部分的加權平均,權重根據每道題的特點動態調整——純機械操作的任務完全依賴規則判斷,純主觀表達的任務完全依賴AI判斷,大多數任務介于兩者之間。
為了驗證這套打分系統的可靠性,研究團隊讓四位人類專家對26個任務軌跡打了分,然后與混合評分系統的結果進行對比。結果顯示,混合系統的平均誤差只有0.035,遠低于純規則系統的0.12,說明加入AI判斷后,打分結果更接近人類的真實感受。
說到底,KnowU-Bench這項研究揭示的不是某款AI模型的優劣,而是整個AI助手行業面臨的一道真正的坎——從"會操作"到"真懂你",中間還有一段相當漫長的路要走。
那些在標準測試中大放異彩的頂尖模型,一旦面對"替我想清楚,幫我做對"的真實需求,成功率便快速潰敗。這說明當前AI助手的訓練方向可能存在偏差:我們花了太多精力讓AI學會"怎么做",卻沒有足夠重視讓AI學會"該為誰做什么、什么時候做、做到什么程度"。
從這項研究的發現來看,未來真正實用的手機AI助手,需要在至少三個方向上有所突破。一是更聰明的"長期記憶"——不只是存儲歷史,而是能從混亂的日常行為中提煉出穩定的偏好模式。二是更精準的"缺口識別"——當現有信息不足時,能判斷出哪些信息是關鍵缺口,然后用最少的問題獲取最有價值的補充。三是更成熟的"分寸感"——在主動服務中知道進退,既不過分打擾,也不錯過真正需要幫忙的時機,被拒絕后能優雅收場而不是一意孤行。
這三項能力,歸根結底考驗的是AI對"人"的理解深度,而不僅僅是對"任務"的執行效率。一個真正貼心的管家,并不是那個最勤快的,而是那個最"有眼力見兒"的。有興趣深入了解這項研究細節的讀者,可以通過arXiv編號2604.08455查閱完整論文。
Q&A
Q1:KnowU-Bench測試的三類任務分別是什么,難度有什么不同?
A:KnowU-Bench包含三類任務。基礎任務共42道,指令明確,考驗AI能不能按步驟操作手機App完成具體事項。個性化任務共86道,指令模糊,AI需要從用戶的歷史行為日志中推斷偏好,或主動提問來補全信息,難度明顯更高。主動服務任務共64道,完全沒有明確指令,AI只看到當前時間、地點和手機狀態,要自己判斷該做什么、要不要先問用戶、被拒絕后怎么辦,是三類任務中最具挑戰性的。
Q2:KnowU-Bench測試中,為什么AI助手主動問更多問題并不代表表現更好?
A:因為問問題只是手段,關鍵在于能不能把用戶的回答轉化成正確的后續行動。Claude Sonnet 4.6每個任務平均只問0.4個問題,但成功率最高;Seed 2.0 Pro問了差不多兩倍的問題,成績卻不如Claude。問題數量和成功率之間沒有簡單正相關,真正的瓶頸在于AI能不能把獲取到的偏好信息真正用起來,指導后續的具體操作。
Q3:KnowU-Bench研究中,AI助手在主動服務任務里最常見的失敗方式是什么?
A:最常見的失敗是"不該出手卻出手了",占主動服務任務失敗總數的60%。AI在沒有任何明確觸發信號的情況下,自作主張地啟動了某個任務,用戶根本沒有這個需求。另外20%是"該出手時袖手旁觀",明明用戶有固定習慣,AI卻沒識別出觸發條件,什么都沒做。還有5%是最危險的"用戶拒絕后還繼續",這三類問題歸根結底都屬于"分寸感"失調。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.