清華團(tuán)隊兩項新研究，探索理解用戶與適時互動

2026-06-30 11:20:43　來源: 機(jī)器之心Pro

天津舉報

分享至

如今，大模型越來越擅長回答問題了，但當(dāng) AI 不再只停留在聊天窗口，而是走向智能眼鏡、可穿戴設(shè)備乃至家庭機(jī)器人時，問題會隨之改變。用戶未必有時間把需求完整說出來，也未必希望助手隨時插話。更理想的助手，應(yīng)該能在現(xiàn)場真正理解人，在用戶需要的時候出現(xiàn)，在不合適的時候保持安靜。

近日，清華大學(xué)人工智能學(xué)院 MEOW Lab 團(tuán)隊攜手清華大學(xué)人機(jī)交互與普適計算實驗室、字節(jié)跳動 PICO、威斯康辛大學(xué)麥迪遜分校等多家國內(nèi)外研究機(jī)構(gòu)，發(fā)布了EgoIntrospectIPIBench兩項最新研究成果。前者聚焦于 AI 如何理解用戶的情緒、意圖和記憶需求；后者關(guān)注 AI 在連續(xù)視頻流中，如何判斷何時提醒、何時沉默以及如何管理多輪任務(wù)。這兩項研究都說明，下一代 AI 助手不應(yīng)該只是更強(qiáng)的答題工具，還要學(xué)會讀懂人，并把握時機(jī)，適時地與用戶互動。

論文標(biāo)題：EgoIntrospect: An Egocentric Dataset and Benchmark for User-Centric Internal State Reasoning
論文地址：https://arxiv.org/abs/2605.17262

論文標(biāo)題：IPIBench: Evaluating Interactive Proactive Intelligence of MLLMs under Continuous Streams
論文地址：https://arxiv.org/abs/2605.27074

背景：AI 從問答系統(tǒng)到協(xié)作助手

今年 5 月，Thinking Machine Lab 在文章《Interaction Models: A Scalable Approach to Human-AI Collaboration》中討論了類似的交互轉(zhuǎn)向。文章指出，目前許多 AI 系統(tǒng)仍以用戶輸入、模型輸出的回合制問答為基礎(chǔ)。但真實協(xié)作并不是這樣運(yùn)作的。人與人一起做事時，會停頓、打斷、修正，也會根據(jù)對方狀態(tài)調(diào)整介入的時機(jī)。因此，當(dāng) AI 從問答走向?qū)崟r協(xié)作，模型還缺少哪些能力？清華團(tuán)隊的這兩項研究，正是在這一問題背景下，分別從用戶理解和主動交互兩個側(cè)面展開。

EgoIntrospect：

讓 AI 真正理解用戶，而不只是看懂畫面

過去，多模態(tài)大模型已經(jīng)能夠識別圖像和視頻中的物體、動作和場景。但如果 AI 要成為智能眼鏡里的隨身助手，理解外部世界只是起點(diǎn)。就像看到一只狗，用戶可能感到開心，也可能感到緊張；同樣路過一張地圖，用戶也許只是隨意一瞥，或許卻希望 AI 能幫自己記住它。

EgoIntrospect 的核心，是讓模型學(xué)習(xí)從第一視角數(shù)據(jù)中推斷用戶的內(nèi)部狀態(tài)。研究團(tuán)隊共采集了 60 名參與者、超過 180 小時的日常記錄，數(shù)據(jù)來自智能眼鏡、智能手表、腕帶、智能戒指等設(shè)備，包含第一視角視頻、音頻、眼動、生理信號。與傳統(tǒng)的視頻數(shù)據(jù)集不同，這項研究更強(qiáng)調(diào)「用戶自我標(biāo)注」，即參與者在數(shù)據(jù)采集過程中會標(biāo)記重要時刻，并在事后補(bǔ)充相關(guān)情緒、意圖以及記憶需求的具體信息。

基于這些數(shù)據(jù)，EgoIntrospect 設(shè)計了三類任務(wù)。第一類是情感體驗，模型需要判斷哪些片段對用戶來說值得記錄，并推斷在特定情境下用戶可能產(chǎn)生的情緒及其強(qiáng)度。第二類是交互意圖，一方面，模型在被動響應(yīng)時要判斷完成用戶的請求還需要哪些外部工具支持，另一方面，模型在主動交互時也要理解什么樣的互動對用戶是有意義、能提供幫助的，以及在什么時機(jī)介入才不會造成打擾。第三類是認(rèn)知記憶，模型需要區(qū)分哪些信息用戶可能記得住，哪些信息需要由 AI 協(xié)助保存，同時還要明確這類信息應(yīng)當(dāng)保存多久。

這也讓智能助手的評測不再停留于看懂畫面。對可穿戴 AI 來說，第一視角視頻不是普通素材，而是用戶正在經(jīng)歷的現(xiàn)場，模型要理解的，也不只是物體和動作，還有它們對用戶的意義。

IPIBench：

AI 既要主動幫忙，也要學(xué)會適時開口

上述 EgoIntrospect 更關(guān)注 AI 如何理解用戶，而 IPIBench 則強(qiáng)調(diào) AI 在互動中如何抓住合適的時機(jī)。現(xiàn)實中的智能助手并不能想說就說。提醒得太早會顯得打擾，提醒得太晚又可能錯過；更關(guān)鍵的是，若用戶已經(jīng)取消或更改了提醒，但模型仍然按舊指令觸發(fā)，那就說明它并未真正理解這種持續(xù)互動下的任務(wù)狀態(tài)。

因此，IPIBench 提出了一個面向流式視頻場景的交互式主動智能評測基準(zhǔn)。傳統(tǒng)的視頻問答更像是把一整段視頻先交給模型觀看，再等它看完后回答問題。而在 IPIBench 中，視頻是不斷流入的，用戶的指令也可能隨時調(diào)整。模型只能獲取當(dāng)前時刻之前的視頻內(nèi)容，同時還要在連續(xù)輸入的過程中完成主動監(jiān)測、任務(wù)管理以及即時問答等多項工作。比如在廚房場景里，用戶可能會說：「鍋里的水開了提醒我。」模型既不能立刻回應(yīng)，也不能等水開過很久才提醒，而是要持續(xù)觀察并在恰當(dāng)?shù)臅r刻觸發(fā)提醒。若用戶隨后改口或取消提醒，模型還必須及時更新任務(wù)狀態(tài)，避免繼續(xù)按照舊指令響應(yīng)。

基于上述需求，IPIBench 設(shè)計了主動監(jiān)測、主動任務(wù)管理，以及即時提問與主動式請求交織三類任務(wù)。評測結(jié)果表明，目前的多模態(tài)大模型在主動觸發(fā)的穩(wěn)定性和多輪交互的協(xié)調(diào)能力方面仍存在明顯短板。

針對這些問題，研究團(tuán)隊提出了 IPI-Agent。它無需重新訓(xùn)練基礎(chǔ)模型，而是在模型外部額外加入一層交互調(diào)度機(jī)制，交互意圖識別與顯式任務(wù)記憶管理，將用戶輸入?yún)^(qū)分為提問、新增任務(wù)與修改 / 取消任務(wù)，并持續(xù)維護(hù)有效任務(wù)及其狀態(tài)變化，從而實現(xiàn)跨輪次的穩(wěn)定任務(wù)跟蹤。同時，它引入時間門控機(jī)制，系統(tǒng)會先根據(jù)歷史任務(wù)和近期視頻內(nèi)容生成候選響應(yīng)，再結(jié)合視頻內(nèi)容的變化判斷是否真的到了需要觸發(fā)的時機(jī)。

總的來說，IPIBench 把對 AI 助手的評測從看完視頻后答題，推進(jìn)到邊看、邊等、邊管理任務(wù)的真實互動過程，對于未來的可穿戴設(shè)備、家庭機(jī)器人和具身智能系統(tǒng)而言，能否在合適的時候開口，可能和回答問題本身一樣重要。

總結(jié)與展望：

AI 助手需要更懂人，也更懂時機(jī)

把清華團(tuán)隊的兩項研究放在一起，可以發(fā)現(xiàn) AI 助手的評測正在從單純問答走向更真實的互動場景。EgoIntrospect 把注意力放回用戶自身，強(qiáng)調(diào)去理解用戶的情緒、意圖和記憶。IPIBench 則進(jìn)一步延伸到主動交互過程，考察提醒、沉默、任務(wù)更新以及多輪協(xié)調(diào)等表現(xiàn)。

在智能眼鏡、可穿戴設(shè)備和具身智能等場景里，AI 助手面對的往往不再只是一個坐在屏幕前等著提問的人，而是一個正在行動、會有情緒起伏、會猶豫、也會臨時改變主意的人。正因如此，下一代 AI 助手的關(guān)鍵不只是生成更流暢的答案，還要更細(xì)致地理解用戶，更穩(wěn)妥地管理任務(wù)，更有分寸地介入現(xiàn)場。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.