![]()
如今,大模型越來越擅長回答問題了,但當(dāng) AI 不再只停留在聊天窗口,而是走向智能眼鏡、可穿戴設(shè)備乃至家庭機(jī)器人時,問題會隨之改變。用戶未必有時間把需求完整說出來,也未必希望助手隨時插話。更理想的助手,應(yīng)該能在現(xiàn)場真正理解人,在用戶需要的時候出現(xiàn),在不合適的時候保持安靜。
近日,清華大學(xué)人工智能學(xué)院 MEOW Lab 團(tuán)隊攜手清華大學(xué)人機(jī)交互與普適計算實驗室、字節(jié)跳動 PICO、威斯康辛大學(xué)麥迪遜分校等多家國內(nèi)外研究機(jī)構(gòu),發(fā)布了EgoIntrospectIPIBench兩項最新研究成果。前者聚焦于 AI 如何理解用戶的情緒、意圖和記憶需求;后者關(guān)注 AI 在連續(xù)視頻流中,如何判斷何時提醒、何時沉默以及如何管理多輪任務(wù)。這兩項研究都說明,下一代 AI 助手不應(yīng)該只是更強(qiáng)的答題工具,還要學(xué)會讀懂人,并把握時機(jī),適時地與用戶互動。
![]()
- 論文標(biāo)題:EgoIntrospect: An Egocentric Dataset and Benchmark for User-Centric Internal State Reasoning
- 論文地址:https://arxiv.org/abs/2605.17262
![]()
- 論文標(biāo)題:IPIBench: Evaluating Interactive Proactive Intelligence of MLLMs under Continuous Streams
- 論文地址:https://arxiv.org/abs/2605.27074
背景:AI 從問答系統(tǒng)到協(xié)作助手
今年 5 月,Thinking Machine Lab 在文章《Interaction Models: A Scalable Approach to Human-AI Collaboration》中討論了類似的交互轉(zhuǎn)向。文章指出,目前許多 AI 系統(tǒng)仍以用戶輸入、模型輸出的回合制問答為基礎(chǔ)。但真實協(xié)作并不是這樣運(yùn)作的。人與人一起做事時,會停頓、打斷、修正,也會根據(jù)對方狀態(tài)調(diào)整介入的時機(jī)。因此,當(dāng) AI 從問答走向?qū)崟r協(xié)作,模型還缺少哪些能力?清華團(tuán)隊的這兩項研究,正是在這一問題背景下,分別從用戶理解和主動交互兩個側(cè)面展開。
EgoIntrospect:
讓 AI 真正理解用戶,而不只是看懂畫面
過去,多模態(tài)大模型已經(jīng)能夠識別圖像和視頻中的物體、動作和場景。但如果 AI 要成為智能眼鏡里的隨身助手,理解外部世界只是起點(diǎn)。就像看到一只狗,用戶可能感到開心,也可能感到緊張;同樣路過一張地圖,用戶也許只是隨意一瞥,或許卻希望 AI 能幫自己記住它。
EgoIntrospect 的核心,是讓模型學(xué)習(xí)從第一視角數(shù)據(jù)中推斷用戶的內(nèi)部狀態(tài)。研究團(tuán)隊共采集了 60 名參與者、超過 180 小時的日常記錄,數(shù)據(jù)來自智能眼鏡、智能手表、腕帶、智能戒指等設(shè)備,包含第一視角視頻、音頻、眼動、生理信號。與傳統(tǒng)的視頻數(shù)據(jù)集不同,這項研究更強(qiáng)調(diào)「用戶自我標(biāo)注」,即參與者在數(shù)據(jù)采集過程中會標(biāo)記重要時刻,并在事后補(bǔ)充相關(guān)情緒、意圖以及記憶需求的具體信息。
基于這些數(shù)據(jù),EgoIntrospect 設(shè)計了三類任務(wù)。第一類是情感體驗,模型需要判斷哪些片段對用戶來說值得記錄,并推斷在特定情境下用戶可能產(chǎn)生的情緒及其強(qiáng)度。第二類是交互意圖,一方面,模型在被動響應(yīng)時要判斷完成用戶的請求還需要哪些外部工具支持,另一方面,模型在主動交互時也要理解什么樣的互動對用戶是有意義、能提供幫助的,以及在什么時機(jī)介入才不會造成打擾。第三類是認(rèn)知記憶,模型需要區(qū)分哪些信息用戶可能記得住,哪些信息需要由 AI 協(xié)助保存,同時還要明確這類信息應(yīng)當(dāng)保存多久。
這也讓智能助手的評測不再停留于看懂畫面。對可穿戴 AI 來說,第一視角視頻不是普通素材,而是用戶正在經(jīng)歷的現(xiàn)場,模型要理解的,也不只是物體和動作,還有它們對用戶的意義。
![]()
IPIBench:
AI 既要主動幫忙,也要學(xué)會適時開口
上述 EgoIntrospect 更關(guān)注 AI 如何理解用戶,而 IPIBench 則強(qiáng)調(diào) AI 在互動中如何抓住合適的時機(jī)。現(xiàn)實中的智能助手并不能想說就說。提醒得太早會顯得打擾,提醒得太晚又可能錯過;更關(guān)鍵的是,若用戶已經(jīng)取消或更改了提醒,但模型仍然按舊指令觸發(fā),那就說明它并未真正理解這種持續(xù)互動下的任務(wù)狀態(tài)。
因此,IPIBench 提出了一個面向流式視頻場景的交互式主動智能評測基準(zhǔn)。傳統(tǒng)的視頻問答更像是把一整段視頻先交給模型觀看,再等它看完后回答問題。而在 IPIBench 中,視頻是不斷流入的,用戶的指令也可能隨時調(diào)整。模型只能獲取當(dāng)前時刻之前的視頻內(nèi)容,同時還要在連續(xù)輸入的過程中完成主動監(jiān)測、任務(wù)管理以及即時問答等多項工作。比如在廚房場景里,用戶可能會說:「鍋里的水開了提醒我。」模型既不能立刻回應(yīng),也不能等水開過很久才提醒,而是要持續(xù)觀察并在恰當(dāng)?shù)臅r刻觸發(fā)提醒。若用戶隨后改口或取消提醒,模型還必須及時更新任務(wù)狀態(tài),避免繼續(xù)按照舊指令響應(yīng)。
![]()
基于上述需求,IPIBench 設(shè)計了主動監(jiān)測、主動任務(wù)管理,以及即時提問與主動式請求交織三類任務(wù)。評測結(jié)果表明,目前的多模態(tài)大模型在主動觸發(fā)的穩(wěn)定性和多輪交互的協(xié)調(diào)能力方面仍存在明顯短板。
針對這些問題,研究團(tuán)隊提出了 IPI-Agent。它無需重新訓(xùn)練基礎(chǔ)模型,而是在模型外部額外加入一層交互調(diào)度機(jī)制,交互意圖識別與顯式任務(wù)記憶管理,將用戶輸入?yún)^(qū)分為提問、新增任務(wù)與修改 / 取消任務(wù),并持續(xù)維護(hù)有效任務(wù)及其狀態(tài)變化,從而實現(xiàn)跨輪次的穩(wěn)定任務(wù)跟蹤。同時,它引入時間門控機(jī)制,系統(tǒng)會先根據(jù)歷史任務(wù)和近期視頻內(nèi)容生成候選響應(yīng),再結(jié)合視頻內(nèi)容的變化判斷是否真的到了需要觸發(fā)的時機(jī)。
![]()
總的來說,IPIBench 把對 AI 助手的評測從看完視頻后答題,推進(jìn)到邊看、邊等、邊管理任務(wù)的真實互動過程,對于未來的可穿戴設(shè)備、家庭機(jī)器人和具身智能系統(tǒng)而言,能否在合適的時候開口,可能和回答問題本身一樣重要。
總結(jié)與展望:
AI 助手需要更懂人,也更懂時機(jī)
把清華團(tuán)隊的兩項研究放在一起,可以發(fā)現(xiàn) AI 助手的評測正在從單純問答走向更真實的互動場景。EgoIntrospect 把注意力放回用戶自身,強(qiáng)調(diào)去理解用戶的情緒、意圖和記憶。IPIBench 則進(jìn)一步延伸到主動交互過程,考察提醒、沉默、任務(wù)更新以及多輪協(xié)調(diào)等表現(xiàn)。
在智能眼鏡、可穿戴設(shè)備和具身智能等場景里,AI 助手面對的往往不再只是一個坐在屏幕前等著提問的人,而是一個正在行動、會有情緒起伏、會猶豫、也會臨時改變主意的人。正因如此,下一代 AI 助手的關(guān)鍵不只是生成更流暢的答案,還要更細(xì)致地理解用戶,更穩(wěn)妥地管理任務(wù),更有分寸地介入現(xiàn)場。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.