網易首頁 > 網易號 > 正文申請入駐

俄亥俄州立大學與Meta研究團隊發布的超級記憶測試

2026-06-10 21:08:56　來源: 科技行者

天津舉報

分享至

這項由俄亥俄州立大學與Meta聯合開展的研究，于2026年5月發表在預印本平臺arXiv上，論文編號為arXiv:2606.00825。研究團隊構建了一個名為SuperMemory-VQA的數據集與評測基準，專門用來檢驗AI系統能否充當人類日常生活中的"記憶秘書"。

你有沒有遇到過這樣的情況：出門前明明記得把鑰匙放在桌上，轉身就忘了；或者跟朋友聊天時提到了某個重要約定，隔天卻想不起對方說的具體內容；再或者，做菜到一半，腦子里突然空白——剛才到底放了多少鹽？這些日常的"記憶空洞"雖然聽起來微不足道，卻會在生活中反復制造麻煩。

現在，AI眼鏡（比如Meta推出的Aria智能眼鏡）正在嘗試填補這些空洞。它們可以持續錄下你的第一人稱視角，理論上記住你看到的一切。但問題來了：AI真的能像一個稱職的"隨身秘書"那樣，在你需要的時候準確回憶起過去發生的事情嗎？

為了回答這個問題，研究團隊做了一件很有意思的事：他們專門設計了一套考題，來測試AI的"記憶能力"——這就是SuperMemory-VQA數據集的由來。

一、為什么現有的AI"記憶測試"不夠用

要理解這項研究的價值，得先弄清楚一件事：在此之前，研究者們其實已經有不少用來評估AI視頻理解能力的數據集了。但這些數據集存在一個共同的問題——它們測的是AI能不能"看懂眼前發生了什么"，而不是AI能不能"記住過去發生了什么"。

打個比方，現有的測試就像是給一個人播放一段三分鐘的廚房視頻，然后問："剛才這個人用的是什么鍋？"這種問題測的是短期感知能力。但真正的記憶助手需要回答的問題更像是："你昨天下午做飯時，把那個藍色的硅膠鍋鏟放哪了？"——這才是記憶能力的核心：跨越時間的信息檢索與推理。

具體來說，現有的數據集存在幾個局限。大多數數據集關注的是動作識別（比如"他正在切菜"）或者通用問答（"視頻里有幾個人"），而不是貼近真實記憶需求的問題。另外，現有數據集的視頻片段很短，通常只有幾分鐘，無法模擬人們真實生活中跨越數小時甚至數天的記憶場景。此前唯一比較接近的工作是EgoLife數據集，它確實嘗試了更長時間的第一人稱視頻，但問題設計仍然偏向模板化，問題的語言方式生硬、不自然，也缺乏對多段證據整合推理的測試。

SuperMemory-VQA的出現，正是為了補上這些短板。

二、這套"記憶考題"到底是怎么設計的

研究團隊招募了十名參與者，讓他們佩戴Meta Aria第一代智能眼鏡，在一個模擬家庭環境的出租屋里進行日常活動的錄制。這套眼鏡非常"能干"：它同時記錄了高清彩色視頻（1408×1408像素，每秒30幀）、雙目黑白視頻（用于空間定位）、眼球追蹤、七聲道音頻，以及慣性測量單元（IMU）數據和三維場景點云。通俗地說，這副眼鏡不只是在"看"，它還在"感受"佩戴者的運動狀態、"聽"周圍的聲音、"追蹤"視線焦點，并且實時構建出所處空間的三維地圖。

每位參與者錄制了3到12小時的內容，橫跨多個錄制環節，其中三位參與者的錄制時間甚至延伸到兩周。活動內容包括按照食譜做飯、根據說明書玩桌游、打掃整理房間、與其他參與者交談等，既有獨自進行的任務，也有多人協作的場景。

在這52.9小時的多模態第一人稱視頻基礎上，研究團隊構建了4853個問答對。這些問題被歸納為六大記憶任務類型，覆蓋了人類日常生活中最常見的記憶需求。

第一類是物體與位置記憶。這類問題關注的是某樣東西最后被放在哪里，或者它在不同時間點之間是如何被移動的。比如"我要換衣服了，我洗衣服時把藍色牛仔褲掛在哪了？"正確答案需要系統準確找到參與者之前把牛仔褲掛在衣柜門頂部掛鉤上的那個時刻。

第二類是對話記憶。這類問題要求系統回憶對話中說過的具體內容，包括承諾、延遲回答、中途糾正等細節。比如"我在想我的策略。B之前跟我說，什么時候可以建房子？"系統需要找到對話中B明確說"輪到你的時候"的那一刻。

第三類是視覺場景回溯。這類問題要求系統記住曾經看到過的視覺細節，比如門牌號、包裝上的文字、屏幕上的信息等。比如"我要在手機上訂外賣，我們剛才進來的那扇門上的公寓門牌號是多少？"

第四類是情境內檢索。這類問題需要將當前的情境信息與過去的記憶相連接，進行多步驟推理。比如"我在數我的零錢，我買肯塔基大道花了220美元，我收到了多少找零？"系統需要先找到那次購買的記錄，確認支付了500美元，再推算出找零300美元。

第五類是時間線重建。這類問題要求系統按時間順序整理一系列事件，或者確認某項多步驟任務的操作順序。比如"我想把食譜步驟記下來發給朋友，我之前是按什么順序把香蔥、雞肉和腌料放進鍋里的？"正確答案需要系統把三個不同時間點的操作拼接成正確的時間序列。

第六類是意圖回溯。這類問題關注的是參與者曾經說過或暗示過要做某件事，但最終沒有完成。比如"我覺得我做印度香飯時好像忘了一個步驟，我當時計劃要做但實際沒做的是什么？"系統需要找到參與者在某一次談話中提到"炒制15分鐘"的計劃，再比對后續實際操作的視頻，發現這個步驟確實被跳過了。

三、這些問題有多難：讓AI同時面對時間和不確定性

SuperMemory-VQA的挑戰性不僅體現在問題的類型上，還體現在它的整體設計理念上。

每個問題都被設計成四選一的選擇題，但與普通選擇題不同的是，這四個選項是有"檔位"的：正確答案是完整準確的描述，"含糊"選項是方向對但不夠精確的描述（比如"你把牛仔褲放在了臥室里"），錯誤選項是與事實相悖的描述，而第四個選項永遠是"根據現有證據無法回答"。這個設計非常關鍵，因為它同時測試了兩種能力：AI能不能找到正確答案，以及AI知不知道什么時候該"認輸"而不是瞎猜。

在現實生活中，一個好的記憶助手不應該在不確定的時候給出一個聽起來很有信心但其實是錯的答案。這種"明明不知道卻硬要說"的行為，在AI領域有一個專有名詞叫"幻覺"。SuperMemory-VQA通過專門設置"不可回答"選項，讓測試系統具備了檢測AI是否會幻覺的能力。

此外，研究團隊還特別關注問題語言的自然性。現有數據集的問題往往是"模板化"的，比如"視頻中的人把X放在了哪里？"SuperMemory-VQA的問題則更像真實生活中的口語，帶有情境前綴："我要換衣服了，我洗衣服時把藍色牛仔褲掛在哪了？"這種設計讓問題更貼近AI眼鏡實際使用場景，也讓問題更難被AI通過語言技巧"猜"出答案。

為了驗證這一點，研究團隊專門做了一個"盲測"：讓一個強大的文本語言模型（Qwen3-8B）僅憑看問題和選項的文字，在完全不看任何視頻的情況下回答問題。結果這個模型的整體正確率只有23.8%，與隨機亂猜的25%基準幾乎相同。這說明SuperMemory-VQA的問題無法通過語言規律或常識推斷來"蒙"出答案，必須真正理解視頻內容才能回答。

四、標注這些問題的數據工廠：兩階段的AI+人工流水線

構建這樣一個數據集，本身就是一個巨大的工程挑戰。研究團隊無法靠人工一幀幀看視頻來標注問題——52.9小時的視頻，如果人工觀看并標注，會耗費天文數字級別的時間和精力。

于是他們設計了一套兩階段的半自動化標注流水線，讓AI做大量基礎工作，再由人工進行最終審核。

第一階段是密集視頻描述生成。系統把每段視頻切割成小塊，用大語言模型（具體是Google的Gemini 3 Flash版本）對每個視頻塊生成詳細描述，記錄其中發生的動作、出現的物體、聽到的對話、所處的環境。為了處理多人場景，系統還維護了一個"人物登記冊"，用化名標注視頻中出現的每個人，并記錄他們的外貌特征。所有這些描述被按時間順序整合，形成一份完整的"超級日志"。

第二階段是基于超級日志的問答生成與驗證。一個"問答規劃器"AI（用的是更強大的Gemini 3.1 Pro版本）讀取超級日志，提出候選的問答對，并且在生成答案之前先寫出推理過程，這種"先想再答"的方式有助于提升答案質量。隨后，一個"驗證器"AI對每個問答對進行多維度打分，檢查事實準確性、因果關系的合理性、問題的自然程度，以及答案選項的均衡性。如果某個問答對評分不過關，一個"優化器"AI會根據驗證器的建議對問題和答案進行修改，然后再次提交驗證。這個循環會一直進行，直到問答對通過審核或者被認定為無法挽救而丟棄。通過自動審核的問答對，最終還要經過熟悉錄制過程的研究人員進行人工審核，確保事實準確性和語言自然性。

這套流水線大約花費了3900美元的API調用費用，用來生成最終的4853個經過人工驗證的高質量問答對。

五、現有最強AI系統的成績單：沒有一個及格

有了這套測試題，研究團隊隨即把目前最先進的兩套AI視頻理解系統拉來參考。一套叫Video-RAG，另一套叫EgoButler。

Video-RAG的工作方式類似于一個配備了快速檢索系統的圖書館員。它先把視頻中的文字（通過語音識別）、圖像中的文字（通過OCR）、以及檢測到的物體信息分別存進三個數據庫，當用戶問問題時，系統會從這三個數據庫里搜索最相關的內容，再把找到的信息連同視頻幀一起交給語言模型來生成答案。

EgoButler的設計哲學則不同，它更像是一個有著分層記憶筆記本的助手。它先對每30秒的視頻生成一段詳細描述，然后把這些描述匯總成小時級別的摘要，再匯總成天級別的摘要。當用戶提問時，系統從最高層次的摘要開始搜索，逐步縮小范圍到具體的視頻片段，再提取相關描述交給語言模型回答。

在這兩套系統的基礎上，研究團隊還測試了十個不同的語言模型作為"大腦"，包括開源的Qwen-3-VL（8B和30B兩個尺寸）、InternVL-3.5（8B和30B）、Gemma-4（輕量版和31B版），以及閉源商業模型Gemini-3-Flash、Gemini-3.1-Pro、GPT-5.4-mini和GPT-5.4。

測試結果用三個指標來衡量：一是判斷某個問題到底能不能根據現有視頻回答（可答性F1分數，滿分100%）；二是四選一選擇題的準確率（QA-Acc，隨機猜測的基準是25%）；三是平均倒數排名（QA-MRR，衡量正確答案是否至少排在前面，滿分100%）。

成績單看起來有些令人沮喪。表現最好的組合是Video-RAG搭配Gemini-3-Flash，可答性F1達到了83.9%，意味著它大部分時候能正確判斷一個問題是否可以被回答。但選擇題準確率只有61%——要知道，隨機猜測的基準是25%，所以61%聽起來還行，但面對真正的日常記憶需求，這個準確率遠遠不夠。

換句話說，即便是當前最強的AI系統，在你問它"我上午把那把剪刀放哪了"這類問題時，它每三次大概只能答對不到兩次。

更有意思的發現是不同模型之間的"性格差異"。Gemini-3-Flash像一個積極但有時過于自信的助手，遇到有證據支撐的問題會果斷給出答案，但遇到沒有證據支撐的問題也可能編造出聽起來合理但實際錯誤的答案。Gemini-3.1-Pro則更像一個謹慎保守的助手，遇到不確定的情況往往傾向于回答"根據現有信息無法回答"，因此在可答性判斷上更可靠，但同時也因為過度保守而錯過了很多其實有足夠證據支撐的問題，在選擇題準確率上反而輸給了Flash版本。

研究團隊還單獨分析了"可回答問題"的失敗模式——也就是那些本來有足夠證據可以回答、但AI卻答錯了的情況。結果發現，大多數失敗不是因為AI給出了一個明顯錯誤的答案，而是因為AI在有足夠證據的情況下卻選擇了"無法回答"。多個開源模型在可回答問題上的"過度棄權率"超過了70%，Gemini-3-Flash也有接近40%的可回答問題被它放棄了。這說明現有AI系統還沒學會一個很關鍵的技能：在證據存在時勇于作答。

六、從六種記憶任務看AI的短板在哪里

研究團隊還按照六種任務類型分別統計了各系統的表現，揭示出更細粒度的能力差異。

在EgoButler框架下，各系統在不同任務上的表現非常不均衡，某些任務上的準確率甚至只有20%出頭。Video-RAG框架則顯示出相對均衡的任務覆蓋，特別是在需要跨時間點整合證據的任務上表現更好。這個對比說明，有結構的檢索（Video-RAG的方式）比分層摘要式的記憶（EgoButler的方式）更適合處理時間跨度大、需要精確定位的記憶問題。

研究團隊還細致分析了六種典型的失敗模式，通過具體例子展示了問題的本質所在。

"精確檢索稀疏證據"這個場景是相對容易的情況：當答案藏在一個短暫的視頻片段或一句對話里，只要檢索系統找到了那個時刻，推理本身并不復雜。Video-RAG在這類問題上表現尚可，而EgoButler因為分層摘要容易模糊掉不顯著的細節，往往在這類問題上失敗。

"對話細節混淆"是一種常見的失敗模式：AI找到了相關的對話內容，但把兩個相近的表述混為一談，給出了一個"方向對但內容錯"的答案。比如，用戶問B說他用壓力鍋做什么食材，AI可能找到了那段對話，但把"牛肉"錯記成"肉類"，給出了一個模糊但不準確的答案。這種錯誤特別危險，因為它聽起來有道理，用戶很難察覺。

"小物體和OCR類失敗"是視覺記憶的通病：當答案依賴于視頻中一個很小的物體或很小的文字時，系統往往檢測不到或記錄不下來。比如門牌號、包裝上的品牌名、游戲卡片上的文字。在門牌號這個例子中，Video-RAG給出了錯誤的數字207（正確是205），而EgoButler則直接選擇了"無法回答"。

"時間順序和狀態變化追蹤"是最復雜的挑戰之一：相似的動作、相似的物體、相似的場景在整段錄像中反復出現，AI需要維持一個追蹤物體狀態變化的"事件鏈"，而不僅僅是匹配視覺上相似的片段。比如追蹤某個平底鍋被使用后是否被清洗并收起來，需要系統記住"使用→清洗→收納"這個狀態變化序列，而不只是找到"有平底鍋的幀"。

"假設前提的驗證"是測試AI"知道自己不知道"能力的關鍵場景：當問題中包含了一個實際上不成立的假設時（比如問"我用藍色量杯之后放哪了"，但實際上根本沒有用過藍色量杯），AI應該選擇"無法回答"，而不是順著假設編造一個答案。這類問題上，Gemini-3.1-Pro比Gemini-3-Flash表現更好，因為它更謹慎。但Gemini-3-Flash則往往會給出一個聽起來合理、實際上是完全捏造的答案。

"量詞精確性"是日常記憶中常見但容易被忽視的挑戰：用戶問的不只是"有沒有放鹽"，而是"放了幾勺鹽"。AI系統在總結視頻時往往把重復的動作壓縮為"放了一些"這樣的表述，丟失了具體的數量信息。

七、參與者自己怎么看這套測試題

除了技術層面的測試，研究團隊還做了一項小型用戶調研，讓八位參與者對從自己錄像中生成的問題進行評價。

結果顯示參與者對這套問題的認可度相當高。86%的參與者認為這些問題準確反映了他們在日常生活中真實會遇到的記憶困境。82%的人認為，如果AI能回答這些問題，對他們的日常生活會很有幫助。78%的人認為，回答這些問題所需要的知識不只是一次性的，它也能幫助回答其他類似的問題——也就是說，這些記憶是可復用的"個人知識資產"，而不只是一次性的事實查詢。

值得一提的是，所有參與者對"依賴AI記住這些信息是否合適"的態度相對謹慎——只有約50%的人覺得完全沒問題，另外一半對于把記憶外包給AI還持有保留意見。這折射出一個更深層的社會問題：當AI越來越能替代某些人類功能時，人們對于自主性和隱私的擔憂也在與日俱增。

說到底，這項研究做的事情本質上是"給AI的記憶能力拍了一張清醒的X光片"。它揭示出，現有最強的AI系統在扮演"隨身記憶秘書"這個角色上，還有非常明顯的短板。找東西這件事，AI大約能做到六成準確，而且還會在沒把握的時候說太多"不知道"，在有把握的時候又偶爾說錯。

這對普通人意味著什么？如果你正在期待AI眼鏡能幫你記住所有事情，這項研究告訴你：方向是對的，但技術還沒到那一步。你可能還不能完全信任AI告訴你"你的鑰匙放在廚房抽屜里"——它可能在用那個有點模糊的概率在猜。

當然，研究同時也指出了改進的方向。未來的AI記憶系統需要更精確的小目標檢測和文字識別，需要維護物體狀態變化的顯式追蹤機制，需要更好的時間順序推理能力，以及最關鍵的——需要學會在該作答時大膽作答、在沒有足夠證據時干凈利落地承認不知道。

一個有趣的問題值得進一步思考：如果AI能夠完美記住你生活中的一切，你真的愿意它這么做嗎？SuperMemory-VQA的參與者中，有相當一部分人對此持謹慎態度。技術能做到的事，和人們愿意接受的事，往往并不總是同步前進的。對這項研究感興趣的讀者，可以通過arXiv編號2606.00825查閱完整論文，數據集也已在Hugging Face平臺上公開發布。

Q&A

Q1：SuperMemory-VQA數據集測試的是AI的什么能力？

A：SuperMemory-VQA測試的是AI系統在長時間第一人稱視頻中的記憶能力，具體包括物體位置記憶、對話內容回溯、視覺細節再現、跨事件推理、時間線重建和意圖回溯六大類任務。與普通視頻理解測試不同，它強調的是跨越數小時甚至數天的長時記憶，而非短片段內的感知識別。

Q2：當前最好的AI在SuperMemory-VQA上表現如何？

A：目前最強的組合是Video-RAG框架搭配Gemini-3-Flash模型，選擇題準確率為61%，雖然遠高于隨機猜測的25%基準，但離實用級別仍有較大差距。大多數AI系統面臨的主要問題不是給錯答案，而是在有足夠證據的情況下過度保守地選擇"無法回答"，部分開源模型在可回答問題上的棄權率超過70%。

Q3：SuperMemory-VQA數據集是怎么制作出來的？

A：研究團隊讓參與者佩戴Meta Aria智能眼鏡錄制了52.9小時的日常活動視頻，然后用兩階段AI流水線自動生成候選問答對：先用AI生成密集視頻描述，再用AI規劃和驗證問答對，最后經過人工審核篩選，最終得到4853個高質量問答對，總標注成本約3900美元。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.