哈工大、上海AI實驗室等發(fā)布:AI助手的"記性"到底有多靠譜？

2026-06-13 15:04:30　來源: 科技行者

天津舉報

分享至

這項由哈爾濱工業(yè)大學、上海人工智能實驗室、同濟大學、廈門大學、復旦大學以及上海交通大學共同完成的研究，以預印本形式發(fā)布于2026年6月，論文編號為arXiv:2606.05761。感興趣的讀者可以通過該編號在arXiv平臺查找完整論文。

**一段讓AI"記性"現(xiàn)原形的故事**

你有沒有這樣的經(jīng)歷：和一個朋友相處多年，每次聊到某個話題，他總是前后矛盾——有時說自己喜歡安靜的咖啡館工作，有時又說喜歡熱鬧環(huán)境，最后還說最近換去圖書館了。這時候如果你要幫他訂個地方，單靠他某一次說過的話，十有八九會訂錯。正確的做法是把他所有說過的話放在一起，弄清楚這些話是互相補充的、還是因時因地而異的、還是干脆前后矛盾無法調(diào)和的，然后再做決定。

這件聽起來連小學生都懂的事，現(xiàn)在最頂尖的AI助手做起來卻遠遠沒那么輕松。為了搞清楚AI到底能不能做到這一點，研究團隊設計了一套專門的"考題"，取名SubtleMemory，并用它對市面上十幾款主流AI記憶系統(tǒng)進行了全面測試。結(jié)果出乎不少人意料——即使是最好的系統(tǒng)，距離滿分也差了將近二十個百分點，而在某些特別刁鉆的題目面前，號稱最強的AI表現(xiàn)甚至連六成都不到。

**一、為什么AI助手需要"記性"，而且還需要"好記性"**

把AI助手想成一個你雇來處理日常事務的私人秘書。剛開始，你只有一兩件事要交代，秘書很快就能搞定。但隨著時間推移，你們合作越來越久，他知道的關(guān)于你的信息越積越多——你的飲食偏好、工作習慣、最近的計劃變化、曾經(jīng)提過的矛盾心理。這時候秘書面臨的挑戰(zhàn)就不再是"記住某件具體的事"，而是"在一大堆相互關(guān)聯(lián)的信息里找到正確的那一條，并且清楚地知道它和其他信息之間是什么關(guān)系"。

現(xiàn)實中的AI助手（比如論文中提到的OpenClaw這類產(chǎn)品）每天都在積累大量用戶的歷史對話。這些歷史對話里藏著形形色色的信息片段：有的互相印證、共同指向同一個結(jié)論；有的表面相似但其實只在特定情境下才成立；還有的則直接前后打架，無法同時為真。傳統(tǒng)的AI記憶研究大多只問一個問題："AI能不能記住某件事？"而這項研究提出了一個更難的問題："AI能不能弄清楚它記住的這些事，彼此之間是什么關(guān)系？"

這個區(qū)別就像是：會背誦乘法口訣，和真正理解為什么三乘三等于九，是兩回事。

**二、三種"記憶關(guān)系"：互補、微妙、矛盾**

研究團隊把AI需要處理的記憶關(guān)系歸納成三大類，這三類就像是三種不同難度的迷宮，AI需要在里面找到正確出口。

第一種叫做"互補關(guān)系"。好比你從朋友不同時間說的三句話里，分別知道了他喜歡非洲文學、偏好兩百到三百頁的篇幅、希望書里有女性作者——這三條單獨拿出來都不足以幫你從書架上選出兩本書，但合在一起就能精準鎖定答案。這種情況下AI需要把分散在不同時間、不同對話里的碎片信息拼接成完整圖景。研究團隊把這類情況進一步分成兩個子類：一種是需要同時用到所有線索才能得出答案（叫做"多證據(jù)"型），另一種是任意一條線索都已經(jīng)足夠指向同一答案（叫做"任一證據(jù)"型）。

第二種叫做"細微區(qū)別關(guān)系"。這更像是偵探故事里最難辦的情節(jié)：兩條線索看上去說的是同一件事，但仔細一看，一條是關(guān)于"當年研究生階段"的情況，另一條是關(guān)于"現(xiàn)在"的情況。或者一條適用于"在家"的場景，另一條適用于"給孩子設計工作坊"的場景。AI必須準確識別這些細微的時間或情境差異，不能把不該混用的信息混為一談。研究團隊把這類情況也分成兩個子類：因時間不同而答案不同的（叫做"時間型"），和因情境不同而答案不同的（叫做"情境型"）。

第三種叫做"矛盾關(guān)系"，是三類里最難的。這相當于秘書記下了兩條正面沖突的信息，比如"這個用戶喜歡看Nordic noir犯罪劇"和"這個用戶覺得黑暗犯罪劇太沉重、從不看"。這兩條不可能同時為真，AI既不能隨便選一條當作正確答案，也不能假裝沒看見另一條，正確做法是誠實地承認"我記錄到的信息有沖突，需要用戶來澄清"。

**三、SubtleMemory的"考卷"是怎么出的**

出這套考卷的過程，研究團隊設計了一條精密的五步流水線，每一步都有專門的過濾機制確保質(zhì)量。

整個流程從"選種子"開始。研究團隊從已有的高質(zhì)量數(shù)據(jù)集里挑選了兩類基礎(chǔ)信息：一類是和用戶個人相關(guān)的信息，比如某個虛構(gòu)用戶的生活習慣、喜好和計劃；另一類是和用戶無關(guān)的世界知識，比如某個城市的市花是什么、某本書的類型是什么。前者來自一個叫PersonaMem-v2的個人化數(shù)據(jù)集，后者則來自FanOutQA、MuSiQue、QACC、HoH、AmbigQA等多個知識問答數(shù)據(jù)集。

有了種子信息之后，研究團隊用AI生成"變體"。以一條"Bonita喜歡日式極簡室內(nèi)設計"的信息為例：如果是互補關(guān)系，就生成三條都和室內(nèi)設計相關(guān)但側(cè)重不同細節(jié)的描述，比如"偏好淺色木質(zhì)家具"、"偏好中性色調(diào)"、"偏好收納空間充足的簡潔布局"；如果是細微區(qū)別關(guān)系，就生成幾條分別對應不同情境的描述，比如"在自己公寓里喜歡極簡風"、"在工作室里喜歡北歐風"、"在臨時展臺上喜歡工業(yè)風"；如果是矛盾關(guān)系，就生成兩條針鋒相對的描述，比如"喜歡極簡風"和"不再想要極簡風，現(xiàn)在喜歡復古繁復風"。

接下來，每一條變體信息都不是直接以"條目"的形式出現(xiàn)，而是被悄悄藏進一段自然的多輪對話里。一個用戶在和助手討論如何整理公寓采購清單，談到"那些能活過每次收拾整理的東西，都是線條簡潔、淺木色、素凈色的"——這句話里就藏著她對家居風格的偏好信息。用戶自己沒有明說"我喜歡極簡風"，但讀過這段對話的人能推斷出來。這種設計模仿了真實助手使用場景里信息傳遞的方式——用戶不會專門給助手背誦自己的偏好，而是在日常交談中自然流露。

為了避免對話內(nèi)容單調(diào)，研究團隊定義了十種對話類型，包括決策支持、規(guī)劃協(xié)調(diào)、故障排查、學習解釋、資源選擇、流程建立、信息整理、個人反思、產(chǎn)出內(nèi)容、審閱本地化，每種類型還配有三種不同的交互節(jié)奏模板。每段對話從這些類型中隨機采樣，確保全套考卷里的對話場景盡可能豐富多樣。

完成對話的生成之后，研究團隊為每個知識點設計了對應的考題和參考答案。考題分兩大類：針對世界知識的，就是直接問"誰在9-1-1里演Buck這個角色"這樣的問題；針對用戶個人信息的，要么是填表單（比如填寫一張員工檔案，其中有咖啡偏好一欄），要么是從提供的候選資源里選出最合適的（比如從一堆書里選出兩本最符合這個用戶品味的）。這兩種形式都能讓評判結(jié)果更客觀、更可量化。

最后，所有這些對話都被拼成完整的長期歷史記錄。每份歷史記錄平均包含236.4段對話，合計約21.16萬個詞語單位，相關(guān)信息片段自然地散落在不同時間點，中間穿插大量無關(guān)內(nèi)容。整個基準最終包含1522道評測題，背后對應1090組經(jīng)過關(guān)系控制的信息變體集，其中互補關(guān)系占361組、細微區(qū)別關(guān)系占352組、矛盾關(guān)系占377組。

**四、誰來答這套卷子，誰來改卷**

研究團隊評測了三種不同形態(tài)的AI記憶系統(tǒng)。第一種是"獨立記憶系統(tǒng)"，相當于一個專門負責存儲和檢索信息的模塊，測試了六款：Mem0、MemOS、EverMemOS、MIRIX、A-Mem和MemoBase。第二種是"自帶記憶的完整AI助手"，測試了兩款：OpenClaw和MetaClaw。第三種是"借助插件擴展記憶能力的AI助手"，測試了OpenClaw分別搭載Mem0、MemOS、EverMemOS三種外部記憶插件后的表現(xiàn)。

改卷的工作由Gemini 3.1 Pro Preview Thinking模型擔任"評委"。為了驗證這位AI評委靠不靠譜，研究團隊事先讓人工標注了225道題的參考答案，然后拿AI評委的結(jié)論和人工結(jié)論對比。結(jié)果顯示，兩者的一致程度達到了Cohen's κ值0.963——這是一個非常高的一致性分數(shù)，意味著AI評委的判斷幾乎和人工判斷一樣可靠。

回答問題的模型，研究團隊主要測試了兩款：GPT-5.4和GPT-OSS-120B。他們還針對回答問題時用的提示詞設計了兩個版本：一個是"軟提示"，只給出大方向的指引；另一個是"強提示"，明確告訴模型要精準識別目標信息、識別沖突、忠于證據(jù)、在證據(jù)不足時說清楚。從一套包含141道題的小規(guī)模校準實驗里，他們發(fā)現(xiàn)GPT-5.4配合強提示能達到90.1%的整體正確率——但注意，這是在把原始對話直接喂給模型、完全繞過記憶系統(tǒng)的"理想條件"下取得的成績，現(xiàn)實中記憶系統(tǒng)會帶來額外損耗。基于這個發(fā)現(xiàn)，正式評測統(tǒng)一采用GPT-5.4加強提示的組合。

**五、測試結(jié)果：沒有一個系統(tǒng)能真正過關(guān)**

正式測試的結(jié)果讓人印象深刻——不是因為哪個系統(tǒng)特別出色，而是因為所有系統(tǒng)距離理想狀態(tài)都還差得很遠。

在使用GPT-5.4作為答題模型的情況下，最好的獨立記憶系統(tǒng)是A-Mem，整體正確率70.0%；其次是Mem0，69.0%；再次是EverMemOS，68.1%。而理想條件下的"上限"（直接把相關(guān)原始對話喂給模型，完全不經(jīng)過記憶系統(tǒng)）是85.4%。也就是說，最好的記憶系統(tǒng)也比理想狀態(tài)低了超過15個百分點。

把A-Mem和MemoBase對比，差距更加觸目驚心：A-Mem整體正確率70.0%，而MemoBase只有32.1%——這差距幾乎等于一半的題目都答錯了。

搭載記憶插件的OpenClaw表現(xiàn)怎樣？Mem0加OpenClaw的組合達到了71.3%，略優(yōu)于單獨使用Mem0的69.0%；EverMemOS加OpenClaw達到69.1%，也略優(yōu)于單獨使用EverMemOS的68.1%。然而MemOS加OpenClaw的組合卻只有56.5%，反而低于單獨使用MemOS的56.8%——這說明加上AI助手的上下文管理層并不總是幫忙，有時反而會干擾。尤其是在使用GPT-OSS-120B這個稍弱一些的模型時，加上OpenClaw層幾乎在所有組合里都帶來了負面效果。

MetaClaw的表現(xiàn)令人驚訝地低，整體只有20.3%，比瞎猜好不了多少。原因在于MetaClaw的記憶機制更側(cè)重于提煉"技能"和"經(jīng)驗"這類可復用的程序性知識，而不擅長保存需要精確細節(jié)的事實性記憶，這和SubtleMemory考察的需求正好背道而馳。

**六、三類關(guān)系，難度大不相同**

如果把整體成績按三種關(guān)系類型拆開來看，差異更加明顯。

互補關(guān)系的題目整體還算好做，但也要分子類型來看。"任一證據(jù)"型的題目，因為只需要從記憶里找到任意一條相關(guān)信息就夠了，難度相對較低；"多證據(jù)"型的題目則需要把散落在多段對話里的幾條信息全都找到并整合，難度明顯更高。

細微區(qū)別關(guān)系的題目在"理想條件"下表現(xiàn)最好，幾乎能達到飽和。這是因為這類題目雖然需要從多條相似信息里選出正確的那一條，但本質(zhì)上只需要精準匹配，而不需要同時處理多條信息之間的復雜關(guān)系。然而在現(xiàn)實記憶系統(tǒng)的條件下，時間型的題目明顯比情境型更難——有趣的是，理想條件下的表現(xiàn)正好相反，說明現(xiàn)有的記憶系統(tǒng)在處理時間信息時有額外的弱點，也就是說AI助手對"什么時候說的什么"這件事記錄得不夠精準。

矛盾關(guān)系的題目則是三類里最難的，沒有任何懸念。即使在完全理想的條件下，GPT-5.4也只答對了68.7%，GPT-OSS-120B更只有41.6%。這意味著即使把所有相關(guān)對話直接擺在模型面前，它仍然很難正確地識別沖突、拒絕給出武斷的答案。各系統(tǒng)在矛盾關(guān)系題目上的表現(xiàn)，普遍比互補和細微區(qū)別兩類低了二三十個百分點，差距之大超過了研究團隊的預期。這背后揭示的問題是：當前大型語言模型在面對無法調(diào)和的矛盾信息時，很容易傾向于"強行解決"——或者偷偷選一邊站，或者發(fā)明一個不存在的理由把矛盾圓過去，而不是誠實地承認"這個問題我沒有足夠的信息來回答"。

**七、記憶損耗的三個環(huán)節(jié)：存、取、用**

為了更精準地弄清楚問題出在哪里，研究團隊設計了一套三階段的診斷方法，把AI記憶系統(tǒng)的工作流程拆成三個環(huán)節(jié)來分別考察。

第一個環(huán)節(jié)叫做"記憶保存"。研究團隊先把所有歷史對話完整地送進每個記憶系統(tǒng)，然后用"理想檢索"的方式——直接把系統(tǒng)存儲的、來自相關(guān)對話的記憶條目拿出來——來答題，看看和直接用原始對話相比，正確率下降了多少。下降的部分就代表在"把信息從對話轉(zhuǎn)存成記憶"這個環(huán)節(jié)里損失掉的信息。

第二個環(huán)節(jié)叫做"檢索能力"。保存環(huán)節(jié)過關(guān)之后，換成系統(tǒng)自己去檢索相關(guān)記憶來答題，看看和"理想檢索"相比又下降了多少。這一步的下降代表檢索環(huán)節(jié)的損失。

第三個環(huán)節(jié)就是默認條件下的整體表現(xiàn)，把兩個環(huán)節(jié)的損失疊加起來，得出最終成績。

從這個三階段診斷來看，各個系統(tǒng)的短板各不相同。A-Mem和OpenClaw在保存環(huán)節(jié)表現(xiàn)最好，分別達到了93.5%和91.5%的保存成功率。這兩個系統(tǒng)有一個共同特點：除了把信息整理成結(jié)構(gòu)化的記憶條目之外，它們還保留了原始對話記錄。原始對話里包含很多細節(jié)，這些細節(jié)在壓縮成摘要的過程中很容易丟失，但解答SubtleMemory的題目往往需要這些細節(jié)。MemoBase在保存環(huán)節(jié)只有39.1%，大量信息在進入記憶的第一步就丟了，但它在檢索環(huán)節(jié)相對較強，達到了75.6%——意思是雖然存進去的東西不多，但只要存進去了，基本上還能找得到。OpenClaw保存得很好，但檢索時矛盾關(guān)系題目的檢索成功率只有34.2%，導致最終矛盾關(guān)系題目只答對了25.5%。這說明把沖突信息正確召回是一個特別棘手的問題。

從關(guān)系類型來看，矛盾關(guān)系的信息在保存階段就特別容易"丟"，很可能是因為互相沖突的事實在進入記憶系統(tǒng)時會相互干擾，被系統(tǒng)錯誤地合并或丟棄；互補和矛盾關(guān)系的題目在檢索階段也比細微區(qū)別關(guān)系更難，因為它們往往需要同時取出多條相關(guān)信息，而細微區(qū)別關(guān)系只需要取出最匹配的那一條。

**八、測試結(jié)論意味著什么**

說到底，這項研究做的事是用一把更精密的尺子來量AI助手的"記憶質(zhì)量"。之前的研究問的是"AI記得住嗎"，這項研究問的是"AI記得清嗎"——記得清楚不同時間、不同情境說過的話之間是什么關(guān)系，能不能在需要的時候把相關(guān)的信息全部找出來，能不能在信息相互矛盾時誠實地告知，而不是假裝問題不存在。

測試結(jié)果表明，最好的系統(tǒng)還差著將近二十個百分點才能達到理想水平，而矛盾關(guān)系的處理即便在最理想的條件下也沒有超過七成正確。這個發(fā)現(xiàn)對于任何正在開發(fā)或使用長期AI助手的人都很有參考價值：不要以為你的助手"記住"了你說過的話，就代表它真正"理解"了這些話之間的關(guān)系。尤其是當你的需求發(fā)生過變化、曾經(jīng)說過前后矛盾的話的時候，助手很可能正在一本正經(jīng)地給你一個基于錯誤理解的建議。

對于研究者來說，這項工作指出了一個清晰的改進方向：AI記憶系統(tǒng)需要在信息存儲時保留更多細節(jié)（尤其是時間和情境信息），在檢索時能夠同時取回多條相關(guān)信息，在回答時能夠識別矛盾并保持誠實。這三個方向任何一個單獨突破，都能帶來實質(zhì)性的提升。

有興趣深入探索這個話題的讀者，可以通過arXiv:2606.05761查閱完整論文，研究團隊的項目主頁和代碼也已經(jīng)公開，方便有意在自己的記憶系統(tǒng)上運行SubtleMemory測試的開發(fā)者直接使用。

Q&A

Q1：SubtleMemory評測基準測的是AI記憶能力的哪個方面？

A：SubtleMemory不測AI能不能記住某件事，而是測AI能不能搞清楚它記住的多條相關(guān)信息之間是什么關(guān)系。具體來說分三種情況：多條信息是互相補充的，還是只在特定時間或情境下才成立，還是干脆互相矛盾。現(xiàn)有系統(tǒng)在這三類情況下的表現(xiàn)都有明顯不足，矛盾關(guān)系的處理尤其困難，即使是最好的系統(tǒng)正確率也不到七成。

Q2：為什么AI記憶系統(tǒng)在處理矛盾信息時特別差？

A：核心原因有兩個。一是現(xiàn)有記憶系統(tǒng)在把對話整理成記憶條目時，互相沖突的信息很容易被錯誤合并或丟棄，在存儲階段就已經(jīng)損失了關(guān)鍵細節(jié)。二是大型語言模型本身在面對無法調(diào)和的矛盾時，傾向于強行選一邊或發(fā)明理由把矛盾圓過去，而不是誠實承認信息存在沖突。這兩個問題疊加，導致矛盾關(guān)系題目的得分在所有類別里墊底。

Q3：A-Mem為什么在保存環(huán)節(jié)表現(xiàn)特別好？

A：A-Mem除了把信息整理成結(jié)構(gòu)化記憶條目之外，還額外保留了原始對話記錄。原始對話里包含大量細節(jié)，這些細節(jié)在被壓縮成摘要時很容易丟失，但SubtleMemory的很多題目恰恰需要這些細節(jié)才能答對。OpenClaw也有類似的特點，兩者的保存成功率都超過了91%，遠高于那些只保存結(jié)構(gòu)化摘要的系統(tǒng)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.