![]()
這項由哈爾濱工業(yè)大學、上海人工智能實驗室、同濟大學、廈門大學、復旦大學以及上海交通大學共同完成的研究,以預印本形式發(fā)布于2026年6月,論文編號為arXiv:2606.05761。感興趣的讀者可以通過該編號在arXiv平臺查找完整論文。
**一段讓AI"記性"現(xiàn)原形的故事**
你有沒有這樣的經(jīng)歷:和一個朋友相處多年,每次聊到某個話題,他總是前后矛盾——有時說自己喜歡安靜的咖啡館工作,有時又說喜歡熱鬧環(huán)境,最后還說最近換去圖書館了。這時候如果你要幫他訂個地方,單靠他某一次說過的話,十有八九會訂錯。正確的做法是把他所有說過的話放在一起,弄清楚這些話是互相補充的、還是因時因地而異的、還是干脆前后矛盾無法調(diào)和的,然后再做決定。
這件聽起來連小學生都懂的事,現(xiàn)在最頂尖的AI助手做起來卻遠遠沒那么輕松。為了搞清楚AI到底能不能做到這一點,研究團隊設計了一套專門的"考題",取名SubtleMemory,并用它對市面上十幾款主流AI記憶系統(tǒng)進行了全面測試。結(jié)果出乎不少人意料——即使是最好的系統(tǒng),距離滿分也差了將近二十個百分點,而在某些特別刁鉆的題目面前,號稱最強的AI表現(xiàn)甚至連六成都不到。
**一、為什么AI助手需要"記性",而且還需要"好記性"**
把AI助手想成一個你雇來處理日常事務的私人秘書。剛開始,你只有一兩件事要交代,秘書很快就能搞定。但隨著時間推移,你們合作越來越久,他知道的關(guān)于你的信息越積越多——你的飲食偏好、工作習慣、最近的計劃變化、曾經(jīng)提過的矛盾心理。這時候秘書面臨的挑戰(zhàn)就不再是"記住某件具體的事",而是"在一大堆相互關(guān)聯(lián)的信息里找到正確的那一條,并且清楚地知道它和其他信息之間是什么關(guān)系"。
現(xiàn)實中的AI助手(比如論文中提到的OpenClaw這類產(chǎn)品)每天都在積累大量用戶的歷史對話。這些歷史對話里藏著形形色色的信息片段:有的互相印證、共同指向同一個結(jié)論;有的表面相似但其實只在特定情境下才成立;還有的則直接前后打架,無法同時為真。傳統(tǒng)的AI記憶研究大多只問一個問題:"AI能不能記住某件事?"而這項研究提出了一個更難的問題:"AI能不能弄清楚它記住的這些事,彼此之間是什么關(guān)系?"
這個區(qū)別就像是:會背誦乘法口訣,和真正理解為什么三乘三等于九,是兩回事。
**二、三種"記憶關(guān)系":互補、微妙、矛盾**
研究團隊把AI需要處理的記憶關(guān)系歸納成三大類,這三類就像是三種不同難度的迷宮,AI需要在里面找到正確出口。
第一種叫做"互補關(guān)系"。好比你從朋友不同時間說的三句話里,分別知道了他喜歡非洲文學、偏好兩百到三百頁的篇幅、希望書里有女性作者——這三條單獨拿出來都不足以幫你從書架上選出兩本書,但合在一起就能精準鎖定答案。這種情況下AI需要把分散在不同時間、不同對話里的碎片信息拼接成完整圖景。研究團隊把這類情況進一步分成兩個子類:一種是需要同時用到所有線索才能得出答案(叫做"多證據(jù)"型),另一種是任意一條線索都已經(jīng)足夠指向同一答案(叫做"任一證據(jù)"型)。
第二種叫做"細微區(qū)別關(guān)系"。這更像是偵探故事里最難辦的情節(jié):兩條線索看上去說的是同一件事,但仔細一看,一條是關(guān)于"當年研究生階段"的情況,另一條是關(guān)于"現(xiàn)在"的情況。或者一條適用于"在家"的場景,另一條適用于"給孩子設計工作坊"的場景。AI必須準確識別這些細微的時間或情境差異,不能把不該混用的信息混為一談。研究團隊把這類情況也分成兩個子類:因時間不同而答案不同的(叫做"時間型"),和因情境不同而答案不同的(叫做"情境型")。
第三種叫做"矛盾關(guān)系",是三類里最難的。這相當于秘書記下了兩條正面沖突的信息,比如"這個用戶喜歡看Nordic noir犯罪劇"和"這個用戶覺得黑暗犯罪劇太沉重、從不看"。這兩條不可能同時為真,AI既不能隨便選一條當作正確答案,也不能假裝沒看見另一條,正確做法是誠實地承認"我記錄到的信息有沖突,需要用戶來澄清"。
**三、SubtleMemory的"考卷"是怎么出的**
出這套考卷的過程,研究團隊設計了一條精密的五步流水線,每一步都有專門的過濾機制確保質(zhì)量。
整個流程從"選種子"開始。研究團隊從已有的高質(zhì)量數(shù)據(jù)集里挑選了兩類基礎(chǔ)信息:一類是和用戶個人相關(guān)的信息,比如某個虛構(gòu)用戶的生活習慣、喜好和計劃;另一類是和用戶無關(guān)的世界知識,比如某個城市的市花是什么、某本書的類型是什么。前者來自一個叫PersonaMem-v2的個人化數(shù)據(jù)集,后者則來自FanOutQA、MuSiQue、QACC、HoH、AmbigQA等多個知識問答數(shù)據(jù)集。
有了種子信息之后,研究團隊用AI生成"變體"。以一條"Bonita喜歡日式極簡室內(nèi)設計"的信息為例:如果是互補關(guān)系,就生成三條都和室內(nèi)設計相關(guān)但側(cè)重不同細節(jié)的描述,比如"偏好淺色木質(zhì)家具"、"偏好中性色調(diào)"、"偏好收納空間充足的簡潔布局";如果是細微區(qū)別關(guān)系,就生成幾條分別對應不同情境的描述,比如"在自己公寓里喜歡極簡風"、"在工作室里喜歡北歐風"、"在臨時展臺上喜歡工業(yè)風";如果是矛盾關(guān)系,就生成兩條針鋒相對的描述,比如"喜歡極簡風"和"不再想要極簡風,現(xiàn)在喜歡復古繁復風"。
接下來,每一條變體信息都不是直接以"條目"的形式出現(xiàn),而是被悄悄藏進一段自然的多輪對話里。一個用戶在和助手討論如何整理公寓采購清單,談到"那些能活過每次收拾整理的東西,都是線條簡潔、淺木色、素凈色的"——這句話里就藏著她對家居風格的偏好信息。用戶自己沒有明說"我喜歡極簡風",但讀過這段對話的人能推斷出來。這種設計模仿了真實助手使用場景里信息傳遞的方式——用戶不會專門給助手背誦自己的偏好,而是在日常交談中自然流露。
為了避免對話內(nèi)容單調(diào),研究團隊定義了十種對話類型,包括決策支持、規(guī)劃協(xié)調(diào)、故障排查、學習解釋、資源選擇、流程建立、信息整理、個人反思、產(chǎn)出內(nèi)容、審閱本地化,每種類型還配有三種不同的交互節(jié)奏模板。每段對話從這些類型中隨機采樣,確保全套考卷里的對話場景盡可能豐富多樣。
完成對話的生成之后,研究團隊為每個知識點設計了對應的考題和參考答案。考題分兩大類:針對世界知識的,就是直接問"誰在9-1-1里演Buck這個角色"這樣的問題;針對用戶個人信息的,要么是填表單(比如填寫一張員工檔案,其中有咖啡偏好一欄),要么是從提供的候選資源里選出最合適的(比如從一堆書里選出兩本最符合這個用戶品味的)。這兩種形式都能讓評判結(jié)果更客觀、更可量化。
最后,所有這些對話都被拼成完整的長期歷史記錄。每份歷史記錄平均包含236.4段對話,合計約21.16萬個詞語單位,相關(guān)信息片段自然地散落在不同時間點,中間穿插大量無關(guān)內(nèi)容。整個基準最終包含1522道評測題,背后對應1090組經(jīng)過關(guān)系控制的信息變體集,其中互補關(guān)系占361組、細微區(qū)別關(guān)系占352組、矛盾關(guān)系占377組。
**四、誰來答這套卷子,誰來改卷**
研究團隊評測了三種不同形態(tài)的AI記憶系統(tǒng)。第一種是"獨立記憶系統(tǒng)",相當于一個專門負責存儲和檢索信息的模塊,測試了六款:Mem0、MemOS、EverMemOS、MIRIX、A-Mem和MemoBase。第二種是"自帶記憶的完整AI助手",測試了兩款:OpenClaw和MetaClaw。第三種是"借助插件擴展記憶能力的AI助手",測試了OpenClaw分別搭載Mem0、MemOS、EverMemOS三種外部記憶插件后的表現(xiàn)。
改卷的工作由Gemini 3.1 Pro Preview Thinking模型擔任"評委"。為了驗證這位AI評委靠不靠譜,研究團隊事先讓人工標注了225道題的參考答案,然后拿AI評委的結(jié)論和人工結(jié)論對比。結(jié)果顯示,兩者的一致程度達到了Cohen's κ值0.963——這是一個非常高的一致性分數(shù),意味著AI評委的判斷幾乎和人工判斷一樣可靠。
回答問題的模型,研究團隊主要測試了兩款:GPT-5.4和GPT-OSS-120B。他們還針對回答問題時用的提示詞設計了兩個版本:一個是"軟提示",只給出大方向的指引;另一個是"強提示",明確告訴模型要精準識別目標信息、識別沖突、忠于證據(jù)、在證據(jù)不足時說清楚。從一套包含141道題的小規(guī)模校準實驗里,他們發(fā)現(xiàn)GPT-5.4配合強提示能達到90.1%的整體正確率——但注意,這是在把原始對話直接喂給模型、完全繞過記憶系統(tǒng)的"理想條件"下取得的成績,現(xiàn)實中記憶系統(tǒng)會帶來額外損耗。基于這個發(fā)現(xiàn),正式評測統(tǒng)一采用GPT-5.4加強提示的組合。
**五、測試結(jié)果:沒有一個系統(tǒng)能真正過關(guān)**
正式測試的結(jié)果讓人印象深刻——不是因為哪個系統(tǒng)特別出色,而是因為所有系統(tǒng)距離理想狀態(tài)都還差得很遠。
在使用GPT-5.4作為答題模型的情況下,最好的獨立記憶系統(tǒng)是A-Mem,整體正確率70.0%;其次是Mem0,69.0%;再次是EverMemOS,68.1%。而理想條件下的"上限"(直接把相關(guān)原始對話喂給模型,完全不經(jīng)過記憶系統(tǒng))是85.4%。也就是說,最好的記憶系統(tǒng)也比理想狀態(tài)低了超過15個百分點。
把A-Mem和MemoBase對比,差距更加觸目驚心:A-Mem整體正確率70.0%,而MemoBase只有32.1%——這差距幾乎等于一半的題目都答錯了。
搭載記憶插件的OpenClaw表現(xiàn)怎樣?Mem0加OpenClaw的組合達到了71.3%,略優(yōu)于單獨使用Mem0的69.0%;EverMemOS加OpenClaw達到69.1%,也略優(yōu)于單獨使用EverMemOS的68.1%。然而MemOS加OpenClaw的組合卻只有56.5%,反而低于單獨使用MemOS的56.8%——這說明加上AI助手的上下文管理層并不總是幫忙,有時反而會干擾。尤其是在使用GPT-OSS-120B這個稍弱一些的模型時,加上OpenClaw層幾乎在所有組合里都帶來了負面效果。
MetaClaw的表現(xiàn)令人驚訝地低,整體只有20.3%,比瞎猜好不了多少。原因在于MetaClaw的記憶機制更側(cè)重于提煉"技能"和"經(jīng)驗"這類可復用的程序性知識,而不擅長保存需要精確細節(jié)的事實性記憶,這和SubtleMemory考察的需求正好背道而馳。
**六、三類關(guān)系,難度大不相同**
如果把整體成績按三種關(guān)系類型拆開來看,差異更加明顯。
互補關(guān)系的題目整體還算好做,但也要分子類型來看。"任一證據(jù)"型的題目,因為只需要從記憶里找到任意一條相關(guān)信息就夠了,難度相對較低;"多證據(jù)"型的題目則需要把散落在多段對話里的幾條信息全都找到并整合,難度明顯更高。
細微區(qū)別關(guān)系的題目在"理想條件"下表現(xiàn)最好,幾乎能達到飽和。這是因為這類題目雖然需要從多條相似信息里選出正確的那一條,但本質(zhì)上只需要精準匹配,而不需要同時處理多條信息之間的復雜關(guān)系。然而在現(xiàn)實記憶系統(tǒng)的條件下,時間型的題目明顯比情境型更難——有趣的是,理想條件下的表現(xiàn)正好相反,說明現(xiàn)有的記憶系統(tǒng)在處理時間信息時有額外的弱點,也就是說AI助手對"什么時候說的什么"這件事記錄得不夠精準。
矛盾關(guān)系的題目則是三類里最難的,沒有任何懸念。即使在完全理想的條件下,GPT-5.4也只答對了68.7%,GPT-OSS-120B更只有41.6%。這意味著即使把所有相關(guān)對話直接擺在模型面前,它仍然很難正確地識別沖突、拒絕給出武斷的答案。各系統(tǒng)在矛盾關(guān)系題目上的表現(xiàn),普遍比互補和細微區(qū)別兩類低了二三十個百分點,差距之大超過了研究團隊的預期。這背后揭示的問題是:當前大型語言模型在面對無法調(diào)和的矛盾信息時,很容易傾向于"強行解決"——或者偷偷選一邊站,或者發(fā)明一個不存在的理由把矛盾圓過去,而不是誠實地承認"這個問題我沒有足夠的信息來回答"。
**七、記憶損耗的三個環(huán)節(jié):存、取、用**
為了更精準地弄清楚問題出在哪里,研究團隊設計了一套三階段的診斷方法,把AI記憶系統(tǒng)的工作流程拆成三個環(huán)節(jié)來分別考察。
第一個環(huán)節(jié)叫做"記憶保存"。研究團隊先把所有歷史對話完整地送進每個記憶系統(tǒng),然后用"理想檢索"的方式——直接把系統(tǒng)存儲的、來自相關(guān)對話的記憶條目拿出來——來答題,看看和直接用原始對話相比,正確率下降了多少。下降的部分就代表在"把信息從對話轉(zhuǎn)存成記憶"這個環(huán)節(jié)里損失掉的信息。
第二個環(huán)節(jié)叫做"檢索能力"。保存環(huán)節(jié)過關(guān)之后,換成系統(tǒng)自己去檢索相關(guān)記憶來答題,看看和"理想檢索"相比又下降了多少。這一步的下降代表檢索環(huán)節(jié)的損失。
第三個環(huán)節(jié)就是默認條件下的整體表現(xiàn),把兩個環(huán)節(jié)的損失疊加起來,得出最終成績。
從這個三階段診斷來看,各個系統(tǒng)的短板各不相同。A-Mem和OpenClaw在保存環(huán)節(jié)表現(xiàn)最好,分別達到了93.5%和91.5%的保存成功率。這兩個系統(tǒng)有一個共同特點:除了把信息整理成結(jié)構(gòu)化的記憶條目之外,它們還保留了原始對話記錄。原始對話里包含很多細節(jié),這些細節(jié)在壓縮成摘要的過程中很容易丟失,但解答SubtleMemory的題目往往需要這些細節(jié)。MemoBase在保存環(huán)節(jié)只有39.1%,大量信息在進入記憶的第一步就丟了,但它在檢索環(huán)節(jié)相對較強,達到了75.6%——意思是雖然存進去的東西不多,但只要存進去了,基本上還能找得到。OpenClaw保存得很好,但檢索時矛盾關(guān)系題目的檢索成功率只有34.2%,導致最終矛盾關(guān)系題目只答對了25.5%。這說明把沖突信息正確召回是一個特別棘手的問題。
從關(guān)系類型來看,矛盾關(guān)系的信息在保存階段就特別容易"丟",很可能是因為互相沖突的事實在進入記憶系統(tǒng)時會相互干擾,被系統(tǒng)錯誤地合并或丟棄;互補和矛盾關(guān)系的題目在檢索階段也比細微區(qū)別關(guān)系更難,因為它們往往需要同時取出多條相關(guān)信息,而細微區(qū)別關(guān)系只需要取出最匹配的那一條。
**八、測試結(jié)論意味著什么**
說到底,這項研究做的事是用一把更精密的尺子來量AI助手的"記憶質(zhì)量"。之前的研究問的是"AI記得住嗎",這項研究問的是"AI記得清嗎"——記得清楚不同時間、不同情境說過的話之間是什么關(guān)系,能不能在需要的時候把相關(guān)的信息全部找出來,能不能在信息相互矛盾時誠實地告知,而不是假裝問題不存在。
測試結(jié)果表明,最好的系統(tǒng)還差著將近二十個百分點才能達到理想水平,而矛盾關(guān)系的處理即便在最理想的條件下也沒有超過七成正確。這個發(fā)現(xiàn)對于任何正在開發(fā)或使用長期AI助手的人都很有參考價值:不要以為你的助手"記住"了你說過的話,就代表它真正"理解"了這些話之間的關(guān)系。尤其是當你的需求發(fā)生過變化、曾經(jīng)說過前后矛盾的話的時候,助手很可能正在一本正經(jīng)地給你一個基于錯誤理解的建議。
對于研究者來說,這項工作指出了一個清晰的改進方向:AI記憶系統(tǒng)需要在信息存儲時保留更多細節(jié)(尤其是時間和情境信息),在檢索時能夠同時取回多條相關(guān)信息,在回答時能夠識別矛盾并保持誠實。這三個方向任何一個單獨突破,都能帶來實質(zhì)性的提升。
有興趣深入探索這個話題的讀者,可以通過arXiv:2606.05761查閱完整論文,研究團隊的項目主頁和代碼也已經(jīng)公開,方便有意在自己的記憶系統(tǒng)上運行SubtleMemory測試的開發(fā)者直接使用。
Q&A
Q1:SubtleMemory評測基準測的是AI記憶能力的哪個方面?
A:SubtleMemory不測AI能不能記住某件事,而是測AI能不能搞清楚它記住的多條相關(guān)信息之間是什么關(guān)系。具體來說分三種情況:多條信息是互相補充的,還是只在特定時間或情境下才成立,還是干脆互相矛盾。現(xiàn)有系統(tǒng)在這三類情況下的表現(xiàn)都有明顯不足,矛盾關(guān)系的處理尤其困難,即使是最好的系統(tǒng)正確率也不到七成。
Q2:為什么AI記憶系統(tǒng)在處理矛盾信息時特別差?
A:核心原因有兩個。一是現(xiàn)有記憶系統(tǒng)在把對話整理成記憶條目時,互相沖突的信息很容易被錯誤合并或丟棄,在存儲階段就已經(jīng)損失了關(guān)鍵細節(jié)。二是大型語言模型本身在面對無法調(diào)和的矛盾時,傾向于強行選一邊或發(fā)明理由把矛盾圓過去,而不是誠實承認信息存在沖突。這兩個問題疊加,導致矛盾關(guān)系題目的得分在所有類別里墊底。
Q3:A-Mem為什么在保存環(huán)節(jié)表現(xiàn)特別好?
A:A-Mem除了把信息整理成結(jié)構(gòu)化記憶條目之外,還額外保留了原始對話記錄。原始對話里包含大量細節(jié),這些細節(jié)在被壓縮成摘要時很容易丟失,但SubtleMemory的很多題目恰恰需要這些細節(jié)才能答對。OpenClaw也有類似的特點,兩者的保存成功率都超過了91%,遠高于那些只保存結(jié)構(gòu)化摘要的系統(tǒng)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.