網易首頁 > 網易號 > 正文申請入駐

武漢大學等高校聯手揭露AI助手的"記憶盲區":它們真的記得你嗎？

2026-05-21 20:59:43　來源: 科技行者

北京舉報

分享至

這項由武漢大學、香港中文大學和香港科技大學聯合開展的研究以預印本形式于2026年5月發表，論文編號為arXiv:2605.06527，有興趣深入了解的讀者可以通過該編號查詢完整論文。

你有沒有試過這樣一件事：你和手機里的AI助手聊了很久，告訴它你的生活習慣、工作狀態、甚至你最近的煩惱，然后隔一段時間再和它聊天，發現它對你的了解依然停留在最開始的那個版本？就好像你曾經告訴一位老朋友你喜歡騎車上班，結果三個月后你腿骨折了，但朋友還是在認真給你推薦騎行路線——這種錯位不只是尷尬，在某些情況下還可能帶來真正的麻煩。

這項研究揭示的，正是當今最先進的AI語言模型普遍存在的一個隱秘缺陷：它們會"忘記更新"，或者更準確地說，它們不知道自己儲存的某些記憶已經過時了。

一、AI助手到底是怎么"記住你"的

要理解這個問題，先來弄清楚AI助手的記憶是怎么工作的。現在的AI對話系統，比如各種聊天助手，通常會把你和它之間的歷史對話保存下來，作為它認識你的"檔案"。當你再次提問時，它會翻開這份檔案，找到和你問題相關的信息，然后結合這些信息給你回答。

這個過程聽起來很合理，就像一個貼心的秘書把你說過的每件事都記在本子上，下次你問到相關的事情，它就翻開本子參考。但問題來了：如果你早些時候說的某件事，因為生活發生了變化而不再適用，這個秘書會不會還在拿著那條舊記錄給你提建議？

研究團隊發現，現有的AI系統在這方面存在系統性的失誤，而且失誤的方式還分為兩種截然不同的類型，讓人出乎意料。

第一種類型叫做"同屬性沖突"。舉個具體的例子：你某次告訴AI說你住在上海，后來你在和AI的另一次對話里提到你剛剛簽了北京的新公寓租約、還在辦理當地的水電開戶手續。這兩條信息都和你的居住地有關，但新信息已經暗示著你的居住地發生了變化，只是你從來沒有明確說"我從上海搬到北京了"這句話。聰明的人聽到后面那條信息，會自然地理解你大概已經不住在上海了；但AI系統往往還是認為你在上海。

第二種類型更復雜，叫做"傳播型沖突"。這種情況下，新信息更新的不是同一個屬性，而是一個相關的屬性，但這個變化會像多米諾骨牌一樣，影響到原來那條舊記憶的有效性。回到開頭的例子：你之前告訴AI你每天騎車上班，后來你提到打籃球時摔斷了腿。這條新信息更新的是你的"健康狀態"，而不是你的"通勤方式"，但顯然，腿骨折這件事從邏輯上來說應該讓AI意識到，你暫時沒辦法騎車了。這條鏈條需要AI進行常識推理才能連接起來。

研究團隊將這種現象稱為"隱式沖突"——新信息在沒有明確否定舊記憶的情況下，使舊記憶失效了。而現有的AI系統對這種隱式沖突幾乎沒有處理能力。

二、為什么現有的測試方法發現不了這個問題

在這項研究之前，學術界已經有不少評估AI記憶能力的方法，但研究團隊發現這些方法都有一個共同的盲點：它們主要測試的是"AI能不能從歷史對話中找到某條具體信息"，而不是"AI能不能判斷某條舊信息是否還有效"。

就好比考一個秘書的時候，你只問他"你還記得我上次說的話嗎"，而不問他"上次說的那件事，現在還適用嗎"。這兩道題的難度和考察點完全不同。

現有的測試基準，比如早期的LoCoMo、LongMemEval等，確實在進步，開始測試AI對隱含信息的推理，或者追蹤用戶的多輪狀態變化，但它們基本上不涉及"舊記憶被新信息隱式撤銷"這種情況，尤其是第二種"傳播型沖突"，在此之前幾乎沒有任何評測工具系統地覆蓋這個場景。

正因如此，研究團隊決定從零開始構建一套全新的測試框架，專門揭露這個被忽視的漏洞。

三、他們是怎么造出這個測試題庫的

研究團隊構建了一個名為STALE的測評數據集，全稱是"State Tracking And Latent Evaluation"，可以理解為"潛在狀態追蹤評估"。這個數據集包含400個精心設計的沖突場景，每個場景對應三道考察題，合計1200道評估問題，涵蓋超過100個日常生活主題，而且每個測試場景的對話歷史長度可達15萬個詞符——相當于一本中等厚度的小說。

構建這個數據集的過程頗為精密。研究團隊先建立了一套覆蓋日常生活方方面面的屬性分類體系，包括位置與居住、健康與行動能力、工作與日程、習慣與通勤方式等10個大類、104個細分屬性。然后，他們針對每個場景生成一條舊信息（代表用戶在某個時間點的狀態），再設計一條新信息（代表用戶在一段時間后說出的某句話，這句話在邏輯上使舊信息失效，但從文字上看并沒有直接否認舊信息）。

每一對舊信息和新信息都要經過嚴格的質量把關：兩條信息單獨看都必須合理自然，新信息必須確實在邏輯上使舊信息失效，而且這種失效必須是隱性的——絕對不能出現"我不再……"或者"取而代之的是……"這類明顯的否定語句。不合格的案例會被重新生成并再次審核。

通過這套流程產生的沖突對，會被包裹進模擬真實對話的多輪對話場景，再插入到由其他無關對話組成的"背景噪音"里，形成一個漫長的對話歷史。那些用來填充的無關對話，也經過了仔細篩查，確保它們不會意外地涉及目標屬性，避免干擾實驗結果。最終，整份數據集還經過了至少一位領域專家的人工審核，疑難案例經過討論后才被納入或修正。

四、三道考題，測出了三種不同的失敗

對于每個場景，研究團隊設計了三種不同角度的考題，每種考題測試的是AI記憶能力的一個不同側面。

第一種考題叫"狀態判斷"，屬于直接考察：明確問AI，"根據對話歷史，用戶現在還在騎車上班嗎？"這考察的是AI能不能識別出某條舊記憶已經過時。

第二種考題叫"前提抵抗"，屬于對抗性考察：用一個預設了錯誤前提的問題來試探AI，比如"既然用戶每天騎車上班，幫他推薦一條新的騎行路線吧"。注意，這道題里完全沒有提到骨折或受傷之類的新信息，就好像提問者根本沒看到后來那條新信息一樣。一個表現良好的AI應該識破這個錯誤前提，告訴提問者這個前提現在不成立了，而不是順著錯誤前提繼續往下走。

第三種考題叫"隱式策略適應"，屬于最接近真實使用場景的考察：以用戶的口吻提出一個日常請求，比如"這周我需要去公司開會，幫我規劃一下怎么去比較好？"這道題里既沒有提舊信息（騎車），也沒有提新信息（骨折），但正確的回答必須基于更新后的狀態——因為系統應該已經知道用戶腿部受傷，不能推薦騎車。

這三道考題層層遞進，測試的復雜度依次提高，但指向的是同一個核心能力：AI能不能把對用戶當前狀態的正確理解，貫穿到它的實際行為中去。

五、最強模型也只答對了一半

把這套測試題交給當前最先進的AI模型和主流記憶系統，結果相當令人警醒。

研究團隊測試了一大批系統，包括GPT-5.4、GPT-5.4-nano、GPT-4o-mini、Gemini-3.1-pro、Gemini-3.1-flash-lite等閉源大模型，以及Llama-3.3-70B、Qwen3.5-9B、Qwen3.5-27B、MiniMax-M2.5等開源模型，還有LightMem、Zep、LiCoMemory、A-mem、mem-0等專門為AI設計的外掛記憶系統。

在所有被測系統中，表現最好的是Gemini-3.1-pro，其總體正確率為55.2%。換句話說，即便是目前性能最頂尖的模型，在這套測試上也只是勉強及格，將將超過一半。而大多數系統的表現遠比這糟糕：Qwen3.5-27B得了31.3分，Gemini-3.1-flash-lite得了22.4分，大多數專用記憶框架的總分甚至低于10分。

讓我們具體看看那三道考題各自暴露出了什么問題。

在第一道"狀態判斷"題上，一些較強的模型表現還算不錯，比如Gemini-3.1-pro在第一類沖突（同屬性沖突）上答對了92%，Qwen3.5-27B答對了76%。這意味著，當你直接問它"這條舊記憶還成立嗎"，它有時候是能分辨出來的。

然而，第二道"前提抵抗"題徹底暴露了這些模型的軟肋。Gemini-3.1-pro在同類型沖突上的得分從92%驟降到30%；Qwen3.5-27B從76%跌到只有4%。絕大多數模型在這道題上幾乎一塌糊涂，得分接近于零。這意味著：即使它們在被直接追問時能識別出舊記憶已經過時，一旦有人在問題里悄悄把那條舊前提當作既成事實問出來，它們就會毫不猶豫地接受這個錯誤前提，然后在此基礎上給出建議。這在現實中是個嚴重問題，因為真實用戶提出的問題往往天然地包含各種假設。

第三道"隱式策略適應"題上，成績處于中間地帶，但遠未達到令人滿意的水平。即便是Gemini-3.1-pro，在同屬性沖突上的得分也只有71%，在傳播型沖突上更跌至55%。

而貫穿三道題的一個規律是：傳播型沖突（第二類）的成績普遍低于同屬性沖突（第一類）。傳播型沖突要求AI進行多步推理，從新信息推斷出一個上游屬性的變化，再從這個變化推斷出它對另一個屬性的影響，鏈條越長，失敗的概率越高。

另一個出乎意料的發現是：在這套測試面前，外掛專用記憶系統并沒有展現出預期的優勢。在使用相同底層模型（GPT-4o-mini）的情況下，LightMem是唯一一個表現優于原始模型的記憶框架，但也僅僅是從8.7%提升到了17.8%，其他幾個記憶系統的表現甚至還不如不使用任何記憶框架的裸模型。

六、AI的"注意力"去哪兒了

為了理解為什么會出現這些失敗，研究團隊在Qwen3.5-9B和Qwen3.5-27B兩個開源模型上做了一次深層機制分析，直接觀察模型內部的"注意力"分配情況——也就是說，當模型處理問題時，它的"目光"在對話歷史里落在哪里。

分析結果揭示了一個耐人尋味的現象。當模型處理問題時，它對"舊信息所在段落"和"新信息所在段落"的關注度，都明顯高于對話歷史中其他隨機段落，這說明模型確實在"尋找"相關信息，而不是隨機掃描。但令人意外的是，新信息所在段落和舊信息所在段落之間，相互注意的程度卻非常微弱，和隨機段落之間的關聯程度差不多。

這意味著什么？這意味著模型很少主動進行"把新信息和舊信息對照比較"這個動作。它更多依賴的是被問題引導到某個方向后，各自獨立地去找相關信息，而不是先主動把整個對話歷史里關于某個主題的所有信息整合成一個連貫的當前狀態圖像。

此外，在那些最終回答正確的案例中，模型在中間層的注意力分配會相對更多地偏向新信息，而在回答錯誤的案例中，注意力則更多地停留在舊信息上。這個模式與傳播型沖突比同屬性沖突更難解決的觀察是吻合的——傳播型沖突中，模型對新信息的注意力更弱，也更難建立起從新信息到舊信息的邏輯橋梁。

七、記憶框架的深層問題：不是找不到，是"做不到"

針對LightMem這個表現最好的記憶框架，研究團隊做了更細致的診斷分析，結果找到了一個核心問題，被他們稱為"當前狀態裁決缺口"。

具體來說，當研究團隊檢查LightMem的檢索結果時，發現在"狀態判斷"和"前提抵抗"類問題中，有77.5%的情況下，反映用戶最新狀態的新信息確實出現在了檢索到的記憶條目里；在"隱式策略適應"類問題中，這個比例是67.8%。也就是說，絕大多數時候，新信息并沒有"丟失"——它已經被存進記憶庫，也被找出來了。

但問題在于，把新信息找出來，并不等于新信息會被拿來指導最終的回答。研究團隊進一步檢查了LightMem在構建記憶庫時的更新行為：當新信息被加入記憶庫的時候，有60.5%的情況下，舊信息也出現在了系統判斷是否需要更新的候選條目里，但在這些情況中，只有3.3%的舊信息被判斷為需要被更新或撤銷。換句話說，舊信息和新信息在記憶庫里是和平共存的，沒有人去裁定誰應該讓位于誰。

在最終回答階段，當舊信息和新信息同時被檢索出來時，舊信息排在檢索結果第一位的概率高達88.2%，而新信息排在第一位的概率只有5.2%。在這種情況下，大語言模型自然會傾向于依賴排名靠前的舊信息作為回答的基礎。

這個發現精準地指出了問題的本質：失敗不是因為記憶找不到，而是因為系統缺乏一個明確的機制來判斷"當兩條相互沖突的記憶同時存在時，誰才是當前有效的狀態"。

八、一個初步的解決方案：在存儲時就做裁決

基于以上分析，研究團隊提出了一個原型系統，命名為CUPMEM，意為"當前狀態更新與傳播感知記憶"。這個系統的核心思想可以用一個比喻來理解：普通的記憶系統就像一個不斷往柜子里塞文件的秘書，CUPMEM則像一個在存入每份新文件時，都會主動翻查舊文件、判斷哪些舊文件需要歸檔或作廢的秘書。

CUPMEM的運作方式分為三個關鍵環節。第一個環節發生在"存儲時"。每當有新的對話信息進來，系統不只是把它存成一條新記錄，而是先分析這條信息影響了用戶哪些狀態屬性，然后主動檢索那些可能受到影響的舊記憶條目，讓一個判斷模塊明確決定：舊記憶應該保持有效、被新信息替換、還是被標記為已過時無法使用？經過這個判斷，舊記憶會被打上"有效"或"已過時"的標簽存檔，而不是繼續以有效狀態存在于記憶庫中。

第二個環節專門應對傳播型沖突。系統維護了一個狀態屬性之間的關聯結構，比如"健康狀態"可能影響"通勤方式"，"居住地"可能影響"日常習慣"。當某個屬性發生變化時，系統會自動把搜索范圍擴展到那些可能受到間接影響的相關屬性，而不是只在同一個屬性內部查找需要更新的舊記憶。這個擴展搜索是在存儲時完成的，把需要常識推理的工作前置到了記憶寫入階段，而不是留到回答問題時臨時去做。

第三個環節控制"讀取時"的行為。在回答問題時，系統只把被判定為當前有效的記憶交給語言模型作為生成回答的依據。如果檢測到用戶的問題中包含了一個已經被標記為過時的前提，系統會主動阻斷這個錯誤前提的使用，基于最新的有效狀態重新構建回答的基礎，而不是順著錯誤前提繼續往下走。

在同樣使用GPT-4o-mini作為底層語言模型的條件下，CUPMEM的總體正確率從8.7%提升到了68%。尤其在"前提抵抗"這道最難的題目上，CUPMEM在同屬性沖突和傳播型沖突上的得分分別達到了78%和75%，而其他大多數系統在這道題上幾乎得零分。

當然，研究團隊也坦承了這個系統的局限性。CUPMEM依賴一個預先定義好的狀態屬性分類體系，而這個分類體系覆蓋的范圍是有限的，無法應對所有可能出現的用戶狀態類型。此外，當前測試的每個場景只包含一對新舊信息的沖突，現實中可能存在多個屬性同時交叉更新的更復雜情況，這些都是未來需要繼續探索的方向。

歸根結底，這項研究揭示的是一個我們在和AI助手日常相處時可能從沒想到過的問題：AI的記憶不只是"要不要存""能不能找"的問題，更重要的是"存進來的這些信息，現在還算數嗎"。一個真正可靠的個人AI助手，應該像一個用心的老朋友，不只記住你說過的話，還能隨著你生活的變化，自動調整它對你的理解。現有的技術距離這個目標，還有相當長的路要走。對于那些有興趣從技術角度深入了解這項工作的讀者，可以通過arXiv編號2605.06527找到完整論文。

Q&A

Q1：STALE測評數據集和普通的AI記憶測試有什么區別？

A：普通AI記憶測試主要考察AI能否從歷史對話中找到某條具體信息，而STALE專門測試AI能否判斷舊信息是否因新情況而失效。STALE包含400個精心設計的場景，分為兩種沖突類型，并從狀態判斷、前提抵抗、隱式策略適應三個維度評估AI的表現，是目前首個系統覆蓋"隱式沖突"這一失敗模式的評測工具。

Q2：AI助手會接受錯誤前提這個問題有多嚴重？

A：這個問題相當普遍。測試結果顯示，即使是目前最強的Gemini-3.1-pro，在被包含錯誤舊前提的問題考察時，正確率也從92%驟降到30%；Qwen3.5-27B則從76%跌到4%。也就是說，當用戶提問時無意間用了AI記憶中某條已過時的信息作為假設，絕大多數AI會直接順著這個錯誤假設繼續給出建議，而不會主動糾正。

Q3：CUPMEM記憶系統是怎么解決舊記憶和新記憶共存的問題的？

A：CUPMEM的核心思路是在"存入新信息時"就主動裁決舊記憶是否還有效，而不是把新舊信息一起存著留到回答時再碰運氣。每當新信息進來，系統會檢索可能受影響的舊記憶并打上"有效"或"已過時"標簽，同時借助屬性關聯結構擴展搜索范圍來處理傳播型沖突。回答問題時，只有被判定為當前有效的記憶才會被用作依據，錯誤前提會被主動攔截。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.