網易首頁 > 網易號 > 正文 申請入駐

你的「龍蝦」真記得你嗎?劍橋發布長期個性化記憶基準ATM-Bench

0
分享至



ATM-Bench 將「個人 AI 助手是否真的記得你」這件事,變成了一個研究的測試基準。結果并不樂觀:專用記憶智能體系統普遍低于 20%,而 OpenClaw、Codex、Claude Code 等通用智能體普遍表現不佳,最高準確率不到 40%。

想象一個場景:媽媽問我:「你上次去日本旅行幫我買的相機,現在還在保修期內嗎?」

對人類來說,這不算難。就算一時記不起來,也可以翻翻收據、照片,或者查一下當時的郵件。大腦會將線索串起來,逐漸定位或是搜索到相關記憶。但對今天的 AI 來說,這類問題遠沒有看上去那么簡單。

最近,來自劍橋大學的團隊開源了面向 AI 個人助理的長期記憶基準測試 ATM-Bench。他們評測一個直接的問題:當 AI 真正面對一個人多年真實生活數據時,它到底能不能「記住你」?

實驗結果并不樂觀。在該 ATM-Bench-Hard 基準上,當前非常熱門的開源智能體「小龍蝦」OpenClaw 僅達到 25.4% 的準確率;而被許多人視為編程智能體標桿、搭載 Claude Opus 4.6 的 Claude Code 也只有 33.8%。至于多數開源專用記憶系統,準確率甚至低于 20%。



  • 論文地址: https://arxiv.org/abs/2603.01990
  • 項目主頁: https://atmbench.github.io



視頻鏈接:https://mp.weixin.qq.com/s/__7ldldfZfyXsNVGHq6AnQ?click_id=136

ATM-Bench:系統評估 AI 長期個性化記憶能力的基準

過去已經有不少工作在評估 AI 的「記憶能力」,例如 LoCoMo、LongMemEval 等,它們大多聚焦于對話歷史,但真實世界中的個人記憶,遠不止聊天記錄。一個人的生活記憶通常分散在:

  • 照片:旅行、聚會、用餐、日常片段
  • 視頻:重要時刻、活動過程、環境變化
  • 郵件:機票、酒店、餐廳預訂、票據、確認函

而且這些記憶往往橫跨幾年,互相之間并不對其。為此,ATM-Bench 提出了首個面向長期、多模態、多來源、個性化指代記憶問答的基準。它的幾個關鍵特征是:

  • 時間跨度約 4 年;
  • 覆蓋圖像、視頻、郵件三類模態,超一萬條記憶數據;
  • 記憶數據來自真實個人生活,而非合成對話;
  • 圖像、視頻數據包含地點、時間等元數據,地點包含 4 大洲;
  • 包含 1000 + 條完全人工標注的問題、答案與證據。

ATM-Bench 考驗了智能體能不能像一個真正的個人助理那樣,找到隱藏在記憶庫深處的正確記憶,并給出可靠答案。

挑戰 AI 的記憶盲區

ATM-Bench 的核心難點包含:

  • 個性化指代:我的寵物貓「Grace」「我們上次那趟葡萄牙旅行」;
  • 多來源拼接:照片時間戳要和郵件確認函對齊;
  • 記憶沖突:預訂金額和最終發票金額不一致;
  • 元數據噪音:GPS 由于定位準確度本身就可能出錯。

這里展示了三種難題的案例。

個性化引用解析 ——Grace 到底是誰?

示例:「我想剪一個視頻發小紅書,幫我把 Grace 偷偷摸摸的照片視頻找出來。」

  • 判斷 Grace 是朋友、家人,還是寵物;
  • 在圖片或視頻里識別這個對象;
  • 再理解「偷偷摸摸」這種帶主觀色彩的描述。



證據沖突怎么選?

示例:「我最近去葡萄牙旅行住酒店花了多少錢?」

這類問題常常對應多份證據:過時的預訂確認郵件,最終結算發票等。

AI 需要理解不同來源之間可能存在沖突,也需要判斷哪條信息更新得更晚、可信度更高。即使是 GPT-5.2 或者是 Opus-4.6,也拿著過時的預訂郵件而不是最終的發票當作答案。



看不見的線索,才最考驗 AI 的長期記憶

示例:「我在 Fancett 餐廳點了什么?」

陷阱在于:「Fancett」這個名字只出現在郵件確認單里,而照片本身并沒有 GPS 標簽。

要回答這個問題,AI 必須先:

  1. 從郵件中找到與 Fancett 相關的預訂信息;
  2. 提取對應時間并鎖定時間窗口;
  3. 再跨模態到相冊中找到同一時段的照片;
  4. 最后從視覺內容中判斷點了什么菜。

這類問題僅靠單一模態無法解決,需在郵件中挖掘文本線索,將時間范圍縮小,找到照片并回答問題。少了任何一環,問題都無法被正確回答。



實驗結果

團隊在 ATM-Bench-Hard 上測試了多種專用記憶系統,包括 A-Mem、HippoRAG2、mem0、MemoryOS。

結果并不理想:最好的系統準確率不到 20%。這些系統本來就是為記憶而設計的,但當任務超過了僅僅是對話歷史,記憶變得真實、長期、個性化、跨模態的生活場景時,它們依然顯得力不從心。

除開源專用記憶系統之外,團隊還測試了當前最強的通用智能體系統。這類智能體具備完整的代碼執行能力、文件系統訪問權限和工具調用能力,具有比專用記憶系統擁有更強的工程能力與搜索能力。



核心發現:

  1. 表現最好的 Codex 也只有 39.7% 的準確率,連及格線都夠不著;
  2. Claude Code + Opus 4.6 作為編程智能體的標桿,也只有 33.8%,盡管明顯優于多數專用記憶系統,但仍難以勝任真實長期記憶 QA;
  3. OpenCode(Kimi K2.5)達到 30.3%,而 OpenClaw(Kimi K2.5)為 25.4%;
  4. Token 開銷非常高:Codex 消耗了 15.46M tokens,OpenClaw 也達到 9.63M,即便投入大量工具調用與上下文預算,效果仍然有限。

這說明,即便給 AI 配齊代碼執行、文件搜索、索引構建等整套工具鏈,長期個性化記憶問答仍然是一個根本性難題。

ATM-Bench 的實驗結果雖然「慘淡」,但作者團隊相信這為未來的長期記憶機制與個性化 AI 助手的研究開辟了新的方向。

OpenClaw、Codex、Claude Code 的集體表現不佳告訴我們:工具鏈再完善、模型再強大,也彌補不了記憶架構上的根本缺陷。

當 AI 真正能夠像人類一樣,在數年的記憶長河中準確檢索、關聯、推理,我們離真正的「個性化 AI」才會更近一步。

在那之前,也許我們不該對智能體的記憶能力期待太高,畢竟,它們連「去年給媽媽買的相機」都記不住,OpenClaw、Codex、Claude Code 都不行。

數據集已開源

ATM-Bench 數據集現已在 HuggingFace 上線:

  • https://huggingface.co/datasets/Jingbiao/ATM-Bench

包含:

  • 完全人工標注的 1069 個 QA 對
  • 多模態證據標注
  • NIAH 大海撈針評估支持
  • 開箱即用的基準測試代碼

作者介紹

梅敬標,劍橋大學機器智能實驗室博士四年級在讀,師從 Bill Byrne 教授,獲劍橋信托基金獎學金資助。本科及碩士均畢業于劍橋大學工程系,主修信息與計算機工程與電子工程。

其主要研究方向為多模態大語言模型的應用,涵蓋多模態檢索、模型安全、強化學習及智能體系統等領域。相關成果已發表于 ACL、NeurIPS、ICLR、NAACL、EMNLP 等國際頂級會議,累計發表論文十余篇。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
爆料瘋傳!中南醫院院長落馬,“王護士長”被扒,各種獎拿到手軟

爆料瘋傳!中南醫院院長落馬,“王護士長”被扒,各種獎拿到手軟

許三歲
2026-04-23 11:43:44
民政局回應馬頔李純結婚證是手寫的

民政局回應馬頔李純結婚證是手寫的

書臺小事
2026-04-23 21:03:40
被轟9連鞭 23歲斯佳輝面如死灰:3-10不敵伊朗選手 3年前遭11連鞭

被轟9連鞭 23歲斯佳輝面如死灰:3-10不敵伊朗選手 3年前遭11連鞭

風過鄉
2026-04-23 21:54:22
太瘆人!男子曬小區電梯圖,網友調侃豪華火化爐,評論區毛骨悚然

太瘆人!男子曬小區電梯圖,網友調侃豪華火化爐,評論區毛骨悚然

譚談社會
2026-04-23 01:58:02
女子被保安扇耳光后續!知情者曝內情,保安身份被扒,學校回應

女子被保安扇耳光后續!知情者曝內情,保安身份被扒,學校回應

180視角
2026-04-23 12:56:07
上海地鐵站內,這個“高素質”習慣爆發沖突!上海已叫停多年!很多人改不過來……

上海地鐵站內,這個“高素質”習慣爆發沖突!上海已叫停多年!很多人改不過來……

環球網資訊
2026-04-23 11:11:44
于海青:為何說在飛機上聲稱南方空姐的女士給自己惹了大麻煩?

于海青:為何說在飛機上聲稱南方空姐的女士給自己惹了大麻煩?

于海青
2026-04-23 18:02:43
何潤東夫婦現身東陽街頭,兩人騎自行車買早餐!林姵希氣質出眾!

何潤東夫婦現身東陽街頭,兩人騎自行車買早餐!林姵希氣質出眾!

阿鳧愛吐槽
2026-04-23 20:10:09
美聯儲新主席亮出底牌,降息加縮表!中國的機會,來了 ?

美聯儲新主席亮出底牌,降息加縮表!中國的機會,來了 ?

柏年說政經
2026-04-23 17:50:01
人社部、財政部通知:支持大學畢業生“回爐”讀技校

人社部、財政部通知:支持大學畢業生“回爐”讀技校

深度報
2026-04-23 22:43:47
一夜3大消息!湖人重大利好,衛冕冠軍遭打擊,杜蘭特又添新傷

一夜3大消息!湖人重大利好,衛冕冠軍遭打擊,杜蘭特又添新傷

體壇小李
2026-04-24 07:27:51
眼紅啊!從年薪20萬到125萬,一上海交大碩士特斯拉6年收入345萬

眼紅啊!從年薪20萬到125萬,一上海交大碩士特斯拉6年收入345萬

火山詩話
2026-04-23 07:11:53
栽得一點不冤!華晨宇撫仙湖演唱會被叫停,百億身家也救不了他

栽得一點不冤!華晨宇撫仙湖演唱會被叫停,百億身家也救不了他

草莓解說體育
2026-04-23 18:22:58
以色列:已準備好重啟戰爭,只要美國同意,將刺殺伊朗最高領袖穆杰塔巴,炸毀其能源和電力設施,使其重回“石器時代”

以色列:已準備好重啟戰爭,只要美國同意,將刺殺伊朗最高領袖穆杰塔巴,炸毀其能源和電力設施,使其重回“石器時代”

揚子晚報
2026-04-24 07:16:02
酒后大鬧國外機場68分鐘!央企高管6人被撅!憑啥隱瞞了兩年?

酒后大鬧國外機場68分鐘!央企高管6人被撅!憑啥隱瞞了兩年?

大江看潮
2026-04-23 09:29:02
意大利或遞補世界杯?羅體:FIFA可能直接指定,也可能安排附加賽

意大利或遞補世界杯?羅體:FIFA可能直接指定,也可能安排附加賽

懂球帝
2026-04-23 18:35:08
俄副外長:俄方獲邀以最高級別參加美國G20峰會

俄副外長:俄方獲邀以最高級別參加美國G20峰會

財聯社
2026-04-23 11:20:05
68歲老帥被逼得當眾落淚 74歲拉涅利憤然辭職:二人決裂 羅馬2選1

68歲老帥被逼得當眾落淚 74歲拉涅利憤然辭職:二人決裂 羅馬2選1

風過鄉
2026-04-24 06:19:50
就差1秒!特朗普欲發射核武器,軍方強行攔截,拒絕為總統扣扳機

就差1秒!特朗普欲發射核武器,軍方強行攔截,拒絕為總統扣扳機

瓦倫西亞月亮
2026-04-23 23:09:51
又打起來了,以色列不宣而戰,特朗普態度轉變,伊朗或再次上當?

又打起來了,以色列不宣而戰,特朗普態度轉變,伊朗或再次上當?

說歷史的老牢
2026-04-23 05:45:47
2026-04-24 07:44:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12839文章數 142635關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

特朗普發文后 伊朗最高領袖、總統、議長、外長齊發聲

頭條要聞

特朗普發文后 伊朗最高領袖、總統、議長、外長齊發聲

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

教育
旅游
家居
公開課
軍事航空

教育要聞

家長要電子試卷被說派頭大?天津這起家校誤會,沒有真正的贏家!

旅游要聞

走進櫸溪村

家居要聞

浪漫協奏 法式風格

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美伊陷入互相封鎖僵局

無障礙瀏覽 進入關懷版