網易首頁 > 網易號 > 正文申請入駐

Neuron：大腦與 AI 的統一記憶框架 —— 鍵值記憶系統

2026-06-01 14:36:13　來源: 集智俱樂部

北京舉報

分享至

導語

對于機器學習領域的從業者而言，鍵值（Key-Value, KV）記憶是再熟悉不過的基礎組件 —— 如Transformer 的自注意力機制，KV 架構早已成為現代 AI 實現高效記憶與檢索的核心設計。但很少有人會追問：這套我們天天在用的計算框架，會不會和人類大腦的記憶機制，共享著同一套底層邏輯？

這篇2025 年發表于神經科學頂刊Neuron的論文《Key-value memory in the brain》，就為這個問題給出了一套完整、自洽的跨學科解答。論文首次將機器學習領域的鍵值記憶框架，與認知心理學、神經科學中關于記憶編碼、存儲、遺忘的經典理論與實驗證據系統性整合，提出了一套貫通人工與自然智能的統一記憶框架。

本篇解讀面向具備基礎機器學習知識的讀者，拆解這套框架的核心數學邏輯、與大腦記憶系統的對應關系，以及相關的計算驗證實驗，帶大家看懂這篇跨領域研究的核心洞見。

關鍵詞：鍵值記憶、腦科學、機器學習、持續學習、遺忘機制

賈梓杏丨作者

趙思怡丨審校

論文標題：Key-value memory in the brain 論文鏈接：https://www.cell.com/neuron/abstract/S0896-6273(25)00172-2 發表時間：2025年6月4日發表期刊：Neuron

引言

鍵值（Key-Value, KV）記憶是現代機器學習系統實現性能突破的核心基礎組件之一。從 Transformer 架構的自注意力機制，到檢索增強生成（RAG）系統，再到經典的聯想記憶網絡，KV 架構通過分離存儲與檢索的表征需求，解決了海量信息的高保真存儲與精準化提取的核心矛盾，已成為當前人工智能領域的通用基礎設計。

長期以來，認知心理學與神經科學領域圍繞人類記憶機制，積累了大量關于記憶編碼、存儲、提取與遺忘的實驗證據和理論框架，包括海馬體在情景記憶中的核心作用、互補學習系統理論、記憶索引假說等。但這些分散的研究結論，始終缺乏一個統一的、可量化的計算框架，與機器學習領域的 KV 記憶研究長期處于平行發展、鮮有交叉的狀態。

2025 年 6 月，哈佛大學 Samuel J. Gershman、麻省理工學院 Ila Fiete 等學者在神經科學頂刊《Neuron》發表了題為Key-value memory in the brain[1]的觀點論文，首次系統完成了機器學習鍵值記憶框架與腦科學、心理學記憶理論的深度整合，提出了一個貫通人工與自然智能的核心假說：

(1)人類大腦的記憶系統，本質是一套實現了鍵值分離優化的記憶架構 —— 海馬體負責編碼用于記憶尋址的鍵（Key），新皮層負責存儲記憶內容的值（Value）。

(2)許多ML方法的成功（或者局限），都是源于其作為Key-Value System的本質（令筆者吃驚的是，甚至包括了最最基本的多層感知機）。論文通過數學推導、神經生物學證據梳理與計算模擬實驗，完整論證了這一框架的合理性，同時揭示了自然智能與人工智能在記憶機制上的收斂性。

可能有讀者擔心自己缺乏神經科學背景而錯過了本文最有價值的部分，但其實完全不必有這等擔憂，只需要有一定的機器學習算法基礎即可。本文將從鍵值記憶的計算基礎出發，逐步拆解該框架與大腦記憶系統的神經對應關系、核心實驗證據，論證 “遺忘的本質是檢索失效而非記憶丟失” 的核心結論，同時梳理論文中關于 “全連接神經網絡本質是天然鍵值記憶系統” 的關鍵推導，為讀者呈現這一跨領域研究的完整邏輯。

1. 計算基礎

1.1 經典聯想記憶的核心局限

經典的心理學與神經科學記憶模型，大多基于相似度驅動的模式檢索，其核心是自聯想記憶架構 —— 最典型的代表是 Hopfield 網絡。這類模型的核心特征是：記憶的存儲與檢索復用同一套表征，輸入的檢索線索與存儲的記憶模式直接做相似度匹配，完成記憶提取。

這種架構存在一個無法調和的核心矛盾：存儲保真度與檢索區分度的優化目標相互沖突。

對存儲而言，表征需要最大化對記憶內容的還原度，保留盡可能多的細節信息；
對檢索而言，表征需要最大化不同記憶之間的區分度，讓相似但不相同的記憶能夠被精準分離，避免檢索干擾。

同一套表征無法同時完成兩個相互沖突的優化目標，這也是經典記憶模型在容量、抗干擾能力上存在瓶頸的核心原因。而鍵值記憶架構的核心創新，正是徹底分離了存儲與檢索的表征，讓兩套表征可以獨立優化，同時滿足兩個目標。論文原文用書籍的索引與正文做了精準類比：書籍的索引（鍵）僅負責定位內容，優化目標是快速、精準尋址，不需要包含正文的語義信息；正文（值）僅負責存儲內容，優化目標是信息保真，不需要承擔檢索尋址的功能。

1.2 鍵值記憶的核心數學形式

鍵值記憶的最早形式化，是 Kohonen 于 1972 年提出的相關矩陣記憶模型[2]，論文基于此模型，用統一的數學語言定義了鍵值記憶的完整流程，我們將在下文逐一介紹。

我們定義：對于任意一個記憶條目，其由兩個獨立的向量構成 ——鍵向量kn（對應記憶的地址索引）、值向量vn（對應記憶的內容），n為記憶條目的編號。

（1）記憶寫入：赫布學習構建關聯矩陣

鍵值記憶的寫入過程，是通過外積運算，將鍵與值的關聯關系編碼到關聯矩陣 M中：

關聯矩陣 M 初始化為全零矩陣，每寫入一個記憶條目，就將鍵向量的轉置與值向量的外積，累加到 M 中。這一過程本質是神經科學中經典的赫布學習規則：當編碼鍵與值的神經元同步激活時，二者之間的突觸連接強度會增強，矩陣 M 中的元素，對應的正是鍵 - 值神經元之間的突觸權重。

（2）記憶讀?。翰樵兤ヅ鋵崿F內容提取

記憶的讀取過程，是通過查詢向量q（與鍵向量維度一致）與關聯矩陣 M 的內積運算，完成記憶內容的提取:

讀取的核心邏輯是：查詢向量與所有存儲的鍵向量做相似度匹配，匹配度越高的鍵，其對應的值在最終輸出中的權重越大。從更生物意義的神經網絡來談，這等同于激活關鍵單元上的模式q，從而在下游價值單元中產生基于學習突觸強度M的活動模式。為了更清晰地呈現這一邏輯，我們可以將公式改寫為對偶形式：

其中，αn為注意力權重，由查詢向量與鍵向量的相似度計算得到：α=σ(S(K,q))。這里的S(?,?)為相似度核函數，用于計算查詢與鍵的匹配程度；σ(?) 為分離算子，用于放大不同記憶的權重差異，提升檢索的區分度。

對偶形式的核心價值，是揭示了所有鍵值記憶系統的通用本質：記憶檢索的結果，永遠是所有存儲值的加權和，權重由查詢與對應鍵的匹配度決定。這一形式可以將幾乎所有主流的記憶模型納入統一框架，比如：

當分離算子σ(?)為恒等函數時，得到線性化注意力，對應fast weight programmers；
當分離算子σ(?)為 softmax 函數時，得到 Transformer 的標準自注意力機制(我們將在下一小節具體解釋)；
當分離算子σ(?)為閾值函數時，得到經典的稀疏分布記憶模型。

1.3 鍵值記憶的典型實現：Transformer

論文中明確指出，Transformer 的自注意力機制，是鍵值記憶框架最典型、最成功的實現之一，其核心計算完全可以納入上述對偶形式的框架中。

自注意力的核心計算分為兩步：

相似度計算（縮放點積）：，其中D為鍵 / 查詢向量的維度，縮放的目的是避免向量維度升高后內積值過大，導致 softmax 函數梯度飽和。
權重歸一化（分離算子）：這里使用 softmax 函數作為分離算子，將相似度轉換為 0-1 之間的歸一化權重，且所有權重和為 1，實現對最匹配記憶的聚焦。

最終的注意力輸出，依然是值向量的加權和，與鍵值記憶的通用讀取邏輯完全一致。這也意味著，Transformer 的核心能力，本質是建立在鍵值記憶的基礎之上 —— 這也是論文能夠打通人工與自然智能的核心前提：既然 Transformer 的成功源于鍵值記憶架構，那么大腦的記憶能力，很可能也基于同一套通用計算邏輯。

1.4 兩種Key-Value的計算實現形式

Fig.1 Two architectures for key-value memory (圖源[1])

文中指出了實現Key-Value計算的架構無非兩種。左圖的結構，對于學習過Transformer的讀者而言，其實已經相當熟悉：輸入的x通過Query、Vaule和Key三個權重矩陣，分別映射為q,k,v，而最終的權重矩陣M則是由k,v通過Hebbian Learning來更新，其實也就是我們的公式(1)。

右圖的結構，或許讀者們會覺得略顯陌生。我們進行一個簡單的拆解：

輸入層：接收原始輸入x，對應檢索線索 / 記憶條目；

隱藏層：輸入經線性映射得到隱藏層激活α，輸入層到隱藏層的權重矩陣，就是鍵值系統中存儲的鍵矩陣K；隱藏層的激活值α，就是查詢與所有鍵匹配后得到的注意力權重，對應對偶形式中的相似度加權系數；

輸出層：隱藏層激活經線性映射得到最終輸出，隱藏層到輸出層的權重矩陣，就是鍵值系統中存儲的值矩陣V；最終輸出就是注意力權重對值向量的加權求和，與對偶形式的核心公式(3)完全一致。

2. 作為Key-Value的海馬體與新皮層

在展開鍵值對應之前，我們先明確兩個核心腦區的經典功能定位，以及領域內公認的互補學習系統（Complementary Learning Systems, CLS）框架[3]—— 這也是論文鍵值分工理論的核心神經科學基礎。

海馬體：位于大腦內側顳葉，是情景記憶（特定時空背景下的事件記憶）的核心腦區，大量研究已證實，海馬體損傷會導致嚴重的順行性失憶，即無法形成新的情景記憶；
新皮層：大腦外層的折疊灰質結構，是語義記憶（關于世界的通用知識、事實、感官特征）的核心存儲區，負責編碼記憶的具體內容與語義規律。

經典 CLS 框架認為，海馬體與新皮層存在明確的分工：海馬體負責快速編碼單次經歷的情景記憶，新皮層負責慢學習、提取跨事件的通用語義規律。而論文的核心創新，是在 CLS 框架的基礎上，用鍵值記憶的計算邏輯，重新定義了二者的分工本質：海馬體的核心功能不是存儲記憶內容，而是編碼用于尋址的鍵（Key）；記憶的具體內容（Value），全部存儲在新皮層中。

2.1 鍵值分工的實證證據

論文中引用了大量的實驗證據來證明觀點，我們不妨介紹幾個最為核心的實驗證據：

證據 1：海馬體損傷會導致記憶的過度泛化

鍵值框架中，鍵的核心作用是精準區分不同記憶，避免檢索時的混淆。如果海馬體的鍵編碼功能受損，不同記憶的尋址邊界會消失，必然出現記憶的過度泛化。Winocur 等人[4]的經典實驗完美驗證了這一點：

訓練大鼠在 A 場景中接受電擊，正常大鼠會在 A 場景中表現出特異性的凍結反應，在無關的 B 場景中無反應；
一周后測試時，大鼠表現出泛化效應（語境特異性喪失），在兩種情境中均會凍結。這種泛化可能是由于在這段時間內獲得的記憶干擾所致。
給正常大鼠短暫放回 A 場景（提供精準的鍵線索），可以強化記憶的場景特異性。然而，這一 “提醒效應” 在海馬體損傷的大鼠中完全消失[5]。

這一實驗直接證明：海馬體的核心作用是為記憶生成特異性的鍵，實現精準尋址；沒有海馬體的鍵，新皮層的恐懼記憶值會被任意線索激活，出現過度泛化，與鍵值框架的預測完全一致。

證據 2：海馬體表征會主動優化區分度，完全匹配鍵的優化目標

鍵值框架中，鍵的優化目標是最大化不同記憶間的區分度。論文指出，海馬體的神經表征完全遵循這一優化邏輯，最直接的證據是海馬體的表征排斥效應：Chanales[6] 等人的研究發現，當大鼠需要區分空間上高度重疊的兩條路線時，重疊區域對應的海馬體位置細胞表征，會主動向相反方向分離，最終完全逆轉原本的空間相似關系；且排斥效應的強度，與大鼠的路線區分準確率直接正相關。這表明鍵的表征會被優化到空間中相互分離的位置，最大化檢索區分度，而這一優化過程，僅發生在負責編碼鍵的海馬體中，新皮層的內容表征不會出現此類排斥效應。

2.2 記憶丟失？不，是索引失效

經典的記憶衰退理論認為，遺忘是記憶痕跡隨時間逐漸衰退、最終被永久擦除的過程。而論文基于鍵值記憶框架，提出了完全相反的核心假說：大腦的記憶一旦被編碼存儲，就會永久保存在新皮層中，幾乎不會被永久擦除；我們日常體驗到的遺忘，本質是海馬體的鍵索引功能失效，導致系統無法通過查詢線索匹配到對應的鍵，進而無法提取新皮層中完整存儲的值。

證據 1：記憶的精度不會隨時間衰減，僅可訪問性下降

如果遺忘是記憶痕跡的衰退，那么隨著時間推移，記憶的內容會逐漸模糊、精度持續下降；但如果遺忘是檢索失效，那么記憶的內容精度會保持不變，只是被成功提取的概率（可訪問性）會下降。Berens 等人的實驗精準驗證了這一點：

實驗者讓受試者記憶 “單詞 - 空間位置” 配對，在不同的保留間隔后測試記憶表現，將記憶表現拆分為兩個維度：可訪問性（能否成功回憶出位置）、精度（回憶出的位置與真實位置的誤差）；
結果顯示：隨著保留間隔的延長，記憶的可訪問性顯著下降，但回憶成功的記憶，其位置精度完全沒有衰減，與剛學習時的精度一致。

這一結果完全符合鍵值框架的預測：值的內容完整保存在新皮層中，精度不會隨時間變化；只是隨著時間推移，海馬體的鍵與日常線索的匹配效率下降，導致可訪問性降低，也就是我們體驗到的 “遺忘”。

證據 2：記憶干擾是遺忘的核心誘因，而非時間本身

如果遺忘是記憶痕跡的衰退，那么時間應該是遺忘的核心決定因素；但論文指出，記憶間的檢索干擾，才是遺忘的核心誘因，這也完全符合鍵值框架的邏輯：新記憶的鍵會對舊記憶的鍵產生干擾，降低舊鍵與查詢的匹配優先級，最終導致檢索失敗。最經典的證據來自 Shiffrin[7] 的序列列表記憶實驗：

實驗者給受試者依次呈現多個單詞列表，要求回憶倒數第二個列表的內容；
結果顯示：回憶的準確率，僅取決于被回憶列表的長度，與最后一個列表的長度完全無關。

這一結果對 “新記憶覆蓋舊記憶” 的衰退假說提出了重要挑戰：如果遺忘的本質是新記憶替換了舊記憶，那么最后一個列表的長度越長，舊列表的遺忘程度應該越嚴重；而實驗結果顯示，遺忘的核心誘因是同一列表內不同記憶的鍵相互干擾，導致檢索失敗，而非新記憶擦除了舊記憶的內容。

在這一視角下，機器學習中的災難性遺忘現象也可以得到一種統一的解釋：連續學習場景下，模型在學習新任務后舊任務的性能暴跌，并非必然是舊任務的記憶被從權重中擦除，更可能是新任務的鍵值對干擾了舊任務的檢索通路，這也正是論文 Figure.3 （對應本文中的Figure.4）模擬實驗的核心設計邏輯。

3. 作為Key-Value的MLP

在前文的內容中，我們系統拆解了鍵值記憶的通用計算框架、與大腦海馬體 - 新皮層系統的神經對應關系，以及「遺忘本質是檢索失效而非記憶丟失」的核心假說。但對于機器學習從業者而言，最核心的疑問依然存在：這套鍵值記憶框架，是否僅存在于 Transformer、聯想記憶這類專門設計的模型中？

本小節將基于論文中的數學推導，展示一個頗具啟發性的結論：任何經標準梯度下降訓練的線性層 / MLP，都可以被等價地重寫為一種鍵值記憶（Key-Value）形式；并通過可復現的模擬實驗，說明這一表述如何為理解神經網絡的學習與遺忘行為提供新的視角，包括對 “遺忘是否源于檢索失效” 這一假說的計算驗證與支持。

3.1 核心數學證明：線性層與鍵值記憶的嚴格等價性

論文引用 Irie 等人 2022 年的核心工作[8]，通過無任何近似的線性代數推導，證明了標準 SGD 訓練的線性層，與鍵值記憶系統存在 100% 的數學等價性。這一推導是整篇論文打通人工神經網絡與大腦記憶系統的核心樞紐，也是模擬實驗的理論基礎。

我們從讀者最熟悉的無偏置線性層開始：對于一個線性層，輸入為行向量$，輸出為行向量，可學習權重矩陣為，則前向傳播的核心公式為：y=xW

在模型訓練階段，我們通過隨機梯度下降更新權重W。定義損失函數為L，根據鏈式法則，損失對輸出y的梯度為誤差信號(η為學習率)，則損失對權重矩陣W的梯度為：。

當模型完成N步訓練后，我們可以將最終的權重矩陣W，從初始權重W0開始完整展開：

而對于我們最后的輸出，我們可以得到：

首先進行引入一個等價的符號符號約定：

x=q還是比較容易理解的，而xn= kn，vn= en可能稍微有些費解。關于前者，其實一旦我們將輸入的x理解為q，再看到，便能理解到其含義：訓練樣本xn在訓練的線性層中，天然承擔了鍵值記憶里「鍵」的全部作用 —— 它是對應誤差記憶的地址索引，用來和查詢輸入算相似度、決定記憶的貢獻權重，二者的數學角色與功能完全等價。

而vn= en也是同樣的思路：訓練過程中的誤差信號en，在訓練的線性層中，天然承擔了鍵值記憶里「值」的全部作用 —— 它是和鍵綁定存儲的核心記憶內容，被鍵匹配的相似度權重加權后，直接構成模型的最終輸出，二者的數學角色與功能完全等價。

于是，最后經過稍稍地變形，便可以寫作：

此時，我們已經得到了類似公式(2)(3)的Key-Value的形式了。

上述證明相對簡略，更完整的過程在 Irie 等人的工作中[8]。盡管簡略，但我們依然得到了一個嚴謹結論：線性層的前向推理過程，本質就是一次完整的鍵值記憶檢索。我們日常使用的 MLP，是由多個線性層 + 激活函數堆疊而成的復合架構，每一個線性層都是一個獨立的鍵值記憶系統，因此 MLP 本身就是一套多層級的鍵值記憶架構。

3.2 MNIST模擬實驗

論文設計了一套完整的連續學習模擬實驗，核心設計目標有兩點：一是通過可復現的計算結果，驗證線性層 / MLP 可被等價重寫為鍵值記憶形式的合理性；二是在該鍵值記憶框架下考察災難性遺忘的成因，展示其更可能源于檢索干擾而非記憶內容的消失，同時在計算層面類比復現了神經科學中 “激活沉默記憶可恢復行為表現” 的經典現象。

3.2.1 實驗設計

Fig.2 MNIST手寫數字數據集 (圖源Tensorflow官網)

實驗完全遵循連續學習的標準范式，全程無任何特殊的抗遺忘設計（如記憶回放、正則化等），僅使用最基礎的單隱藏層 MLP：

模型架構：單隱藏層前饋神經網絡，無偏置項；輸入層 784 維（28×28 灰度圖像扁平化），隱藏層 64 維，ReLU 激活函數，輸出層 4 維（對應兩個二分類任務的 4 個類別）。

Fig.3 實驗模型結構示意圖：將MNIST 28*28的圖像展平為1d的向量之后，與Input Layer 大小對齊，然后經過64d的隱藏層，最后通過輸出層的四個神經元分別識別任務1和任務2的數字“0，1”或者“T-shirt，褲子”（圖源：筆者根據論文實現的可視化）

任務設置：雙任務連續學習，模擬大腦的持續學習與遺忘：

任務 1：MNIST 手寫數字二分類，僅保留數字 0、1 的樣本，訓練集 12665 張，測試集 2115 張；
任務 2：FashionMNIST 服飾二分類，僅保留 T 恤、褲子的樣本，訓練集 12000 張，測試集 2000 張。

訓練流程：

階段 1：僅用任務 1 數據訓練模型 5 個 epoch，直至任務 1 測試精度達到 99%，此時模型已完整寫入任務 1 的所有鍵值記憶；
階段 2：凍結任務 1 對應的權重路徑，僅用任務 2 數據訓練模型 5 個 epoch，直至任務 2 測試精度達到 95%，全程不接觸任務 1 的任何訓練數據。

核心干預操作：訓練完全終止后，引入光遺傳學強度系數 β≥1，僅在推理階段放大任務 1 對應的鍵值記憶分量，全程無反向傳播、無重新訓練、無任務 1 數據輸入，僅通過調整 β 測試任務 1 的精度變化。

這里的「光遺傳學強度」是嚴格的類比：神經科學中，光遺傳學技術通過激光精準激活海馬體中編碼記憶的沉默印跡細胞，即可喚醒失憶動物的記憶；而這里的 β 系數，正是模擬激光的激活強度 ——β 越大，對任務 1 記憶的檢索增益越強。

3.2.2的具體實現

在一個分類任務上，突然出現了“光遺傳學強度”這樣非常生物的表述，的確是令人費解的。那么論文到底是如何實現“僅在推理階段放大任務 1 對應的鍵值記憶分量”這一操作的？事實上并不困難，我們知道，通過梯度下降更新的權重實際上是以加法的形式進行作用的，即：

那么，我們只需要干兩件事： 1. 分別定義兩個Layer去學習Task1和Task2，分別得到兩個任務的權重變化量。

在進行學習的前向傳播過程中，自然還是使用Wfinal，只不過為Wtask1乘上一個系數β。

代碼實現也相當簡單：

        return out

4.2.3 實驗結果

Fig.4 Forgetting and reactivation of memory events (圖源[1])

從左圖中我們可以看出，模型完成任務 2 的訓練后，任務 1 的測試精度從初始的 99% 暴跌至 9%，接近隨機猜測的水平，完美復現了連續學習中的經典災難性遺忘現象。

但根據前文的推導，任務 1 的所有鍵值對，已經完整、無損地累加到了權重矩陣中，訓練任務 2 的過程僅新增了任務 2 的鍵值對，未對任務 1 的記憶做任何修改、刪除。此時任務 1 的精度暴跌，本質是任務 2 的鍵值對在檢索中占據了主導，任務 1 的記憶被干擾淹沒，成為了「沉默記憶」，而非記憶本身丟失。

于是，當我們觀察右圖：通過 β 系數放大任務 1 的鍵值記憶分量后，任務 1 的測試精度隨 β 的增大呈現顯著的單調回升，無需任何重新訓練。當β=1.0（無干預，原始權重）時，任務 1 精度維持 9% 的遺忘狀態；而當β=1.8時，精度回升至接近初始的 99%，完全恢復任務 1 的分類性能。

如果任務 1 的記憶真的在訓練任務 2 時被覆蓋、擦除，那么無論 β 放大多少倍，都不可能恢復任務 1 的精度。只有當任務 1 的所有鍵值對完整無損地保存在權重中，放大操作才會生效。而這也說明了，災難性遺忘的核心原因，不是舊記憶被新記憶覆蓋，而是舊記憶的檢索優先級被新記憶干擾，導致檢索失效。記憶本身始終完整存在，只是變成了無法被自然線索激活的沉默。

4. 結語

到這里，我們拆解了這篇打通腦科學與機器學習的核心研究?？紤]到讀者群體以及受限于筆者本身水平，這篇解讀并非完整的解讀，僅選擇了文中筆者認為驚艷的部分，并強烈建議感興趣的讀者閱讀原文。

論文提出的這套統一鍵值記憶框架，為我們理解大腦記憶機制提供了一套自洽的跨學科視角：在該框架下，海馬體與新皮層的分工可被對應為鍵值記憶的尋址編碼與內容存儲，而日常的遺忘現象，也可被解釋為檢索通路的失效，而非記憶內容的永久丟失。同時，這套框架也為理解深度學習模型的學習與遺忘行為提供了統一的解釋邏輯：從 Transformer 的自注意力機制，到最基礎的 MLP，都可被等價重寫為鍵值記憶的形式；而領域內長期關注的災難性遺忘問題，在該框架下也可被歸因于檢索干擾，而非記憶內容的擦除。

人工與自然智能在記憶機制上的驚人收斂，為兩個領域的交叉發展打開了全新思路。

參考文獻

原論文代碼：https://github.com/kazuki-irie/kv-memory-brain

Tensorflow MNIST數據集官網：https://tensorflow.google.cn/datasets/catalog/mnist

[1]Gershman et al., Key-value memory in the brain, Neuron (2025), https://doi.org/10.1016/j.neuron.2025.02.029

[2]Kohonen, T. (1972). Correlation matrix memories. IEEE Trans. Comput. C–21, 353–359. https://doi.org/10.1109/TC.1972.5008975.

[3]McClelland, J.L., McNaughton, B.L., and O’Reilly, R.C. (1995). Why there are complementary learning systems in the hippocampus and neocortex: insights from the successes and failures of connectionist models of learning and memory. Psychol. Rev. 102, 419–457. https://doi.org/10. 1037/0033-295X.102.3.419.

[4]Winocur, G., Frankland, P.W., Sekeres, M., Fogel, S., and Moscovitch, M. (2009). Changes in context-specificity during memory reconsolidation: selective effects of hippocampal lesions. Learn. Mem. 16, 722–729. https://doi.org/10.1101/lm.1447209.

[5]Wiltgen, B.J., Zhou, M., Cai, Y., Balaji, J., Karlsson, M.G., Parivash, S.N., Li, W., and Silva, A.J. (2010). The hippocampus plays a selective role in the retrieval of detailed contextual memories. Curr. Biol. 20, 13361344. https://doi.org/10.1016/j.cub.2010.06.068.

[6]Chanales, A.J.H., Oza, A., Favila, S.E., and Kuhl, B.A. (2017). Overlap among spatial memories triggers repulsion of hippocampal representations. Curr. Biol. 27, 2307–2317.e5. https://doi.org/10.1016/j.cub.2017. 06.057.

[7]Shiffrin, R.M. (1970). Forgetting: Trace erosion or retrieval failure? Science 168, 1601–1603. https://doi.org/10.1126/science.168.3939.1601.

[8]Irie, K., Csorda ? s, R., and Schmidhuber, J. (2022). The dual form of neural networks revisited: Connecting test time predictions to training patterns via spotlights of attention. In International Conference on Machine Learning, pp. 9639–9659.

參考文獻可上下滑動查看

計算神經科學第三季讀書會

從單個神經元的放電到全腦范圍的意識涌現，理解智能的本質與演化始終是一個關于尺度的問題。更值得深思的是，無論是微觀的突觸可塑性、介觀的皮層模塊自組織，還是宏觀的全局信息廣播，不同尺度的動力學過程都在共同塑造著認知與意識。這說明，對心智的研究從最初就必須直面一個核心挑戰：局部的神經活動如何整合為統一的體驗？局域的網絡連接又如何支撐靈活的智能行為？

繼「」與「」讀書會后，集智俱樂部聯合來自數學、物理學、生物學、神經科學和計算機的一線研究者共同發起，跨越微觀、介觀與宏觀的視角，探索意識與智能的跨尺度計算、演化與涌現。重點探討物理規律與人工智能如何幫助我們認識神經動力學，以及神經活動跨尺度的計算與演化如何構建微觀與宏觀、結構與功能之間的橋梁。

詳情請見：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.