網易首頁 > 網易號 > 正文申請入駐

谷歌、康奈爾新研究：大模型的下一步，是學會“好好睡覺”

2026-06-03 19:06:11　來源: 人工智能學家

北京舉報

分享至

大語言模型（LLM）在完成部署后，通常便進入一種近乎“凍結”的狀態。它能夠執行預訓練階段已經掌握的任務，卻很難像人類一樣持續吸收新知識。這帶來了一個長期存在的矛盾：

停止學習，知識會逐漸過時；持續微調參數，又容易引發“災難性遺忘”，即模型在學習新能力時，原有能力也會被一并削弱甚至覆蓋。然而，重新進行大規模預訓練，無論是算力消耗還是工程成本，都異常高昂。

盡管上下文學習（In-Context Learning，ICL）提供了一種更輕量的適應方式，但它本質上仍受限于上下文窗口：會話結束后，模型“記住”的內容也隨之消失。這種現象與人類的順行性遺忘（anterograde amnesia）有些相似。人類患者能夠保留久遠的舊記憶，卻無法形成新的長期記憶，對他們而言，每一個當下都像第一次經歷。當前基于 Transformer 的 LLM，也表現出類似特征：知識要么被固化在預訓練參數中，要么短暫存在于當前上下文激活里，二者之間始終缺少穩定的連接機制。

為解決這一問題，來自谷歌和康奈爾大學的研究團隊提出了 Sleep 范式。這是一套受人類睡眠機制啟發的持續學習框架，試圖讓模型在不破壞既有能力的前提下，逐步沉淀和整合新知識。

論文鏈接：https://arxiv.org/pdf/2606.03979

據論文描述，Sleep 由兩個階段構成：記憶鞏固（類比人類的慢波睡眠 NREM）和做夢（類比快速眼動睡眠 REM）。

實驗結果顯示，在長上下文理解、知識整合、少樣本推理以及持續學習等任務中，Sleep 范式均能帶來持續的性能提升。

Sleep范式：重新定義LLM持續學習

Sleep 范式的出發點是對持續學習生命周期的重新定義。在傳統機器學習框架中，模型的生命周期被切分為訓練時間和測試時間兩個明確階段。而在持續學習場景下，這一邊界并不存在，模型始終處于學習狀態，只是學習的方式在兩種模態之間交替：

Active（覺醒）階段：模型接收外部輸入，執行推理或上下文學習，知識以短期、高頻更新的方式暫存于 Attention 模塊和高頻 MLP 層中。
Sleep（睡眠）階段：模型不再接受新的外部數據，轉而專注于對內部知識的鞏固與自我改進。Sleep 并非被動的閑置，而是一個高度動態的計算過程。

研究團隊將 Sleep 過程進一步拆解為兩個子階段，分別對應人類大腦中慢波睡眠和 REM 睡眠承擔的不同功能。

圖｜傳統機器學習（訓練/測試分離）vs. 持續學習（Wake 與 Sleep 交替）示意圖

1.記憶鞏固：參數擴展與 Knowledge Seeding

記憶鞏固階段的核心目標，是將存儲在高頻（快速更新）模塊中的短期脆弱記憶，轉移到更穩定的低頻參數中，同時避免兩類知識相互干擾。

為什么直接遷移會導致遺忘？災難性遺忘的根本原因之一是參數容量有限，新知識的寫入必然覆蓋舊知識。受人類大腦神經可塑性的啟發，研究團隊提出了漸進式參數擴展機制：

在每次 Sleep 步驟中，向接收知識的低頻 MLP 塊（以 MoE 結構表示）新增一個低秩專家模塊（由兩個低維矩陣參數化），專門用于存儲即將遷移過來的新知識。已有專家的參數在此過程中完全凍結，確保舊知識不受擾動。

Sleep 結束后，高頻塊中此前添加的低秩參數會被重置清空，釋放容量供未來使用。這一步驟與人腦中的突觸修剪（synaptic pruning）高度類比，大腦在鞏固記憶后，會主動刪除冗余連接以提升效率。

圖｜記憶鞏固整體流程

在參數擴展完成后，記憶遷移本身通過 Knowledge Seeding（上行蒸餾）來實現。與常規知識蒸餾方向相反，Knowledge Seeding 是從較小的“教師”模型（當前高頻模塊的狀態）向參數量更大的“學生”模型（擴展后的低頻模塊）進行蒸餾。

這一設計面臨兩個特殊挑戰：其一，學生的表達能力強于教師，直接在教師生成數據上訓練會導致學生參數的次優利用；其二，Sleep 階段原則上無法訪問外部數據集，主流蒸餾方法的依賴假設不成立。

為此，研究團隊在廣義知識蒸餾（GKD）框架的基礎上，引入了基于強化學習的模仿學習過程 Learning to Imitate（LTI）。整個 Knowledge Seeding 目標由兩部分構成：首先，在策略蒸餾（on-policy distillation），學生在自己生成的序列上接受教師 logit 的 token 級反饋，確保知識的直接傳遞；其次，LTI 過程，教師先生成一批合成文本（“夢境數據”），隨機截取前綴后讓學生續寫，再根據學生輸出與教師原文的語義相似度（由凍結的獎勵模型評分）和編輯距離（Levenshtein 距離）的加權組合計算獎勵。

LTI 的作用在于：光有知識還不夠，學生還需要學會如何像教師一樣使用這些知識。

2.做夢：RL驅動的自我改進

記憶鞏固完成后，Sleep 進入第二階段 Dreaming，對應人類 REM 睡眠中大腦活躍合成新連接的過程。此階段的目標是通過模型自我生成的合成數據，在不引入人工標注的情況下遞歸地提升自身能力。

合成數據如何生成？給定一個采樣任務（包含上下文 C 和評估指標 τ），模型在 MoE 路由時額外隨機選擇一個專家參與計算，這一設計刻意引入了無關知識的干擾，目的是模擬夢境中記憶的創造性混合，讓模型探索平時不會激活的知識組合。由此產生 m 個候選“夢境”樣本。

如何篩選有價值的夢境？研究團隊引入梯度 based 重要性評分：對每個夢境樣本計算語言建模目標關于當前參數的梯度范數，作為該樣本對模型能力改進潛力的代理指標。得分最高的 Top-k 樣本加上若干隨機樣本（保持多樣性）組成最終訓練集。對于入選的每個夢境，實驗以 LoRA 方式在獨立的模型實例上進行監督微調；若微調后模型在下游任務上的表現有所提升，則對應夢境獲得正向獎勵，整個生成過程通過 ReSTEM 算法進行優化。相比 SEAL 的原始設計，研究團隊在采樣策略（隨機專家路由）和樣本篩選（梯度 based 評分）兩個環節做了針對性改進，以控制迭代自訓練引發災難性遺忘的風險。

實驗結果

在實證評估中，研究團隊系統分析了 Sleep 范式各階段的獨立貢獻，以及多階段協同帶來的整體收益。具體結果如下：

在類別增量學習任務中，研究團隊基于 CLINC、Banking、DBpedia 三個意圖分類數據集，以 Llama-3B 與 Llama3-8B 為骨干模型，對比了 ICL（無 Sleep）、彈性權重鞏固（EWC）、外部持續學習器（InCA），以及不含顯式蒸餾機制的 Hope 基線。

結果顯示，引入 Sleep 的 Hope 在三個數據集上均取得最高準確率。相較于僅依賴提示級適應的 ICL，Sleep 能夠將上下文中的臨時適應能力轉化為持久化參數記憶；相較于不含顯式蒸餾的 Hope，加入自蒸餾機制后，模型提煉出的知識抽象質量進一步提升。

在記憶層級對 ICL 的影響實驗中，研究團隊基于 MK-NIAH（來自 RULER）、LongHealth 和 QASPER 三個長上下文 Benchmark，系統考察了 Hope 中 Sleep 階段數量，即記憶層級深度，對模型性能的影響，并與 ICL、DuoAttention、Cartridges 等方法進行對比。

實驗結果呈現出兩條一致規律：隨著鞏固階段數量增加，模型在長上下文任務上的表現持續提升；與此同時，當最低頻記憶模塊的更新頻率被提高、使其具備更強適應性后，整體性能反而下降。這表明，持久記憶的穩定性是其核心價值來源。整體來看，Hope 在三個任務上均優于 DuoAttention 與 Cartridges。

在順序習得兩門新語言實驗中，研究團隊基于 MTOB 與 Manchu 兩個低資源翻譯數據集，讓模型依次學習兩門在預訓練階段從未見過的新語言，并在最終階段同時評估兩種語言能力。

結果顯示，標準 ICL 在學習第二門語言后，對第一門語言的翻譯能力出現明顯崩塌，幾乎退化回預訓練基線；而 Hope-3（三級 Sleep）則保留了絕大多數已習得能力，其連續學習后的 ChRF 得分接近單語言獨立訓練水平。相比之下，Cartridges 與監督微調（SFT）在至少一門語言上同樣出現災難性遺忘，因此未進入論文主圖的有效結果區間。

在 BABILong 超長上下文推理任務中，面對最長可達 10M token 的 Benchmark，Hope 取得了接近滿分的表現。相比之下，GPT-4 與 GPT-4o-mini 在上下文長度超過 128K 至 256K token 后性能迅速下降；Llama-8B + RAG 同樣隨著上下文增長而明顯退化；Titans 與 ARMT 等同類小模型則在超過 1M token 后出現顯著性能劣化。

在數學推理任務中，研究團隊以 Qwen3-1.7B 與 Qwen3-8B 為基礎模型，在 AIME-24、AIME-25、HMMT-25 三個數學競賽 Benchmark 上，對比了 SFT 與 GRPO 等訓練方法。結果顯示，Sleep 在 Qwen3-8B 上的 AIME-24 得分達到 79.2，超過 OPSD 的 76.6 與 GRPO 的 76.4；在 Qwen3-1.7B 上同樣取得 53.2 的成績，高于 GRPO 的 51.0。

在知識融合實驗中，研究團隊基于 SQuAD 數據集，評估模型在無上下文問答條件下，將新知識內化進參數的能力。在單段落設置（n=1）下，Sleep（四級記憶）達到 48.9；在持續預訓練設置（n=200，對應 974 個相關問題）下達到 46.2，均優于 SEAL 的 46.7 與 43.2。進一步的消融實驗表明，移除 Dreaming 階段后，單段落場景下的準確率從 48.1 大幅下降至 35.7，說明自我改進階段對于知識內化具有關鍵作用。

在少樣本抽象推理實驗中，研究團隊以 Llama-3.2-1B 為骨干模型，在篩選后的 11 個訓練任務與 8 個保留任務上進行評估。最終，Sleep 的成功率達到 80%，顯著高于 SEAL 的 72.5%、TTT（僅進行合成更新、無 Dreaming）的 10%，以及 ICL 的 0%。

不足與未來方向

當然，這項研究依然存在一些局限性。

首先是在效率層面。根據論文描述，在相同步數條件下，SFT 的運行速度約為 Sleep 的 4 倍；但若以達到相同性能為目標，情況則出現反轉，SFT 需要額外消耗約 3.6 至 4.8 倍的實際墻鐘時間才能追平 Sleep。即便如此，Sleep 的整體計算開銷仍顯著高于標準對照方法，因此在強調快速迭代與低成本部署的場景中，實際應用仍面臨一定限制。

其次，研究團隊也指出，迭代式自訓練若控制不當，本身可能誘發災難性遺忘。這也是 Dreaming 階段引入基于梯度的樣本篩選機制，以及隨機專家路由策略的重要原因。不過，該機制在長期循環中的穩定性仍缺乏系統驗證。例如，在經歷數十輪 Sleep 后，模型是否依舊能夠穩定抑制遺忘、維持知識結構一致性，論文尚未給出充分實驗結果。

與此同時，當前方案對 MoE 架構存在較強依賴。參數擴展、記憶隔離以及多層級更新頻率控制等設計，都建立在稀疏混合專家結構之上。對于不支持專家路由的傳統稠密模型，Sleep 如何完成等價適配，論文并未展開深入討論。

更重要的是，Sleep 范式實際上指向了一個更宏觀的問題：LLM 的生命周期，或許不應在預訓練結束時終止。

人類大腦會在睡眠過程中持續進行記憶重構，將零散的短期經驗逐步沉淀為穩定、層次化的長期知識；而 Sleep 所嘗試的，正是將這一機制遷移到模型參數體系中，為 LLM 提供一種無需依賴額外人工標注、同時盡可能避免能力破壞的持續學習路徑。

隨著參數容量管理、蒸餾穩定性、多頻率記憶調度等關鍵問題進一步推進，具備周期性自我整合能力的模型，或許會成為下一代長生命周期 AI 系統的重要基礎組件。

更多技術細節，詳見原論文。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.