![]()
大語言模型(LLM)在完成部署后,通常便進入一種近乎“凍結”的狀態。它能夠執行預訓練階段已經掌握的任務,卻很難像人類一樣持續吸收新知識。這帶來了一個長期存在的矛盾:
停止學習,知識會逐漸過時;持續微調參數,又容易引發“災難性遺忘”,即模型在學習新能力時,原有能力也會被一并削弱甚至覆蓋。然而,重新進行大規模預訓練,無論是算力消耗還是工程成本,都異常高昂。
盡管上下文學習(In-Context Learning,ICL)提供了一種更輕量的適應方式,但它本質上仍受限于上下文窗口:會話結束后,模型“記住”的內容也隨之消失。這種現象與人類的順行性遺忘(anterograde amnesia)有些相似。人類患者能夠保留久遠的舊記憶,卻無法形成新的長期記憶,對他們而言,每一個當下都像第一次經歷。當前基于 Transformer 的 LLM,也表現出類似特征:知識要么被固化在預訓練參數中,要么短暫存在于當前上下文激活里,二者之間始終缺少穩定的連接機制。
為解決這一問題,來自谷歌和康奈爾大學的研究團隊提出了 Sleep 范式。這是一套受人類睡眠機制啟發的持續學習框架,試圖讓模型在不破壞既有能力的前提下,逐步沉淀和整合新知識。
![]()
論文鏈接:https://arxiv.org/pdf/2606.03979
據論文描述,Sleep 由兩個階段構成:記憶鞏固(類比人類的慢波睡眠 NREM)和做夢(類比快速眼動睡眠 REM)。
實驗結果顯示,在長上下文理解、知識整合、少樣本推理以及持續學習等任務中,Sleep 范式均能帶來持續的性能提升。
Sleep范式:重新定義LLM持續學習
Sleep 范式的出發點是對持續學習生命周期的重新定義。在傳統機器學習框架中,模型的生命周期被切分為訓練時間和測試時間兩個明確階段。而在持續學習場景下,這一邊界并不存在,模型始終處于學習狀態,只是學習的方式在兩種模態之間交替:
- Active(覺醒)階段:模型接收外部輸入,執行推理或上下文學習,知識以短期、高頻更新的方式暫存于 Attention 模塊和高頻 MLP 層中。
- Sleep(睡眠)階段:模型不再接受新的外部數據,轉而專注于對內部知識的鞏固與自我改進。Sleep 并非被動的閑置,而是一個高度動態的計算過程。
研究團隊將 Sleep 過程進一步拆解為兩個子階段,分別對應人類大腦中慢波睡眠和 REM 睡眠承擔的不同功能。
![]()
圖|傳統機器學習(訓練/測試分離)vs. 持續學習(Wake 與 Sleep 交替)示意圖
1.記憶鞏固:參數擴展與 Knowledge Seeding
記憶鞏固階段的核心目標,是將存儲在高頻(快速更新)模塊中的短期脆弱記憶,轉移到更穩定的低頻參數中,同時避免兩類知識相互干擾。
為什么直接遷移會導致遺忘?災難性遺忘的根本原因之一是參數容量有限,新知識的寫入必然覆蓋舊知識。受人類大腦神經可塑性的啟發,研究團隊提出了漸進式參數擴展機制:
在每次 Sleep 步驟中,向接收知識的低頻 MLP 塊(以 MoE 結構表示)新增一個低秩專家模塊(由兩個低維矩陣參數化),專門用于存儲即將遷移過來的新知識。已有專家的參數在此過程中完全凍結,確保舊知識不受擾動。
Sleep 結束后,高頻塊中此前添加的低秩參數會被重置清空,釋放容量供未來使用。這一步驟與人腦中的突觸修剪(synaptic pruning)高度類比,大腦在鞏固記憶后,會主動刪除冗余連接以提升效率。
![]()
圖|記憶鞏固整體流程
在參數擴展完成后,記憶遷移本身通過 Knowledge Seeding(上行蒸餾)來實現。與常規知識蒸餾方向相反,Knowledge Seeding 是從較小的“教師”模型(當前高頻模塊的狀態)向參數量更大的“學生”模型(擴展后的低頻模塊)進行蒸餾。
這一設計面臨兩個特殊挑戰:其一,學生的表達能力強于教師,直接在教師生成數據上訓練會導致學生參數的次優利用;其二,Sleep 階段原則上無法訪問外部數據集,主流蒸餾方法的依賴假設不成立。
為此,研究團隊在廣義知識蒸餾(GKD)框架的基礎上,引入了基于強化學習的模仿學習過程 Learning to Imitate(LTI)。整個 Knowledge Seeding 目標由兩部分構成:首先,在策略蒸餾(on-policy distillation),學生在自己生成的序列上接受教師 logit 的 token 級反饋,確保知識的直接傳遞;其次,LTI 過程,教師先生成一批合成文本(“夢境數據”),隨機截取前綴后讓學生續寫,再根據學生輸出與教師原文的語義相似度(由凍結的獎勵模型評分)和編輯距離(Levenshtein 距離)的加權組合計算獎勵。
LTI 的作用在于:光有知識還不夠,學生還需要學會如何像教師一樣使用這些知識。
2.做夢:RL驅動的自我改進
記憶鞏固完成后,Sleep 進入第二階段 Dreaming,對應人類 REM 睡眠中大腦活躍合成新連接的過程。此階段的目標是通過模型自我生成的合成數據,在不引入人工標注的情況下遞歸地提升自身能力。
合成數據如何生成?給定一個采樣任務(包含上下文 C 和評估指標 τ),模型在 MoE 路由時額外隨機選擇一個專家參與計算,這一設計刻意引入了無關知識的干擾,目的是模擬夢境中記憶的創造性混合,讓模型探索平時不會激活的知識組合。由此產生 m 個候選“夢境”樣本。
如何篩選有價值的夢境?研究團隊引入梯度 based 重要性評分:對每個夢境樣本計算語言建模目標關于當前參數的梯度范數,作為該樣本對模型能力改進潛力的代理指標。得分最高的 Top-k 樣本加上若干隨機樣本(保持多樣性)組成最終訓練集。對于入選的每個夢境,實驗以 LoRA 方式在獨立的模型實例上進行監督微調;若微調后模型在下游任務上的表現有所提升,則對應夢境獲得正向獎勵,整個生成過程通過 ReSTEM 算法進行優化。相比 SEAL 的原始設計,研究團隊在采樣策略(隨機專家路由)和樣本篩選(梯度 based 評分)兩個環節做了針對性改進,以控制迭代自訓練引發災難性遺忘的風險。
實驗結果
在實證評估中,研究團隊系統分析了 Sleep 范式各階段的獨立貢獻,以及多階段協同帶來的整體收益。具體結果如下:
在類別增量學習任務中,研究團隊基于 CLINC、Banking、DBpedia 三個意圖分類數據集,以 Llama-3B 與 Llama3-8B 為骨干模型,對比了 ICL(無 Sleep)、彈性權重鞏固(EWC)、外部持續學習器(InCA),以及不含顯式蒸餾機制的 Hope 基線。
結果顯示,引入 Sleep 的 Hope 在三個數據集上均取得最高準確率。相較于僅依賴提示級適應的 ICL,Sleep 能夠將上下文中的臨時適應能力轉化為持久化參數記憶;相較于不含顯式蒸餾的 Hope,加入自蒸餾機制后,模型提煉出的知識抽象質量進一步提升。
在記憶層級對 ICL 的影響實驗中,研究團隊基于 MK-NIAH(來自 RULER)、LongHealth 和 QASPER 三個長上下文 Benchmark,系統考察了 Hope 中 Sleep 階段數量,即記憶層級深度,對模型性能的影響,并與 ICL、DuoAttention、Cartridges 等方法進行對比。
實驗結果呈現出兩條一致規律:隨著鞏固階段數量增加,模型在長上下文任務上的表現持續提升;與此同時,當最低頻記憶模塊的更新頻率被提高、使其具備更強適應性后,整體性能反而下降。這表明,持久記憶的穩定性是其核心價值來源。整體來看,Hope 在三個任務上均優于 DuoAttention 與 Cartridges。
在順序習得兩門新語言實驗中,研究團隊基于 MTOB 與 Manchu 兩個低資源翻譯數據集,讓模型依次學習兩門在預訓練階段從未見過的新語言,并在最終階段同時評估兩種語言能力。
結果顯示,標準 ICL 在學習第二門語言后,對第一門語言的翻譯能力出現明顯崩塌,幾乎退化回預訓練基線;而 Hope-3(三級 Sleep)則保留了絕大多數已習得能力,其連續學習后的 ChRF 得分接近單語言獨立訓練水平。相比之下,Cartridges 與監督微調(SFT)在至少一門語言上同樣出現災難性遺忘,因此未進入論文主圖的有效結果區間。
在 BABILong 超長上下文推理任務中,面對最長可達 10M token 的 Benchmark,Hope 取得了接近滿分的表現。相比之下,GPT-4 與 GPT-4o-mini 在上下文長度超過 128K 至 256K token 后性能迅速下降;Llama-8B + RAG 同樣隨著上下文增長而明顯退化;Titans 與 ARMT 等同類小模型則在超過 1M token 后出現顯著性能劣化。
在數學推理任務中,研究團隊以 Qwen3-1.7B 與 Qwen3-8B 為基礎模型,在 AIME-24、AIME-25、HMMT-25 三個數學競賽 Benchmark 上,對比了 SFT 與 GRPO 等訓練方法。結果顯示,Sleep 在 Qwen3-8B 上的 AIME-24 得分達到 79.2,超過 OPSD 的 76.6 與 GRPO 的 76.4;在 Qwen3-1.7B 上同樣取得 53.2 的成績,高于 GRPO 的 51.0。
![]()
在知識融合實驗中,研究團隊基于 SQuAD 數據集,評估模型在無上下文問答條件下,將新知識內化進參數的能力。在單段落設置(n=1)下,Sleep(四級記憶)達到 48.9;在持續預訓練設置(n=200,對應 974 個相關問題)下達到 46.2,均優于 SEAL 的 46.7 與 43.2。進一步的消融實驗表明,移除 Dreaming 階段后,單段落場景下的準確率從 48.1 大幅下降至 35.7,說明自我改進階段對于知識內化具有關鍵作用。
![]()
在少樣本抽象推理實驗中,研究團隊以 Llama-3.2-1B 為骨干模型,在篩選后的 11 個訓練任務與 8 個保留任務上進行評估。最終,Sleep 的成功率達到 80%,顯著高于 SEAL 的 72.5%、TTT(僅進行合成更新、無 Dreaming)的 10%,以及 ICL 的 0%。
![]()
不足與未來方向
當然,這項研究依然存在一些局限性。
首先是在效率層面。根據論文描述,在相同步數條件下,SFT 的運行速度約為 Sleep 的 4 倍;但若以達到相同性能為目標,情況則出現反轉,SFT 需要額外消耗約 3.6 至 4.8 倍的實際墻鐘時間才能追平 Sleep。即便如此,Sleep 的整體計算開銷仍顯著高于標準對照方法,因此在強調快速迭代與低成本部署的場景中,實際應用仍面臨一定限制。
其次,研究團隊也指出,迭代式自訓練若控制不當,本身可能誘發災難性遺忘。這也是 Dreaming 階段引入基于梯度的樣本篩選機制,以及隨機專家路由策略的重要原因。不過,該機制在長期循環中的穩定性仍缺乏系統驗證。例如,在經歷數十輪 Sleep 后,模型是否依舊能夠穩定抑制遺忘、維持知識結構一致性,論文尚未給出充分實驗結果。
與此同時,當前方案對 MoE 架構存在較強依賴。參數擴展、記憶隔離以及多層級更新頻率控制等設計,都建立在稀疏混合專家結構之上。對于不支持專家路由的傳統稠密模型,Sleep 如何完成等價適配,論文并未展開深入討論。
更重要的是,Sleep 范式實際上指向了一個更宏觀的問題:LLM 的生命周期,或許不應在預訓練結束時終止。
人類大腦會在睡眠過程中持續進行記憶重構,將零散的短期經驗逐步沉淀為穩定、層次化的長期知識;而 Sleep 所嘗試的,正是將這一機制遷移到模型參數體系中,為 LLM 提供一種無需依賴額外人工標注、同時盡可能避免能力破壞的持續學習路徑。
隨著參數容量管理、蒸餾穩定性、多頻率記憶調度等關鍵問題進一步推進,具備周期性自我整合能力的模型,或許會成為下一代長生命周期 AI 系統的重要基礎組件。
更多技術細節,詳見原論文。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.