无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

谷歌、康奈爾新研究:大模型的下一步,是學會“好好睡覺”

0
分享至


大語言模型(LLM)在完成部署后,通常便進入一種近乎“凍結”的狀態。它能夠執行預訓練階段已經掌握的任務,卻很難像人類一樣持續吸收新知識。這帶來了一個長期存在的矛盾

停止學習,知識會逐漸過時;持續微調參數,又容易引發“災難性遺忘”,即模型在學習新能力時,原有能力也會被一并削弱甚至覆蓋。然而,重新進行大規模預訓練,無論是算力消耗還是工程成本,都異常高昂。

盡管上下文學習(In-Context Learning,ICL)提供了一種更輕量的適應方式,但它本質上仍受限于上下文窗口:會話結束后,模型“記住”的內容也隨之消失。這種現象與人類的順行性遺忘(anterograde amnesia)有些相似。人類患者能夠保留久遠的舊記憶,卻無法形成新的長期記憶,對他們而言,每一個當下都像第一次經歷。當前基于 Transformer 的 LLM,也表現出類似特征:知識要么被固化在預訓練參數中,要么短暫存在于當前上下文激活里,二者之間始終缺少穩定的連接機制。

為解決這一問題,來自谷歌和康奈爾大學的研究團隊提出了 Sleep 范式。這是一套受人類睡眠機制啟發的持續學習框架,試圖讓模型在不破壞既有能力的前提下,逐步沉淀和整合新知識。


論文鏈接:https://arxiv.org/pdf/2606.03979

據論文描述,Sleep 由兩個階段構成:記憶鞏固(類比人類的慢波睡眠 NREM)和做夢(類比快速眼動睡眠 REM)。

實驗結果顯示,在長上下文理解、知識整合、少樣本推理以及持續學習等任務中,Sleep 范式均能帶來持續的性能提升。

Sleep范式:重新定義LLM持續學習

Sleep 范式的出發點是對持續學習生命周期的重新定義。在傳統機器學習框架中,模型的生命周期被切分為訓練時間和測試時間兩個明確階段。而在持續學習場景下,這一邊界并不存在,模型始終處于學習狀態,只是學習的方式在兩種模態之間交替:

  • Active(覺醒)階段:模型接收外部輸入,執行推理或上下文學習,知識以短期、高頻更新的方式暫存于 Attention 模塊和高頻 MLP 層中。
  • Sleep(睡眠)階段:模型不再接受新的外部數據,轉而專注于對內部知識的鞏固與自我改進。Sleep 并非被動的閑置,而是一個高度動態的計算過程。

研究團隊將 Sleep 過程進一步拆解為兩個子階段,分別對應人類大腦中慢波睡眠和 REM 睡眠承擔的不同功能。


圖|傳統機器學習(訓練/測試分離)vs. 持續學習(Wake 與 Sleep 交替)示意圖

1.記憶鞏固:參數擴展與 Knowledge Seeding

記憶鞏固階段的核心目標,是將存儲在高頻(快速更新)模塊中的短期脆弱記憶,轉移到更穩定的低頻參數中,同時避免兩類知識相互干擾。

為什么直接遷移會導致遺忘?災難性遺忘的根本原因之一是參數容量有限,新知識的寫入必然覆蓋舊知識。受人類大腦神經可塑性的啟發,研究團隊提出了漸進式參數擴展機制:

在每次 Sleep 步驟中,向接收知識的低頻 MLP 塊(以 MoE 結構表示)新增一個低秩專家模塊(由兩個低維矩陣參數化),專門用于存儲即將遷移過來的新知識。已有專家的參數在此過程中完全凍結,確保舊知識不受擾動。

Sleep 結束后,高頻塊中此前添加的低秩參數會被重置清空,釋放容量供未來使用。這一步驟與人腦中的突觸修剪(synaptic pruning)高度類比,大腦在鞏固記憶后,會主動刪除冗余連接以提升效率。


圖|記憶鞏固整體流程

在參數擴展完成后,記憶遷移本身通過 Knowledge Seeding(上行蒸餾)來實現。與常規知識蒸餾方向相反,Knowledge Seeding 是從較小的“教師”模型(當前高頻模塊的狀態)向參數量更大的“學生”模型(擴展后的低頻模塊)進行蒸餾。

這一設計面臨兩個特殊挑戰:其一,學生的表達能力強于教師,直接在教師生成數據上訓練會導致學生參數的次優利用;其二,Sleep 階段原則上無法訪問外部數據集,主流蒸餾方法的依賴假設不成立。

為此,研究團隊在廣義知識蒸餾(GKD)框架的基礎上,引入了基于強化學習的模仿學習過程 Learning to Imitate(LTI)。整個 Knowledge Seeding 目標由兩部分構成:首先,在策略蒸餾(on-policy distillation),學生在自己生成的序列上接受教師 logit 的 token 級反饋,確保知識的直接傳遞;其次,LTI 過程,教師先生成一批合成文本(“夢境數據”),隨機截取前綴后讓學生續寫,再根據學生輸出與教師原文的語義相似度(由凍結的獎勵模型評分)和編輯距離(Levenshtein 距離)的加權組合計算獎勵。

LTI 的作用在于:光有知識還不夠,學生還需要學會如何像教師一樣使用這些知識。

2.做夢:RL驅動的自我改進

記憶鞏固完成后,Sleep 進入第二階段 Dreaming,對應人類 REM 睡眠中大腦活躍合成新連接的過程。此階段的目標是通過模型自我生成的合成數據,在不引入人工標注的情況下遞歸地提升自身能力。

合成數據如何生成?給定一個采樣任務(包含上下文 C 和評估指標 τ),模型在 MoE 路由時額外隨機選擇一個專家參與計算,這一設計刻意引入了無關知識的干擾,目的是模擬夢境中記憶的創造性混合,讓模型探索平時不會激活的知識組合。由此產生 m 個候選“夢境”樣本。

如何篩選有價值的夢境?研究團隊引入梯度 based 重要性評分:對每個夢境樣本計算語言建模目標關于當前參數的梯度范數,作為該樣本對模型能力改進潛力的代理指標。得分最高的 Top-k 樣本加上若干隨機樣本(保持多樣性)組成最終訓練集。對于入選的每個夢境,實驗以 LoRA 方式在獨立的模型實例上進行監督微調;若微調后模型在下游任務上的表現有所提升,則對應夢境獲得正向獎勵,整個生成過程通過 ReSTEM 算法進行優化。相比 SEAL 的原始設計,研究團隊在采樣策略(隨機專家路由)和樣本篩選(梯度 based 評分)兩個環節做了針對性改進,以控制迭代自訓練引發災難性遺忘的風險。

實驗結果

在實證評估中,研究團隊系統分析了 Sleep 范式各階段的獨立貢獻,以及多階段協同帶來的整體收益。具體結果如下:

在類別增量學習任務中,研究團隊基于 CLINC、Banking、DBpedia 三個意圖分類數據集,以 Llama-3B 與 Llama3-8B 為骨干模型,對比了 ICL(無 Sleep)、彈性權重鞏固(EWC)、外部持續學習器(InCA),以及不含顯式蒸餾機制的 Hope 基線。

結果顯示,引入 Sleep 的 Hope 在三個數據集上均取得最高準確率。相較于僅依賴提示級適應的 ICL,Sleep 能夠將上下文中的臨時適應能力轉化為持久化參數記憶;相較于不含顯式蒸餾的 Hope,加入自蒸餾機制后,模型提煉出的知識抽象質量進一步提升。

在記憶層級對 ICL 的影響實驗中,研究團隊基于 MK-NIAH(來自 RULER)、LongHealth 和 QASPER 三個長上下文 Benchmark,系統考察了 Hope 中 Sleep 階段數量,即記憶層級深度,對模型性能的影響,并與 ICL、DuoAttention、Cartridges 等方法進行對比。

實驗結果呈現出兩條一致規律:隨著鞏固階段數量增加,模型在長上下文任務上的表現持續提升;與此同時,當最低頻記憶模塊的更新頻率被提高、使其具備更強適應性后,整體性能反而下降。這表明,持久記憶的穩定性是其核心價值來源。整體來看,Hope 在三個任務上均優于 DuoAttention 與 Cartridges。

在順序習得兩門新語言實驗中,研究團隊基于 MTOB 與 Manchu 兩個低資源翻譯數據集,讓模型依次學習兩門在預訓練階段從未見過的新語言,并在最終階段同時評估兩種語言能力。

結果顯示,標準 ICL 在學習第二門語言后,對第一門語言的翻譯能力出現明顯崩塌,幾乎退化回預訓練基線;而 Hope-3(三級 Sleep)則保留了絕大多數已習得能力,其連續學習后的 ChRF 得分接近單語言獨立訓練水平。相比之下,Cartridges 與監督微調(SFT)在至少一門語言上同樣出現災難性遺忘,因此未進入論文主圖的有效結果區間。

在 BABILong 超長上下文推理任務中,面對最長可達 10M token 的 Benchmark,Hope 取得了接近滿分的表現。相比之下,GPT-4 與 GPT-4o-mini 在上下文長度超過 128K 至 256K token 后性能迅速下降;Llama-8B + RAG 同樣隨著上下文增長而明顯退化;Titans 與 ARMT 等同類小模型則在超過 1M token 后出現顯著性能劣化。

在數學推理任務中,研究團隊以 Qwen3-1.7B 與 Qwen3-8B 為基礎模型,在 AIME-24、AIME-25、HMMT-25 三個數學競賽 Benchmark 上,對比了 SFT 與 GRPO 等訓練方法。結果顯示,Sleep 在 Qwen3-8B 上的 AIME-24 得分達到 79.2,超過 OPSD 的 76.6 與 GRPO 的 76.4;在 Qwen3-1.7B 上同樣取得 53.2 的成績,高于 GRPO 的 51.0。


在知識融合實驗中,研究團隊基于 SQuAD 數據集,評估模型在無上下文問答條件下,將新知識內化進參數的能力。在單段落設置(n=1)下,Sleep(四級記憶)達到 48.9;在持續預訓練設置(n=200,對應 974 個相關問題)下達到 46.2,均優于 SEAL 的 46.7 與 43.2。進一步的消融實驗表明,移除 Dreaming 階段后,單段落場景下的準確率從 48.1 大幅下降至 35.7,說明自我改進階段對于知識內化具有關鍵作用。


在少樣本抽象推理實驗中,研究團隊以 Llama-3.2-1B 為骨干模型,在篩選后的 11 個訓練任務與 8 個保留任務上進行評估。最終,Sleep 的成功率達到 80%,顯著高于 SEAL 的 72.5%、TTT(僅進行合成更新、無 Dreaming)的 10%,以及 ICL 的 0%。


不足與未來方向

當然,這項研究依然存在一些局限性。

首先是在效率層面。根據論文描述,在相同步數條件下,SFT 的運行速度約為 Sleep 的 4 倍;但若以達到相同性能為目標,情況則出現反轉,SFT 需要額外消耗約 3.6 至 4.8 倍的實際墻鐘時間才能追平 Sleep。即便如此,Sleep 的整體計算開銷仍顯著高于標準對照方法,因此在強調快速迭代與低成本部署的場景中,實際應用仍面臨一定限制。

其次,研究團隊也指出,迭代式自訓練若控制不當,本身可能誘發災難性遺忘。這也是 Dreaming 階段引入基于梯度的樣本篩選機制,以及隨機專家路由策略的重要原因。不過,該機制在長期循環中的穩定性仍缺乏系統驗證。例如,在經歷數十輪 Sleep 后,模型是否依舊能夠穩定抑制遺忘、維持知識結構一致性,論文尚未給出充分實驗結果。

與此同時,當前方案對 MoE 架構存在較強依賴。參數擴展、記憶隔離以及多層級更新頻率控制等設計,都建立在稀疏混合專家結構之上。對于不支持專家路由的傳統稠密模型,Sleep 如何完成等價適配,論文并未展開深入討論。

更重要的是,Sleep 范式實際上指向了一個更宏觀的問題:LLM 的生命周期,或許不應在預訓練結束時終止

人類大腦會在睡眠過程中持續進行記憶重構,將零散的短期經驗逐步沉淀為穩定、層次化的長期知識;而 Sleep 所嘗試的,正是將這一機制遷移到模型參數體系中,為 LLM 提供一種無需依賴額外人工標注、同時盡可能避免能力破壞的持續學習路徑。

隨著參數容量管理、蒸餾穩定性、多頻率記憶調度等關鍵問題進一步推進,具備周期性自我整合能力的模型,或許會成為下一代長生命周期 AI 系統的重要基礎組件。

更多技術細節,詳見原論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

我愛英超
2026-07-02 22:05:30
早上7點 世界杯14億大戰!C羅深陷20年魔咒 必有1巨星出局

早上7點 世界杯14億大戰!C羅深陷20年魔咒 必有1巨星出局

葉青足球世界
2026-07-02 17:12:02
一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

借你一生
2026-07-02 10:26:03
成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

東京在線
2026-07-02 16:57:07
里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

往史過眼云煙
2026-07-02 09:55:26
首都保衛戰打響后,普京發表全國講話,俄羅斯對美西方發出通牒

首都保衛戰打響后,普京發表全國講話,俄羅斯對美西方發出通牒

策前論
2026-07-02 17:21:49
“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

林林先生
2026-07-01 12:30:03
從699分到愛心接力:少年向上 社會向善丨中聽

從699分到愛心接力:少年向上 社會向善丨中聽

大象新聞
2026-07-01 16:30:12
六代機,就這么明晃晃的官宣了!

六代機,就這么明晃晃的官宣了!

新動察
2026-07-02 08:25:58
韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

可達鴨面面觀
2026-07-02 19:44:03
曝38歲德國主帥下課 足協開會3小時要求他辭職 愿付700萬歐補償金

曝38歲德國主帥下課 足協開會3小時要求他辭職 愿付700萬歐補償金

我愛英超
2026-07-02 21:40:07
80%變0!里奇·保羅曝光詹姆斯離湖心路

80%變0!里奇·保羅曝光詹姆斯離湖心路

籃壇第一線
2026-07-02 00:47:17
地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

瀟湘晨報
2026-07-02 16:32:20
賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

背包旅行
2026-07-02 11:45:23
西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

李晚書
2026-07-02 18:44:26
故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

全景體育V
2026-07-02 21:38:20
成都一女子不洗手抱孫子,兒媳怒斥不衛生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

成都一女子不洗手抱孫子,兒媳怒斥不衛生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

背包旅行
2026-07-02 14:33:11
中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

極目新聞
2026-07-02 22:47:55
加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

證券時報
2026-07-02 21:53:03
扎哈羅娃:馮德萊恩是個“出色的騙子”

扎哈羅娃:馮德萊恩是個“出色的騙子”

參考消息
2026-07-02 14:14:08
2026-07-03 02:28:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4864文章數 37483關注度
往期回顧 全部

科技要聞

馬斯克不承認,但SpaceX就該造AI手機

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發工資

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發工資

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

眾星祝福祖國,曾沛慈原形畢露?

財經要聞

千億茶市場無贏家:瀾滄巨虧 八馬停"蹄"

汽車要聞

有純電有增程 還有二代VLA支持 小鵬MONA L03預售價14.38萬起

態度原創

藝術
家居
親子
教育
軍事航空

藝術要聞

一念天堂,一念地獄:你的心是什么樣,世界就什么樣

家居要聞

傳奇筑 日常詩

親子要聞

從新生兒到學齡期全覆蓋:兒童被子成長型選型的策略與實用方法

教育要聞

初二期末只在校內第120名、第125名,四年后在全省站到了狀元榜眼

軍事要聞

美軍“航母殺手”首次公開 此前從未展示

無障礙瀏覽 進入關懷版