![]()
文章轉載于量子位
作者:聞樂
7×24,AI也吃不消。
卡內基梅隆大學和馬里蘭大學發了篇論文,《Language Models Need Sleep》——
大模型處理長上下文的時候,硬撐著不休息,真的會累傻。
![]()
這項研究的靈感源自人腦運作機制。
人睡覺的時候海馬體會把白天的短期記憶一遍遍回放,鞏固進皮層突觸,變成長期知識。
研究團隊認為模型也可以這樣,設計了一個睡眠機制,讓大模型上下文窗口快滿的時候別硬撐了,打個盹把最近的上下文反復咀嚼幾遍,壓縮進長期權重,清空緩存,醒了再接著干。
![]()
測試發現,合理增加“睡眠”迭代輪次,能明顯提升模型在深度推理類任務上的表現。
尤其是那些需要一步接一步推導的難題,越復雜,模型越需要多睡一會兒。
咋回事?
1
大模型到底怎么了,非要睡覺
Transformer的核心是注意力機制,但注意力有一個天生的短板就是,上下文越長,算力平方級往上躥,KV緩存也線性往上漲。
同樣是推理任務,8K上下文窗口和128K上下文窗口的算力成本差距極大,多出的算力基本都消耗在了歷史信息的關聯計算上。
所以現在的做法兩種:
要么就硬扛,扛不住了就把老信息踢出緩存,但踢出去的東西,模型就當沒發生過;
另一類就是兩年流行的SSM+Attention混合架構,比如Samba、Qwen3.5。
![]()
混合架構是想了個折中方案,把老信息壓縮進快速權重fast weight,不占緩存,同時保留信息的可調用能力。
這確實緩解了一部分內存壓力,但團隊發現即便快速權重還有充足容量,當推理步驟變多、邏輯鏈條變長時,模型依舊會出現性能失效的問題。
也就是說當下的瓶頸并非信息存儲能力不足,而是深度推理能力跟不上。
歷史信息被移出KV緩存前,模型僅有一次前向傳播的機會完成信息內化,單次處理根本不足以支撐復雜邏輯的拆解與推導。
這一點和人腦比較像,你白天經歷了一大堆事情,不是當場全消化掉的,而是大腦等你睡著了再處理。
![]()
海馬體在睡眠期間一遍遍回放白天的重要片段,把短期記憶鞏固進皮層突觸,變成長期知識。
但這個過程必須離線,也就是你得先睡著,把外部刺激暫時關掉,大腦才能集中算力干消化這件事。
而且它不是回放一遍就完,得多放幾遍。
1
模型的睡眠長什么樣
團隊把人腦這一整套邏輯搬到了模型上。
他們的設計是當模型上下文窗口快滿的時候,不硬撐了,直接讓大模型睡覺。
![]()
這里的睡覺是指暫停接收新token,進入純離線狀態,針對已積累的全部上下文,執行多輪遞歸前向傳播。
依靠可學習的局部規則,反復對信息進行提煉整合,逐步更新SSM模塊內的快速權重,完成信息的深度壓縮與消化。
消化完了就清空KV緩存,帶著更新后的權重醒來,接著干活。
![]()
從算力分配來看,額外的計算開銷全部集中在“睡眠”階段,模型蘇醒后的正常推理流程和常規模型保持一致,只需要一次前向傳播。
這里的“睡眠時長”,本質上就是信息迭代處理的輪次,輪次越多,代表模型對上下文內容的梳理、打磨次數越充分。
團隊選用元胞自動機、多跳圖檢索、GSM-Infinite無限數學推理三類任務開展測試,因為這幾類任務可以精準控制推理深度與記憶負載兩大變量。
![]()
測試結果清晰印證提升睡眠迭代輪次,模型整體性能穩步提升,而且性能提升主要體現在高難度深度推理任務上。
也就是說簡單的題醒著就能秒了,難的題需要睡一覺,得經過多輪梳理,才能理清思路。
只能說,摸魚休息確實是提升效率的妙招,有時候停下來才能好好思考(doge)。
論文地址:https://arxiv.org/abs/2605.26099
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.