網易首頁 > 網易號 > 正文 申請入駐

DeepSeek V4最大的遺憾

0
分享至

henry 發自 凹非寺
量子位 | 公眾號 QbitAI

DeepSeekV4的技術報告里有mHC,有CSA,有HCA,有Muon,有FP4……

唯獨沒有Engram。

Engram去哪了?

這個話題一度成為網友們討論的熱點。

Engram在今年1月由DeepSeek和北大聯合開源,主要研究大模型的記憶與效率問題。

自掛上arXiv的那一刻起,圈子里圍繞它的探討就沒有停止過…



不僅僅因為它是V4的前奏,而是有了Engram,「倫敦是英國首都」這種事實,模型不用動用整個深層網絡去重新推一遍,直接查就行。

不僅省顯存,還能釋放深層網絡容量,用于更高階的推理。

正因如此,自1月初論文發表以來,所有人都覺得,Engram就是V4的架構地基,所有人都在盼。

以至于V4發表后,大家第一時間就是command+f去論文里找Engram,可惜并沒有。



以至于不少網友甚至覺得,沒有Engram,V4就是不完整的。



沒有Engram,可能是DeepSeekV4最大的遺憾。

不過,Engram并沒有消失。隨后三篇值得注意的論文接力出現:

  • CXL內存池化版本:把Engram放進多機共享的CXL內存池,解決大模型多機部署的存儲問題。
  • 無沖突熱層實驗:對Engram的多頭哈希優化進行了實證檢驗,證偽了一些直覺式改進方案。
  • 視覺Tiny Engram:AutoArk團隊把文本Engram搬到視覺模態,擴展了它的應用邊界。

所以,雖然V4沒有Engram,但它的理念、探索和后續應用已經悄然鋪開,為下一代模型打下基礎。

Engram到底是什么

把時間倒回2026年1月12日。

那一天,DeepSeek聯合北大放出了一篇33頁的論文《ConditionalMemoryviaScalableLookup》。第一作者ChengXin,北大博士生,曾經署名過V3。最后一位作者,梁文鋒。



先來一句話速通版,Engram是給Transformer加的一個原生知識查表模塊。能查的別算,先查一下。

團隊的核心觀察是,語言建模其實包含兩種性質完全不同的任務,一種是需要深度動態計算的組合推理,另一種是檢索靜態知識。

之前的問題在于,Transformer把這兩件事混在一起做。模型識別一個實體時,得消耗好幾層注意力和前饋網絡逐層拼湊特征。

論文里舉了個例子,「Diana,Princess of Wales」。模型要走6層才能把這個識別完。

前幾層還在糾結「Wales是英國的一個地區」、「Princess of Wales是某種頭銜」這些中間狀態,最后一層才反應過來這是戴安娜王妃。

這種「用昂貴的運行時計算重建一個靜態查找表」的活,本來可以讓深層網絡去干更高階的推理。

對此,Engram的思路相當直接,既然經典的N-gram模型就能用O(1)的時間復雜度捕獲這些局部依賴,那干脆把這能力直接嵌進Transformer。

打個比方,就像你做數學題,該用的公式不必每次從頭推一遍,翻表代進去就行。Transformer之前沒這張表,只能每道題都從公理走起。Engram等于把這張表交到模型手里。

具體做法是,在Transformer的第2層和第15層之間各插入一個Engram模塊。

每個位置的輸入會觸發一次哈希查找,把當前token和前面幾個token組成的N-gram映射到一個巨大的嵌入表里,直接取出對應的向量。

門控機制保證查到的內容跟當前上下文不匹配時自動屏蔽。比如「張」是個常見姓氏,但「張仲景」三個字湊一起就是固定歷史人物實體了,門控就負責認出這種區別。

Engram的定位是MoE之外的另一條稀疏軸。MoE是把計算稀疏化,只激活一部分專家。Engram是把存儲稀疏化,只查一部分條目。兩者互補,不沖突。



論文最核心的一段實驗,是固定總參數和每token激活參數,然后讓MoE專家和Engram記憶搶預算,得到一條U形曲線。



純MoE不是最優解。把大約20%-25%的稀疏參數分給Engram,模型loss達到最低點。

按這個曲線指導,團隊把Engram擴到27B驗證。激活參數3.8B,訓練262B tokens,嚴格跟MoE-27B基線對齊。

結果知識密集型任務的提升符合預期(MMLU +3.4,CMMLU +4.0),但通用推理和代碼數學的提升超出預期(BBH +5.0,ARC-Challenge +3.7,HumanEval +3.0,MATH +2.4),長上下文場景更夸張,Multi-Query NIAH從84.2%躍升到97.0%。



那么,為什么記憶模塊還能反過來提升推理?

LogitLens和CKA給出了答案,Engram-27B第5層的表征,跟MoE基線第12層的表征最相似。

Engram把模型的早期層從「重建靜態知識」這種苦力活里解放出來,這部分網絡深度被騰出來做更復雜的推理。Engram不是新增了一塊記憶,它還變相把網絡加深了。



工程上。論文把一個1000億參數的Engram表整個甩到host DRAM,在H800上跑推理,8B-Dense的吞吐損失只有2.8%。

靠的是Engram索引的確定性,只取決于輸入token序列,完全可以提前算,CPU異步預取跟GPU計算重疊。

可以說,這個模塊天生就不靠HBM,只可惜如今V4來了,Engram沒來。

沒在v4,但在其他地方

發明者把它放在那里沒動,但路上還是有人。三個月里,至少出現了三個值得說一下的工作。

把Engram塞進CXL內存池

3月10日,北大、阿里云、山東英信、人大、港大聯合發了一篇系統論文,《Pooling Engram Conditional Memory in Large Language Models using CXL》。



他們沒改Engram本身,而是回答了一個更工程的問題,如果Engram真的成了下一代標配,內存放哪。

答案是CXL內存池化。GPU HBM放計算權重,本地DRAM做二級緩存,CXL池做三級。8臺服務器共享4TB內存池,XConn XC50256交換芯片做拓撲,512GB/s帶寬。

整套集成進SGLang,做了預取-計算重疊,跑下來端到端吞吐損失小于5%。Engram論文里那句「1000億嵌入表卸載DRAM」的輕描淡寫,被他們做成了27B和40B兩個規模的真實測試。

結論很清楚,Engram這種確定性尋址、可預取的負載,幾乎是為CXL量身定做的。

一個反直覺的實驗

Engram論文上線第十一天,1月23日,一個叫TaoLin的研究者,單作者,放出了《A Collision-FreeHot-Tier Extension for Engram-Style Conditional Memory》。



他想驗證一個看上去顯然的優化,Engram用多頭哈希查表會有沖突,如果把高頻N-gram用Minimal Perfect Hash Function完全消除沖突,模型會不會更好。

他設計了Engram-Nine,把記憶分成無沖突的「熱層」和保留多頭哈希的「冷層」。

結果反直覺。在嚴格iso-parameter控制下,無沖突設計沒有穩定提升驗證loss。

route-stratified評估還發現,訓練初期熱路徑(高頻)loss更低,但訓練后期冷路徑反過來超過熱路徑。

一個看上去顯然的優化方向,被一個真做實驗的人證偽了。

把Engram推到視覺(AutoArk/TinyEngram)

GitHub上一個叫AutoArk的團隊搞了Tiny Engram。



基于Qwen-3完整復現文本Engram之后,他們做了一件論文里沒做的事,把Engram搬到Stable Diffusion上。

視覺patch經過分層編碼,底層抓紋理,中層抓部件,高層抓風格,然后整套丟進哈希查表。

跟LoRA比下來,達到同等效果,Engram需要的額外參數只有LoRA的15%到30%。連續注入多個新概念時,LoRA會出現明顯的概念退化,Engram不會。

Engram原本是為文本設計的。AutoArk等于把這扇門撞開了,凡是能離散化、能哈希的模態,Engram都能搬。

三個月里,Engram這條路上,發明者最沉默,跟進者各自走了一步。

一個團隊替它解決多機內存層級,一個獨立研究者證偽了它一個看似顯然的優化方向,一個開源團隊把它推到了視覺。



而deepseek-ai/Engram這個倉庫,最后一次提交還停在1月14日。

One more thing

Engram論文的摘要結尾有一句話:

我們認為條件記憶將是下一代稀疏模型不可或缺的建模原語。



看來,這個下一代得是V5了,難不成會是V4.1?

[1]https://arxiv.org/pdf/2601.07372

[2]https://arxiv.org/pdf/2603.10087

[3]https://arxiv.org/pdf/2601.16531

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
騎士消息:裁判報告出爐,哈登獲贊最難防球員,搶七大戰出場更新

騎士消息:裁判報告出爐,哈登獲贊最難防球員,搶七大戰出場更新

冷月小風風
2026-05-03 10:43:34
泰國白龍王一生不敢去中國,和弟子吐露:749局讓他心生畏懼

泰國白龍王一生不敢去中國,和弟子吐露:749局讓他心生畏懼

宅家伍菇涼
2025-02-05 17:44:30
天降良機!火箭出局甩賣兩大中鋒,76人撿漏穩了,總冠軍有戲了!

天降良機!火箭出局甩賣兩大中鋒,76人撿漏穩了,總冠軍有戲了!

體育大朋說
2026-05-03 08:27:12
電商亂象:AB貨已經猖獗到恐怖如斯!

電商亂象:AB貨已經猖獗到恐怖如斯!

黯泉
2026-05-01 10:34:48
河南一女生稱火鍋店當服務員感到自卑,“她們漂亮散發著香水味,我只有蓋不住的火鍋味”,網友暖心安慰:你只是上班遇到了休息的我們

河南一女生稱火鍋店當服務員感到自卑,“她們漂亮散發著香水味,我只有蓋不住的火鍋味”,網友暖心安慰:你只是上班遇到了休息的我們

臺州交通廣播
2026-05-03 00:21:34
古代男子納妾除了傳宗接代,還有更重要的作用,如今為人們所不恥

古代男子納妾除了傳宗接代,還有更重要的作用,如今為人們所不恥

銘記歷史呀
2026-04-13 14:24:46
火箭追4位巨星?休城5子難保全!新人+首輪簽齊聚,斯通不缺籌碼

火箭追4位巨星?休城5子難保全!新人+首輪簽齊聚,斯通不缺籌碼

金風說
2026-05-03 13:38:42
騎士3-3猛龍!哈登談搶七把話挑明,米切爾毫無退路,2點也成關鍵

騎士3-3猛龍!哈登談搶七把話挑明,米切爾毫無退路,2點也成關鍵

魚崖大話籃球
2026-05-02 16:31:09
中國最孤獨的大使:一個人帶著一條狗堅守三年,改善生活靠挖野菜

中國最孤獨的大使:一個人帶著一條狗堅守三年,改善生活靠挖野菜

西樓知趣雜談
2026-05-02 21:21:03
遼寧錦州市委大院,在夜市打了條廣告

遼寧錦州市委大院,在夜市打了條廣告

上觀新聞
2026-05-02 12:52:10
沙特聯提議球童穿未來夢想職業的服裝入場,結果22人僅1人夢想成為球員

沙特聯提議球童穿未來夢想職業的服裝入場,結果22人僅1人夢想成為球員

懂球帝
2026-05-02 14:39:06
美伊還沒打完,第二個伊朗出現!對華使出卸磨殺驢,反向收割中企

美伊還沒打完,第二個伊朗出現!對華使出卸磨殺驢,反向收割中企

小正說娛樂
2026-05-03 08:12:32
外媒:伊朗戰爭還決定了一件事,那就是印度永遠成不了世界大國?

外媒:伊朗戰爭還決定了一件事,那就是印度永遠成不了世界大國?

斜煙風起雨未
2026-04-30 02:06:20
夢鴿心中永遠的痛:如今60歲的她,已為兒子改名,鋪好下一條路

夢鴿心中永遠的痛:如今60歲的她,已為兒子改名,鋪好下一條路

夢史
2026-05-03 04:44:28
李悅洲打成大腿!廣東隊卻坑慘三大新星,杜鋒又被圍攻了!

李悅洲打成大腿!廣東隊卻坑慘三大新星,杜鋒又被圍攻了!

緋雨兒
2026-05-03 11:42:37
鄧華妻子向梁興初求助,梁興初瞪著副政委:敢動老紅軍,你掂量下

鄧華妻子向梁興初求助,梁興初瞪著副政委:敢動老紅軍,你掂量下

觀史搜尋著
2026-03-07 02:10:58
鄧文迪還是牛!前夫默多克95歲生日宴,她和兩個女兒精心打扮出席

鄧文迪還是牛!前夫默多克95歲生日宴,她和兩個女兒精心打扮出席

照見古今
2026-03-12 19:27:38
李嘉誠和巴菲特同步清倉,背后的信號不簡單

李嘉誠和巴菲特同步清倉,背后的信號不簡單

深度報
2026-03-30 22:23:58
雷軍估計更絕望了,北京車展181款首發新車,賣給誰呢?

雷軍估計更絕望了,北京車展181款首發新車,賣給誰呢?

DearAuto
2026-05-01 11:56:57
公司引進AI就能降薪裁人?法院這樣判→

公司引進AI就能降薪裁人?法院這樣判→

環球網資訊
2026-05-03 07:08:22
2026-05-03 14:08:49
量子位 incentive-icons
量子位
追蹤人工智能動態
12570文章數 176460關注度
往期回顧 全部

科技要聞

庫克罕見"拒答"!蘋果正被AI供應鏈卡脖子

頭條要聞

牛彈琴:比網紅還網紅 快80歲的特朗普一晚上發8張圖

頭條要聞

牛彈琴:比網紅還網紅 快80歲的特朗普一晚上發8張圖

體育要聞

裁判準備下班,結果吳宜澤進了決賽

娛樂要聞

蔡卓妍婚后首現身 戴結婚戒指笑容不斷

財經要聞

后巴菲特時代,首場股東會透露了啥

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態度原創

旅游
家居
游戲
公開課
軍事航空

旅游要聞

昆明藍花楹盛景登上人民日報頭版

家居要聞

靈動實用 生活藝術場

曝索尼PS超級獨占大作真存在!知名舅舅黨暗示將公布

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗公布伊方最新談判方案

無障礙瀏覽 進入關懷版