網易首頁 > 網易號 > 正文 申請入駐

梁文鋒推遲V4,是為了根治龍蝦的健忘癥?

0
分享至


文章轉載于字母AI

DeepSeek什么時候發V4?AI圈所有人都在猜,但正確答案可能只有梁文鋒知道。

豆包、千問、元寶……無論大廠還是小廠,他們都在在春節期間扎堆發布新版本,生怕晚一步就被V4的光芒蓋過。

換成任何一個正常的CEO,面對這種全行業翹首以盼的局面,早就把半成品推出去了。

先占住聲量,再慢慢迭代,這是互聯網行業的基本操作。

但梁文鋒偏不。跟他關系近的同行說了句大實話:“團隊穩,底子厚,不會草率發布。”

外媒報道,V4是架構級重構。包含1萬億參數、百萬上下文、原生多模態,并且將于4月份發布。

這次迭代的核心叫做LTM,Long-Term Memory,即長期記憶。

LTM是一套在模型架構內部實現持久化記憶的系統。它能讓AI跨對話、跨任務地記住用戶是誰、聊過什么、偏好什么。像人一樣把重要的東西沉淀下來,而不是每次開機都從零開始。

而這個能力,恰恰是OpenClaw最缺的東西。

雖然OpenClaw可以替人干活,但它的記憶系統本質上只是往本地Markdown文件里寫筆記,工作時會持續發送這個筆記到大模型里,這就導致用OpenClaw越久,發送記憶所消耗的token就越多。

整個社區都在想方設法地去解決這個問題,給它打補丁、裝插件、裝Skill,卻沒人能從根上解決問題,因為問題出在模型本身,它天生不記事。

LTM要做的,就是從架構層把這個病治好。

此次更新所帶來的挑戰,遠超常規的版本迭代,而且模型的情感交互、個性化記憶等模塊尚未完全遷移,還需要進一步調優。

因此梁文鋒不是在拖延,而是在克制。

在一個所有人都在比誰先發、誰聲量大的行業里,梁文鋒選擇等所有零件都對了再出手。

R1之所以能一炮封神,靠的不是搶跑,而是一出手就讓對手無話可說。

他顯然打算用同樣的方式對待 V4——要么不發,要發就是王炸。

1

梁文鋒到底在憋什么

OpenClaw的爆火讓大家認識到了這樣一個事,當AI真的開始替人干活,模型對上下文的理解和記憶能力就不再是加分項,而是決定它能不能用的底線。

一個記不住上文的agent,每隔幾輪就會重復犯錯、丟失任務狀態、忘記你剛才說過的話。

所以過去兩年,業界也推出了不少的LTM方案。

比如伯克利團隊在2023年提出的MemGPT,借鑒虛擬內存的思路,讓模型自己決定什么時候把哪些信息從外部存儲調入上下文窗口、什么時候換出去。

2025年發布的Mem0,則是把這條路往工程化推了一步,在LOCOMO基準上比OpenAI內置記憶高出26%,token消耗減少90%,這也是現如今OpenClaw社區用得最多的記憶插件。

前兩天還有用擴散激活模擬人類聯想式記憶提取的SYNAPSE,以及用遞歸語義壓縮解決記憶膨脹的SimpleMem。

但所有這些方案都有一個共同的天花板,那就是它們都是在模型外部運行的中間件。

記憶的提取、壓縮、檢索,全部由外掛系統完成,模型本身不參與。因此,記憶的質量完全取決于外掛系統的工程水平,模型得到的記憶,也就參差不齊。

并且,所有記憶最終都要通過上下文窗口注入模型,這和OpenClaw碰見的問題一樣,記憶越多,那么token成本也就越高。

還有一點,模型無法在外掛記憶上進行“學習”。因為在這個過程中,模型做的事情是在讀別人幫它整理好的筆記,而不是真的把經驗內化成了能力。

梁文鋒要走的,很可能是一條完全不同的路。


從梁文鋒署名的Engram論文和V4架構泄露來看,DeepSeek的方向不是在模型外面搭記憶系統,而是把記憶能力直接嵌入模型架構本身。

Engram已經證明,在Transformer內部可以開辟一塊專用的條件記憶空間,用O(1)的哈希查找來存取靜態知識,在調用已存好的知識時,還不占用上下文窗口的容量,也不增加推理的計算成本。

更關鍵的是,Engram 的“無限記憶機制”實驗表明,這塊記憶空間的容量可以近乎無限地擴展,且模型的推理開銷保持恒定。

我說得再直白一點,現在的模型想“記住”一件事,唯一的辦法是把它塞進對話窗口里,窗口滿了就得扔東西。

Engram相當于給模型裝了一塊獨立的硬盤,你可以把記憶存在這個外部的存儲里,就不用堆在你電腦本身的硬盤中。當你想調取某一個記憶的時候,你把這塊硬盤接上就行。

而且這塊硬盤理論上可以無限擴容,查找速度恒定不變。

這條路如果走通,意味著 DeepSeek 跳過了整個“外掛記憶”的技術范式,直接進入了“原生記憶”的時代。

如果你了解OpenClaw,你會發現梁文鋒他瞄準的,恰恰是OpenClaw最薄弱的一環。OpenClaw讓AI有了手腳,卻沒給它一顆能記事的大腦。

OpenClaw 的記憶系統有三個結構性缺陷。

第一個是壓縮損耗。

上下文窗口塞滿后,OpenClaw會自動把舊對話壓縮成一段摘要來騰空間。事實保留了,但對話的脈絡,全部丟失,而且不可逆。

換句話說,你們在討論什么、決策的推理鏈條、語氣和優先級都沒有了,也都找不回來了。

比如壓縮前,agent記得一套完整的調試方案,壓縮后只剩一句話,“用戶在調試一個bug”,具體的排查路徑全沒了。

第二個是檢索失效。

記憶文件用幾周就堆到幾百條,靠向量相似度檢索召回。可是向量檢索只能匹配語義相近的片段,無法理解條目之間的邏輯關系。

比如說我用OpenClaw做了三個方案,這三個方案分散在不同文件里,和客戶敲定的是最后一個方案。當我后來想檢索敲定的方案時,由于這三個方案都是用來發給客戶的,就有可能只檢索命中第一個方案或者第二個方案。

第三個是記憶容量有上限。

OpenClaw的記憶分兩層:核心記憶(MEMORY.md)每次會話啟動時全量注入上下文,日志記憶則通過搜索工具按需召回。

聽起來合理,然而核心記憶有硬性上限,單文件20000字符截斷,所有bootstrap文件合計不超過150000字符。

可是你用得越久,MEMORY.md越長,要么被截斷丟信息,要么每次會話的token消耗線性增長。

還沒完,日志那邊,按需檢索的質量完全取決于模型自己的判斷,它覺得不相關就不召回,哪怕信息確實存在。很容易就會把重要的信息給丟掉。

說白了,這三個問題是同一件事:窗口就那么大,往里塞的東西越多,要么記錯,要么找不到,要么太貴OpenClaw的記憶不是“記住了”,而是“抄了一堆筆記然后翻不到”。

如果V4真的在架構層面跑通了這條路,那它不僅解決OpenClaw的問題,還能讓模型變成“可成長的模型”。

用得越久越懂你。這和當前所有大模型的使用體驗有本質區別,因為現在的模型無論多強,每次打開都是一張白紙。

騰訊的一項最新研究,從另一個方向印證了這條路的價值。

從OpenAI加入騰訊擔任首席AI科學家的姚順雨,在2月份的時候發布了他入職后的第一篇署名論文。

論文的名字叫CL-bench,全稱Context Learning Benchmark,專門測一件事,就是大模型能不能從上下文里真正學到東西。

不是考它背了多少知識,而是考它能不能從你給的材料里現學現用。

結果很難看。

所有前沿模型的平均正確率只有17.2%。正確率最高的模型是GPT-5.1,可它也只做對了23.7%。換句話說,你精心準備了一份詳盡的背景資料喂給AI,它有超過八成的概率沒有真正“學會”。

姚順雨在論文中的判斷是,當前 AI與真正智能之間的鴻溝,不在于知識的多少,而在于學習的能力。一個裝滿知識卻不會學習的AI,就像一個背了整本字典卻不會寫作的人。

他在AGI-Next前沿峰會上也說過類似的觀點,他認為大模型邁向高價值應用的核心瓶頸,就在于能否“用好上下文”。

如何記憶,很可能成為2026年的核心主題。一旦上下文學習與記憶變得可靠,模型或許就能實現自主學習。

梁文鋒不可能不懂這個道理,這就是為什么發布日期一推再推。

1

DeepSeek要補的課

愿景歸愿景,現實歸現實。

在梁文鋒閉關的這一年里,對手們沒有停下來等他。DeepSeek要補的課,比外界想象的多。

第一塊短板是多模態,這也是最大的一塊。

DeepSeek到今天為止,還是一個純文本模型。它沒辦法看圖、看視頻、聽語音。

倒不是說DeepSeek完全沒有視覺能力。在今年1月的時候,他們發布了OCR 2,這是一個3B參數的文檔理解小模型。它的核心是用一個叫DeepEncoder V2的編碼器替代了傳統的視覺編碼器,讓模型能像人一樣按閱讀順序理解文檔頁面。

僅在文檔解析的基準測試上,OCR 2用最少的視覺token戰勝了Qwen3-VL-235B這種千億級選手。

但OCR 2只能做一件事:把文檔里的文字、表格、公式提取出來。本質上是“圖像→文本”的單向轉換,不是通用的視覺理解。

換句話說,OCR 2證明了DeepSeek有能力做好視覺編碼,但從“能讀文檔”到“能看視頻、聽語音、理解自然場景”,中間隔著的不是一步,而是一整個技術代際。

與此同時,其他大廠早就進入了“全模態”時代。

字節的Seedance 2.0證明了優秀的多模態模型有多大的用戶基礎和商業潛力。GPT-5.4已經原生支持音頻、視頻和計算機操作。

有消息透露,梁文鋒近半年的主要工作之一就是補齊視覺內容處理的短板。

第二塊短板是agent能力。

DeepSeek微信公眾號自己置頂的文章標題就是“邁向agent時代的第一步”,這就足以說明梁文鋒知道該往哪個方向前進。


隨著越來越多的人開始使用OpenClaw,無論是大廠還是小廠,都在強調自己模型的agent能力。

Kimi K2.5已經能自主調度100個子agent、并行處理1500個步驟。ChatGPT的agent功能可以自動填表、訂機票、跨網站拉取信息。Claude推出了Agent Teams,多個AI協同完成復雜任務。

第三塊短板是AI編程。

這是2026年發展最快、商業化最成熟的賽道。

在編程基準測試SWE-bench Verified上,Claude Opus 4.6得分80.8%,GPT-5.3 Codex約80%,DeepSeek V3.2只有73.1%。

在更難的基準SWE-bench Pro上測試,DeepSeek V3.2得分為40.9%,遠低于GPT-5.4的57.7%。

更關鍵的是,行業已經從“Vibe Coding”,進化到了“Agentic Engineering”,讓AI獨立完成工程級任務。

智譜的GLM-5論文標題就叫《From Vibe Coding to Agentic Engineering》,它能連續24小時跑代碼、700次工具調用、800次上下文切換,從零構建出一個GBA模擬器。

此前曾有爆料稱,DeepSeek-V4的內部測試結果,在編程能力上超越了Claude Sonnet 3. 。可如今,Claude Sonnet 3.5已經被Anthropic官方完全停用了。

第四塊短板是AI搜索。

現在幾乎所有ChatBot產品都是聯網的,你已經見不到還把模型聯網單獨設為一個開關的APP了。

OpenAI有ChatGPT Search,Google有Gemini Embedding 2搜索。DeepSeek的搜索能力一直是短板,而且其搜索結果經常會出現幻覺。

Vectara的測試顯示,DeepSeek R1的幻覺率高達14.3%,是V3(3.9%)的近四倍。

在學術引用檢索的測試中,這個數字更夸張,其引用的結果中,91.43%都是錯的,包括但不限于捏造論文標題、虛構DOI、張冠李戴作者。

DeepSeek自己也承認,幻覺是當前階段“不可避免的”問題。

DeepSeek在它沒有自己的搜索基礎設施,只能依賴第三方接口,信息源的質量不可控。

模型本身的事實校驗能力不夠強,即使拿到了正確的檢索結果,也可能在生成環節引入錯誤。這兩個問題疊加在一起,就是用戶體驗上的“搜了也不準”。

在agent時代,搜索不是加分項,而是必選項。

DeepSeek的短板,沒有一塊是小修小補能解決的。梁文鋒不是在做一個更強的V系列模型,他是在同時打四場仗。

4月,箭在弦上。但如果再跳票,也不必意外。對梁文鋒來說,“不發”永遠比“發錯”重要。

點個愛心,再走 吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
勞務派遣在央國企殺瘋了!

勞務派遣在央國企殺瘋了!

燈錦年
2026-04-21 17:56:52
A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

另子維愛讀史
2026-04-21 19:44:48
巴基斯坦消息人士:美方談判相關人員陸續抵達巴基斯坦

巴基斯坦消息人士:美方談判相關人員陸續抵達巴基斯坦

財聯社
2026-04-21 23:39:45
炸裂!女子剛分手就獻身異性,男友尾隨當場抓獲,情夫赤裸一臉懵

炸裂!女子剛分手就獻身異性,男友尾隨當場抓獲,情夫赤裸一臉懵

李晚書
2026-04-21 16:43:59
比鋰礦、稀土,更瘋狂的行情!

比鋰礦、稀土,更瘋狂的行情!

君臨財富
2026-04-21 16:08:48
格力回應鋁線電機爭議:相關工程機已停產,海信稱靠多三兩銅多500元時代已終結

格力回應鋁線電機爭議:相關工程機已停產,海信稱靠多三兩銅多500元時代已終結

紅星資本局
2026-04-21 20:40:16
交警提醒:私家車將迎來“3+1”的嚴格檢查,車主:為何不早說?

交警提醒:私家車將迎來“3+1”的嚴格檢查,車主:為何不早說?

復轉這些年
2026-04-21 17:19:57
伊朗將缺席談判,美高官點名:不排除對前往中國伊朗油輪強制檢查

伊朗將缺席談判,美高官點名:不排除對前往中國伊朗油輪強制檢查

健身狂人
2026-04-21 18:01:12
偉大的10-2!吳宜澤破百收工,復仇戰創2大紀錄,中國4人進16強!

偉大的10-2!吳宜澤破百收工,復仇戰創2大紀錄,中國4人進16強!

劉姚堯的文字城堡
2026-04-21 22:32:23
到賬230億,賈躍亭起飛!

到賬230億,賈躍亭起飛!

鳴金網
2026-04-21 19:58:22
霍爾木茲海峽出入口已被伊朗封鎖!停火協議到期不足11小時,特朗普:不想延長,沒那么多時間了;伊朗:已為戰事重燃做好準備

霍爾木茲海峽出入口已被伊朗封鎖!停火協議到期不足11小時,特朗普:不想延長,沒那么多時間了;伊朗:已為戰事重燃做好準備

每日經濟新聞
2026-04-21 21:28:11
殘疾老兵借廁所被拒后續,官方回應來了,保安被開除,已向其道歉

殘疾老兵借廁所被拒后續,官方回應來了,保安被開除,已向其道歉

千言娛樂記
2026-04-21 14:21:23
寧德時代發布第三代麒麟電池:能量密度暴增 625公斤電池包續航超1000公里

寧德時代發布第三代麒麟電池:能量密度暴增 625公斤電池包續航超1000公里

快科技
2026-04-21 20:38:24
特朗普稱預計停火到期后將繼續轟炸伊朗

特朗普稱預計停火到期后將繼續轟炸伊朗

財聯社
2026-04-21 21:50:07
今天才知道,市場上有6種“藥水菜”,菜販子從不給家人吃,指啥

今天才知道,市場上有6種“藥水菜”,菜販子從不給家人吃,指啥

阿龍美食記
2026-04-21 11:00:20
伊朗政壇大地震:革命衛隊總司令強硬奪權……

伊朗政壇大地震:革命衛隊總司令強硬奪權……

深度報
2026-04-21 21:19:56
注意!6月1日起大醫院不再隨意接診,看病不按規矩可能白跑

注意!6月1日起大醫院不再隨意接診,看病不按規矩可能白跑

夜深愛雜談
2026-04-21 07:45:20
蘋果宣布換帥后,總市值跌破4萬億美元

蘋果宣布換帥后,總市值跌破4萬億美元

界面新聞
2026-04-21 23:07:25
中國戰艦坦蕩過航這條水道,釋放什么信號?

中國戰艦坦蕩過航這條水道,釋放什么信號?

補壹刀
2026-04-21 14:06:24
山西長治萬達廣場一女子墜樓身亡,警方通報:張某(女,31歲)獨自進入商場到4樓,翻越欄桿后墜落,排除刑事案件

山西長治萬達廣場一女子墜樓身亡,警方通報:張某(女,31歲)獨自進入商場到4樓,翻越欄桿后墜落,排除刑事案件

揚子晚報
2026-04-21 09:21:30
2026-04-22 00:15:00
硅星人 incentive-icons
硅星人
硅(Si)是創造未來的基礎,歡迎來到這個星球。
3024文章數 10491關注度
往期回顧 全部

科技要聞

創造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經要聞

現實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

本地
游戲
時尚
旅游
公開課

本地新聞

春色滿城關不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

《洛奇英雄傳:反抗命運》試玩體驗:無愧于“洛奇英雄傳”之名

頂流復工,已判若兩人

旅游要聞

“江江好時節 吳江春日市集”上海豫園開市

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版