![]()
“跳票”許久的DeepSeek-V4,終于來了。
幾個小時前,DeepSeek-V4預覽版上線并開源。巧的是,幾乎同一天,OpenAI也推出了GPT-5.5。一個繼續講閉源生產力系統,一個繼續講開源、長上下文和低成本推理。中美AI產業中流量最大的兩家基模公司,在同一天相遇。
DeepSeek-V4分為Pro與Flash兩個版本,均支持百萬(1M)token超長上下文,總參數規模分別達到1.6T(激活49B)與284B(激活13B)。。
![]()
不過,相比起“1.6T參數”或者 “百萬token上下文”這兩個夸張數字,技術文檔里的兩個十位數更值得關注:27%和10%。
根據HuggingFace上V4系列的介紹,在100萬token上下文場景下,V4-Pro的單token推理FLOPs只有V3.2的27%,KVcache只有V3.2的10%。
翻譯成人話就是,在處理超長材料的場景下,V4不只是“能裝得下”,而且跑得更快、還更便宜。
這也許是是V4這次更新中最值得關注的地方。
過去半年,長上下文已經成了頭部模型的共同賣點。Claude、Qwen、Kimi、GLM都在往長文本、代碼倉庫和Agent任務上走,DeepSeek這次把主線放在了長文本場景里最貴的部分:計算和緩存。
略顯遺憾的是,V4目前并沒有原生多模態功能,這會限制它在一些場景的發揮。
所以,V4的關鍵詞,并不是行業內期盼已久的“新物種”,而是“效率工程”的再進一步。
回顧過往也確實如此,DeepSeek這家公司,一直都不是那種“性感”產品的路線,在Token調用暴漲的海洋中,V4要撐起的,是這家超級獨角獸200億美元估值的野望。
01
更快,但是沒有原生多模態
身處2026年的今天,大模型支持長上下文已經不稀奇。但是另一個問題也隨之而來:模型處理超長文本、超長鏈路的情況下,還能不能高效地繼續工作。
一個模型如果只看幾段文字,回答問題并不難;但如果讓它看完整代碼倉庫、幾十份合同、幾個月會議記錄,再持續生成、檢索、改代碼、調用工具,這個事情的難度會指數級增加。
V4-Pro的單token推理FLOPs只有V3.2的27%,KVcache只有V3.2的10%,正好對照著這個問題的答案。
前者指向每生成一個token所需的計算量,后者指向KVcache占用。KVcache可以理解成模型處理長文本時需要隨身攜帶的“工作記憶”。
![]()
文本越長,這份工作記憶越重;如果每一步都背著完整包袱走,模型就很難輕快起來。
所以,天下武功,唯快不破。
這里的快,不是聊天窗口里早幾秒回答,而是長文本任務中的運行效率。吃下1M文本之后之后,模型還能不能跑得動、跑得起,能不能支撐高頻調用。
這一點在今天上線的GPT5.5中也有所體現,很多ChatGPT用戶驚呼,GPT5.5-Thinking的響應速度,快了一不是一星半點。
結合眼下爆火的Agent工作流,這項指標提升就更為關鍵。包括OpenClaw在內的系統級Agent工具,在運行任務時,往往需要讀文件、查資料、調用工具、修改代碼、保存中間狀態,再根據反饋繼續下一步。
任務越真實,上下文越長,計算和緩存負擔越容易滾雪球。很多Agent產品今天看起來像未來,一算成本就像災難。V4如果真能把長上下文下的運行效率壓下來,影響的是整個Agent工具鏈的成本結構。
字母AI也簡單上手體驗了一下DeepSeek V4Pro,我們搭建了一個簡易的離線環境,跑了兩個貼近日常用戶場景的測試。
![]()
首先,我們給了V4 Pro一組關于MCP、結構化輸出、工具調用、端側模型和推理服務的材料,讓它寫一份技術分析。這個任務主要是考驗,模型能不能把一堆概念和名詞,整理成一張清楚的工程圖。
V4Pro的表現比較像一個成熟技術編輯。它沒有把材料逐條復述,而是抓住了一條主線:Agent的競爭不只是模型參數,而是模型如何穩定接入外部系統。換句話說,模型不能只會“想”,還要能讀文件、查數據庫、調用工具、把結果寫回業務系統。
它把結構化輸出理解成“讓模型說出機器能直接讀懂的話”,把MCP理解成“讓模型應用更容易接外部工具的標準接口”,這就比單純解釋術語更接近真實產品。
第二個測試,是讓它用Python寫一個本地命令行工具,用來管理每天收集的AI行業新聞線索。這個Prompt寫的很簡單,只有幾個基礎的限制條件:不要聯網,不調用API;能新增、查看、篩選、去重、自動打新聞價值分,并導出markdown日報。
V4 Pro直接給出了一個能跑的小工具。
用戶可以錄入公司、標題、類型、來源、鏈接、時間、正文和核驗狀態,程序會自動計算新聞價值分,再把線索分成“可直接引用”“需要繼續核實”“暫不采用”。導出的markdown也會按層級分組,保留公司、標題、類型、分數、來源等維度。
![]()
這個測試能說明一個問題:V4 Pro可以把一個相對復雜的意圖拆成結構、規則和可執行代碼,這和DeepSeek過去的用戶心智是契合的。
在OpenRouter這類開發者渠道上,DeepSeekV3系已經證明過自己的性價比和使用慣性。
OpenRouter數據顯示,DeepSeekV3系列在2025年token消費超過7.27萬億,排名第五,僅次于ClaudeSonnet4、Gemini2.0Flash等模型。而直到今天,DeepSeekV3.2的調用量,依舊在OpenRouter榜單中名列前茅。
這說明用戶認可的從來不只是benchmark,而是一個模型在真實工作流里是否穩定、便宜、高效。
這一點也可以放到Claude身上看。
在各大模型能力榜單上,ClaudeOpus4.6和GPT-5.4系列的對比中,結論并不總是Claude全面領先,甚至在一些知識、推理、速度指標上,GPT-5.4要表現的更好。
但這并不妨礙Claude在過去一段時間里繼續收割開發者和企業市場。Anthropic 今年 2 月披露,按當時收入節奏折算,公司年收入規模已達到 140 億美元;過去三年里,其收入每年都實現 10 倍以上增長。
所以,想要客觀看待一個模型的能力,還是得放到真實工作流看實際工程表現。
當然,V4也不是沒有短板。最大的遺憾,是它目前缺乏“原生多模態”的加持。早在發布前,社區對V4的期待就不只是文本模型。一些媒體此前也曾報道稱,DeepSeekV4計劃是一個能處理圖片、視頻和文本生成的多模態模型。
缺少了多模態能力,確實會帶來一個現實問題,一旦涉及視覺理解、圖表解析、、PPT/網頁/軟件界面處理這些場景里,就到了模型的能力邊界外。
今天的生產力任務已經不再只是“讀一段文字”。很多用戶真正要處理的是圖片、表格、截圖、PDF、網頁、視頻會議和復雜軟件界面。沒有原生多模態,V4仍然可以是強大的長任務底座,但還不是完整的工作入口。
當然,也可以從另一個角度理解,站在融資和IPO的十字路口,V4首先給母公司解決的是地基問題,而不是建好整棟樓的問題。
02
走在融資路口的DeepSeek
V4發布的另一個背景,是DeepSeek融資消息突然密集起來。
顯然,作為中國AI行業的稀有物種, DeepSeek一直不太缺錢。
過去,DeepSeek最有辨識度的標簽之一,就是它不像典型AI獨角獸那樣靠融資敘事往前推。它背后有量化資金公司幻方的資金支持,又有梁文鋒這樣的旗幟性人物,長期以來在業內保持著神秘且專注的形象。
但在最近一段時間,情況開始發生變化。最新報道顯示,DeepSeek正在以超過200億美元估值尋求融資,阿里、騰訊等公司據稱正在洽談投資。具體的數字仍在談判中,但方向已經足夠清楚:DeepSeek已經走到了迎接資本市場的節點。
![]()
而V4,就是這個節點上的一個重要抓手。V4專注于講效率的邏輯背后,實際上是抓住了當前的開發者群體最關心的部分,可預測的調用需求可能被進一步放大,進而推動更多的商業化落地。
這也是DeepSeek接下來最難的一關。200億美元估值要證明的,不只是模型強,而是模型能不能轉成穩定的商業系統。。
這一點上,競爭對手們已經在行動起來。Qwen、GLM、Kimi都在向Agentic Coding、工具調用和長任務執行靠攏,Claude也已經把企業知識工作和代碼工作流做成了最重要的商業抓手。
顯然,依托V4的能力,Deepseek還需要更多產品層面的落地。
Agent不是底座模型自己就能跑通,它還需要瀏覽器、文件系統、權限系統、企業軟件接口、插件生態和產品體驗。V4就算解決了地基問題,如何建立起一套生產力場景的用戶生態,是粱文鋒和團隊接下來要思考的問題。
所以,V4最準確的定位不是,并不是人們想象中的模型新物種,而是把“開源模型任務底座”提升到了一個新的高度。
過去,DeepSeek已經證明了,中國公司可以用更低成本做出強模型。V4要證明的是,在百萬上下文、Agent、國產算力和商業化同時到來的階段,這套低成本路線還能不能繼續成立。
眼下,V4已經把效率牌打出來了。接下來,DeepSeek要回答的是,這張牌能不能撐起一家200億美元公司的商業體量。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.