網易首頁 > 網易號 > 正文 申請入駐

DeepSeek過于樸素了

0
分享至


出品|虎嗅科技組

作者|宋思杭

編輯|苗正卿

頭圖|視覺中國

“不誘于譽,不恐于誹,率道而行,端然正己。”

這是4月24日,DeepSeek在發布V4預覽版時寫在公眾號文章末尾的話。

放在當下的語境,來解讀這句話的意思是,無論外界如何期待、如何猜測,DeepSeek仍按自己的節奏走,不被贊譽裹挾,也不被情緒推著走。

甚至相比于其他幾家基座模型公司,DeepSeek顯得過于樸素了——不刻意刷榜、不考慮商業化、不優化用戶體驗,只是充當好一個“修路人”的角色。

時間撥回至R1發布當天,行業迅速沸騰,而在往后的這459天里,大家一邊期待著DeepSeek的新模型,一邊見證了智譜和MiniMax兩大國產模型紛紛登陸資本市場,兩家市值均一度沖破3000億元。

就在DeepSeek正式發布V4后的幾分鐘,資本市場再次給出反饋。約上午11時05分,港股大模型板塊快速震蕩,智譜與MiniMax雙雙跳水,盤中一度分別跌超10%和12%。

這是過去一年行業最鮮明的變化之一:國產模型首次被資本市場定價,也讓DeepSeek被不斷投射為下一次行業變量。

與此同時,Kimi、Minimax、Qwen和智譜等模型頻頻登頂,但在此期間,DeepSeek卻一直悄無聲息。

而今天DeepSeek的新模型終于來了,但從這個新模型V4來看,它并不屬于大眾所理解的”行業頂尖“,至少這個“領先”不是榜單所定義的。

據 Artificial Analysis 數據,V4 Pro 在世界知識類 benchmark 中已躋身全球前列,僅次于 Gemini-Pro-3.1。綜合表現來看,DeepSeek V4 已領先多數開源模型,整體性能開始逼近頂級閉源模型。

也就是說,如果按照大家期待,V4應該會是再一次震驚行業的“頂尖”模型,但這不是DeepSeek給自己的定義。它給自己的定義一直都是追求性價比。


和其他基模公司比,DeepSeek過于樸素

在幾家頭部大模型公司里,DeepSeek一直有一種很特別的氣質:樸素。

這種樸素,不是指產品簡單或者技術激進與否,而是它很少像一家標準AI創業公司那樣,被融資節奏、商業化壓力和市場情緒推著走。某種程度上,它不急著證明自己能賺多少錢,因此反而更有空間去做自己真正想做的事。

虎嗅對比了幾大基座模型的技術路線后發現,和DeepSeek最相似的就是Kimi了。


兩家公司都帶有鮮明的技術理想主義色彩,也都曾憑借模型能力在行業里打出辨識度。就在V4發布前兩天,Kimi剛剛推出K2.6,并稱其為發布以來最好的代碼模型。與此同時,DeepSeek在V4發布文章中也提到,他們內部同樣在將V4作為公司內部員工使用的 Agentic Coding 模型。

這意味著,兩家公司都把代碼能力視作模型價值的重要方向。

相似點還不止于此。這次V4的另一大特點,是原生支持1M上下文,并強化長鏈路推理能力。而長上下文、復雜任務處理,同樣是Kimi過去一年持續強化的標簽。

如果只看代碼、長上下文、復雜任務這些表面能力邊界,Kimi與DeepSeek似乎正在越來越靠近,甚至可以說,兩家完全撞車。

但如果仔細拆開,會發現兩家公司走的其實是兩條完全不同的技術路線。

Kimi過去長期強調的,是線性注意力路線。它的核心思路,是讓模型在超長上下文、多步驟任務中,把計算成本控制在可接受范圍內,再疊加Agent系統、任務編排、多輪調用等能力,讓模型像一個可以持續工作的執行系統。

而DeepSeek V4這次在技術報告中強調,使用的是混合注意力架構(Hybrid Attention):通過 CSA(Compressed Sparse Attention,壓縮稀疏注意力)與 HCA(Heavily Compressed Attention,重度壓縮注意力)交替配合,對歷史上下文進行分層壓縮和選擇性讀取,在保持百萬級上下文能力的同時,大幅降低推理成本。

報告數據顯示,在100萬token場景下,DeepSeek V4-Pro 的單token推理 FLOPs 降至上一代模型的27%,KV Cache占用降至10%。

簡單來說就是,Kimi的思路,更像是把一個復雜任務拆成很多步驟,再組織多個智能體協作完成;DeepSeek的思路,則是先把底層存在的問題先一點點解決掉,把地基搭好,讓模型在底層計算結構上先變得更高效。

這兩者看起來是,一個是在任務層做加法,一個是在系統層做減法。

但如果按照這個邏輯來看,可以得到一個結論是,在面對同一項復雜任務時,Kimi往往會消耗更多token。

原因并不復雜。因為當模型開始承擔真實工作流程時,token消耗不再只是用戶輸入與最終輸出,還包括任務拆解、中間推理、多輪調用、工具返回結果、錯誤修正以及多個Agent之間的上下文同步。用戶只輸入一句話,后臺可能已經完成了十幾輪運算。

當然,這并不意味著Kimi的技術路線有問題。尤其是在當下,AGI的技術路線并未收斂的當下,任何一種技術路線都有各自的優劣勢。

那么,作為一家更強調商業化落地的公司,Kimi做的事情是優化用戶體驗,首先讓很多企業和個人用戶愿意為Kimi付費。某種程度上,它已經接近“可交付的生產力工具”。如果一個模型多消耗一些token,卻替用戶節省了3小時工作時間,這筆賬未必不劃算。

也就是說,Kimi追求的,是token被消耗后的產出效率;而DeepSeek追求的,則是token本身的計算效率。

這兩種選擇背后,非常鮮明地體現出兩家公司不同的底色。

DeepSeek背后的母公司幻方量化,本質是一家量化機構。量化交易天然強調兩件事:效率與收益率。任何策略都要計算投入產出比,任何系統都要追求速度、穩定性與資源利用率。在這種文化下成長出來的團隊,會很自然地關注大模型的效率問題。

這也解釋了為什么DeepSeek總在做一些看起來沒那么熱鬧、卻極其關鍵的事情,比如MoE、推理優化、注意力重構、算力利用率提升。

因為對幻方來說,大模型未必是一門獨立生意,但它首先需要是一套提升研究效率、分析效率與決策效率的基礎工具。

換句話說,梁文鋒也許并不關注DeepSeek能為他帶來多少收入。他有更長的時間尺度,也更能接受先做難而慢的事。

Kimi則不同。月之暗面從創立第一天開始,就是一家標準意義上的AI創業公司。它需要融資,需要增長,需要向市場證明模型能力最終可以轉化為真實業務。楊植麟當然有很強的AGI理想主義色彩,但Kimi必須同時面對商業化的現實問題。

這也決定了,Kimi會更積極地靠近用戶需求、代碼需求、Agent需求和付費需求。它的模型迭代節奏、產品節奏、組織節奏,更像一家需要持續奔跑的創業公司。

所以,看起來都在做長上下文、代碼模型和復雜任務,兩家公司卻在解決完全不同的問題。

這也是為什么DeepSeek總顯得“不著急”。


國產替代,仍在路上

在V4發布前,外媒曾多次“預告”DeepSeek將完全切換至國產模型訓練,并逐步擺脫對英偉達的依賴。

然而,從V4發布的技術報告來看,這一消息未必是真的。

DeepSeek僅在報告中強調了,其已經驗證了在 NVIDIA GPU 和 HUAWEI Ascend NPU 平臺上驗證了 EP(專家并行)方案。但并沒有明確提到DeepSeek已經切換至華為昇騰芯片上做訓練,

更準確地說,它說明的是,DeepSeek已經在系統層面完成了跨平臺適配,至少讓V4這類MoE模型能夠同時運行在英偉達與昇騰兩套硬件架構之上。但這并不直接意味著,其核心訓練任務已經離開英偉達。

換句話說,DeepSeek極有可能依然依賴于英偉達芯片做訓練,而用國產芯片完成推理任務。

這其實也是當前行業更現實的路徑。

原因并不復雜。預訓練階段對芯片生態要求極高,涉及大規模并行訓練、通信帶寬、編譯器成熟度、故障恢復能力以及長期穩定性。相比之下,推理環節對算力的要求更分散,也更適合率先完成國產替代。因此,許多公司采取的并不是“一步到位切換訓練底座”,而是先從推理側開始遷移。

有多位行業人士在虎嗅交談時表示,“如果真的徹底切換至國產芯片,V4可能不會這么快到來。”

然而,比切換至國產芯片上訓練更值得關注的是,DeepSeek這次在工具鏈層面的變化。

過去,DeepSeek曾因深度使用 PTX 編程語言而受到關注。PTX可以理解為英偉達GPU生態中的底層中間語言,接近匯編層,能夠極致榨取單卡性能,但天然綁定英偉達體系,開發門檻高,可遷移性也有限。

而在V4報告中,DeepSeek不再強調PTX,而是提到了 DSL(Domain-Specific Language,領域專用語言),例如其采用 TileLang 這類面向AI算子優化的DSL,以平衡開發效率與運行效率。

兩者的區別在于:PTX是一種直接操作英偉達機器的底層語言,追求極限性能,但強綁定英偉達;DSL則更像是一層中間抽象,讓團隊在保持性能的同時,更快開發算子、更容易適配不同芯片平臺。

這意味著,DeepSeek雖然未必已經完成國產芯片訓練替代,但它至少已經開始讓自己的模型不再強綁定英偉達,未來有可能逐步切換到國產芯片上訓練。


不做被期待的DeepSeek

DeepSeek并不打算成為外界期待中的那個DeepSeek。

過去一年,DeepSeek被行業賦予了太多角色。有人期待它再次復制R1時刻,發布一款重新震動行業的頂尖模型;有人期待它成為中國大模型擺脫英偉達依賴的象征。

但V4的發布證明,DeepSeek并沒有被打亂節奏。

它依然是一家圍繞著“效率”做模型的公司,例如,混合注意力架構、KV Cache壓縮、百萬上下文推理成本下降、專家并行優化、跨平臺Kernel設計,這些內容并不算“性感”,但都非常重要。

但這些不算性感的工程化改進,正在逐步解決大模型目前依然存在的bottleneck。

從這個角度看,DeepSeek和其他基座模型公司已經不站在同一維度上了。當不少公司還在爭奪入口、爭奪用戶時,DeepSeek更關心的是,怎樣把單位智能的成本繼續壓低,怎樣讓同樣的能力消耗更少算力。

所以,“不誘于譽,不恐于誹,率道而行,端然正己”,放在V4結尾,與其說是一種姿態,不如說是向大眾表態——DeepSeek選擇繼續做那個更冷靜的DeepSeek。

本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4853463.html?f=wyxwapp

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
黑尾醬,徹底消失了?

黑尾醬,徹底消失了?

生如稗草
2026-03-15 08:48:11
砸6700億建雄安,面積抵3個紐約,如今究竟咋樣了?

砸6700億建雄安,面積抵3個紐約,如今究竟咋樣了?

娛樂圈的筆娛君
2026-03-26 12:15:32
我勒個去!25歲還是當家老大,26歲成魚腩替補,他怎么混這么差

我勒個去!25歲還是當家老大,26歲成魚腩替補,他怎么混這么差

球毛鬼胎
2026-04-25 16:13:02
腿斷了、臉燒了、全家沒了,最高領袖出奇招,美以徹底傻眼

腿斷了、臉燒了、全家沒了,最高領袖出奇招,美以徹底傻眼

凡知
2026-04-25 18:04:08
賴清德竄訪失敗,侯友宜喊話大陸,臺非洲專家:最大擔憂在這一點

賴清德竄訪失敗,侯友宜喊話大陸,臺非洲專家:最大擔憂在這一點

說歷史的老牢
2026-04-24 15:22:11
芬蘭空軍學員駕飛機空中畫巨型不雅圖案 遭軍方譴責、網友抨擊

芬蘭空軍學員駕飛機空中畫巨型不雅圖案 遭軍方譴責、網友抨擊

環球趣聞分享
2026-04-24 13:10:17
就在今天!41歲詹姆斯不服老,轟出80年歷史第一神跡,火箭絕望了

就在今天!41歲詹姆斯不服老,轟出80年歷史第一神跡,火箭絕望了

阿纂看事
2026-04-25 18:21:30
知名歌手因搶不到五一高鐵票取消演唱會!

知名歌手因搶不到五一高鐵票取消演唱會!

深圳晚報
2026-04-23 19:29:44
中央5臺直播乒乓球時間表:4月25日CCTV5轉播國乒!附乒壇動態

中央5臺直播乒乓球時間表:4月25日CCTV5轉播國乒!附乒壇動態

林子說事
2026-04-25 17:48:24
成都一小區凌晨失火5死2傷,居民稱多層樓外墻被熏黑,社區已安置起火樓棟居民

成都一小區凌晨失火5死2傷,居民稱多層樓外墻被熏黑,社區已安置起火樓棟居民

極目新聞
2026-04-25 13:22:54
民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

李橑在北漂
2026-04-02 10:22:26
韓媒警告:一旦東亞開戰,韓國導彈將降落北京,同時摧毀中國海軍

韓媒警告:一旦東亞開戰,韓國導彈將降落北京,同時摧毀中國海軍

越過海面
2026-04-25 18:28:24
曝67歲許家印還有2名未成年子女!跑到瑞士上學 一年花2700萬

曝67歲許家印還有2名未成年子女!跑到瑞士上學 一年花2700萬

念洲
2026-04-25 12:57:56
張軍失聯背后四大影響曝光!李永波巧妙脫身,劉國梁成輿論焦點

張軍失聯背后四大影響曝光!李永波巧妙脫身,劉國梁成輿論焦點

小椰的奶奶
2026-04-25 11:12:21
剛買增程車的人,天都要塌了……馬上就要變成淘汰產品

剛買增程車的人,天都要塌了……馬上就要變成淘汰產品

正在說車
2026-04-24 10:39:08
陳毅接管上海卻鎮不住場子,陳賡推薦了一個人,讓他徹底放下了心

陳毅接管上海卻鎮不住場子,陳賡推薦了一個人,讓他徹底放下了心

老謝談史
2026-04-23 05:24:38
王治郅和二婚妻子近照,亮相名人堂,為他生2娃,依舊美麗動人

王治郅和二婚妻子近照,亮相名人堂,為他生2娃,依舊美麗動人

大西體育
2026-04-24 21:59:33
2015年,97歲溥任離世,溥儀永遠不知,弟弟的三個兒子有多厲害

2015年,97歲溥任離世,溥儀永遠不知,弟弟的三個兒子有多厲害

邊城少爺
2026-04-25 00:20:31
范志毅:只有一次02世界杯不光彩;我認為足球改革春天來了

范志毅:只有一次02世界杯不光彩;我認為足球改革春天來了

懂球帝
2026-04-24 21:15:10
福特CEO把一輛小米SU7運到美國,駕駛半年后,他這樣評價…

福特CEO把一輛小米SU7運到美國,駕駛半年后,他這樣評價…

新浪財經
2026-04-24 07:10:27
2026-04-25 19:48:49
虎嗅APP incentive-icons
虎嗅APP
個性化商業資訊與觀點交流平臺
26180文章數 687689關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

現場視頻:殲-15掛彈起飛硬剛外軍航母編隊滋擾

頭條要聞

現場視頻:殲-15掛彈起飛硬剛外軍航母編隊滋擾

體育要聞

火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

娛樂要聞

鄧超最大的幸運,就是遇見孫儷

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

房產
游戲
旅游
本地
公開課

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

索尼新規落地!所有數字版游戲都要強制30天聯網驗權

旅游要聞

去馬登鄉尋找杜鵑花海,結果誤打誤撞,領略了數千畝蘋果花的風韻

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版