網易首頁 > 網易科技 > 網易科技 > 正文

DeepSeek V4上線三天,第一批實測結果出來了:性價比確實夠狠,但有些活它還接不住

0
分享至

出品 | 網易智能

作者 | 小小

編輯 | 王鳳枝

DeepSeek V4到底能不能打?上線三天,第一批真實測試的結果陸續出來了。

它的紙面數據很猛,參數量最高到了1.6萬億,上下文窗口拉到100萬token,API價格比GPT-5.5便宜了一個數量級。但三天下來最讓人意外的,不是頂配的Pro,而是最便宜的Flash。有人拿20個真實任務把V4的四個版本全測了一遍,結果Flash贏了7個,好幾個編碼任務里它用更少的token,做出了和貴幾十倍的Pro一樣甚至更好的結果。

當然它也沒強到可以閉眼吹。碰上復雜工程落地、精致前端、第一次就得成活的任務,GPT-5.5和Claude Opus 4.7仍然更穩。V4沒有全面超車,但它正在把這場競爭從“誰最強”推向“誰最適合干哪種活”。

01實測出真知:最便宜的Flash,成了最大黑馬?

很多人拿到新模型的第一反應,就是開最強的模式,跑最狠的測試。

但AI工程師Chew Loong Nian不這么想。他在DeepSeek V4發布后幾小時內,就搭建了一個包含20個真實世界任務的測試框架,把V4家族的四個模式全部拉出來遛了一遍,分別是V4-Pro、V4-Pro-Max(最大推理努力)、V4-Flash,還有V4-Flash-Max。

這里需要先理清這幾個模式的區別。DeepSeek V4分成了Pro和Flash兩條產品線。Pro是更大的選項,參數達到1.6萬億,面向更深度的推理、更難的編碼任務、研究以及長上下文工作。Flash則是更小、更快的選項,總參數2840億,僅13億激活參數,專為速度、更低成本以及需要重復調用模型的智能體工作流而生。

在這兩個版本之上,用戶還可以選擇是否開啟“深度思考”模式。開啟之后,模型會花更多時間進行推理,在解決問題時展示出每一步思考過程,這通常會改善最終結果,但代價是響應速度變慢。

Chew Loong Nian的測試,就是把這四種組合并行投入實戰。他的測試任務不是什么抽象基準,而是實打實的編碼、Agent工作流、復雜推理和實際項目等場景。

結果讓人大跌眼鏡。贏的不是參數最大、思考最深的Pro-Max,而是最便宜、最輕量的Flash。就是這個每百萬token輸入成本僅約0.14美元的模型,在20個任務中硬生生拿下了7個第一。

其中5個是編碼任務。在這些任務里,Pro-Max雖然思考了更久,輸出的token量是Flash的4.3倍,但最終的答案卻和Flash相同,甚至更差。一個典型的場景是,Flash用800個token就干凈利落解決的問題,Pro-Max要花掉3400個token,成本相差了大約120倍。

這個發現很反直覺,但也很致命。它揭示了一個容易被忽視的事實,即更貴的模式、更深的思考,并不一定帶來更好的實際產出。很多時候,Flash之所以能贏,恰恰是因為它沒有被過多的思考帶偏方向,反而更直接地命中了問題的核心。

Chew Loong Nian總結道,除非你的任務特別需要極致的深度推理,否則開發者在實際項目中應該優先考慮Flash。它用實際表現證明了,在大多數真實場景下,性價比并非一種妥協,本身就是一種強大的能力。

他還提到了DeepSeek在KV Cache壓縮上的一個創新,被形容為沒人預見到的10% KV緩存技巧。正是這項技術,讓Flash能在極低的成本下依然維持高水平的性能表現。這是支撐其性價比優勢的工程底座。

02 Pro的對手,是另一個維度的“人”

當然,這不代表Pro版本就弱。恰恰相反,DeepSeek給V4-Pro定的目標,直接對標的是當今世界的頂級閉源模型。

《麻省理工科技評論》引用了DeepSeek官方分享的基準測試結果,指出V4-Pro的性能與Anthropic的Claude Opus 4.6、OpenAI的GPT-5.4和谷歌Gemini 3.1相當。與其他開源模型相比,比如阿里巴巴的Qwen 3.5或Z.ai的GLM 5.1,V4在編碼、數學和STEM問題上全面超越,成為有史以來最強大的開源模型之一。

但在一些第三方匯總的評估中,它與頭部模型的差距依然存在。

專注AI新聞分析的網友@thehypedotnews根據一個名為人工智能分析智能指數的評估框架,給出了這樣一組對比。如果將頂級模型的能力指數化,GPT-5.5是60,Claude Opus 4.7是57,DeepSeek V4-Pro則是52。

性能低了約13%,但價格呢?

他緊接著算了一筆更讓人震撼的賬。每百萬token輸出價格的加權平均值,在不考慮任何折扣的情況下,GPT-5.5是30.21美元,Claude Opus 4.7是25美元,而DeepSeek V4-Pro只要1.73美元。

更狠的是,如果在V4發布初期的75%促銷折扣期間使用,Pro的輸出價格會進一步降至0.87美元每百萬token。這個價格,比GPT-5.5便宜了35倍,比Claude Opus便宜了29倍。

用13%的性能差距,換一個35倍的價格優勢,這已經不是同一個維度的競爭了。@thehypedotnews評論說,當一個模型能以6%的成本提供87%的能力時,我們更優秀就不再是唯一的賣點了。AI的商業化應用,正在以一種粗暴的方式被商品化,而DeepSeek V4無疑是這場價格戰最激進的發起者。

不僅如此,DeepSeek還進一步將輸入緩存價格下調至原來的十分之一。開源版本采用MIT許可協議、允許免費自托管,同時云端API定價又極具攻擊性,這種打法被形容為掌控市場兩端。開發者既可以選擇完全免費的本地部署,也可以以極低的成本調用云端服務。這給了使用者前所未有的靈活空間。

03實戰的B面:當“跑分王者”遭遇“滑鐵盧”

但性價比的賬算得再漂亮,終究要經受一個檢驗。當這些模型被投入真實的、復雜的、不可預測的任務中時,紙面上的優勢還能兌現多少?

AI應用開發與測試團隊Build Fast with AI設計了一場堪稱殘酷的終極壓力測試。他們將2026年4月的三大巨頭,即GPT-5.5、DeepSeek V4和Claude Opus 4.7,置于一個單一自主循環中,要求它們從零構建一個寶可夢風格的完整戰斗引擎。這不是寫個靜態頁面,而是要做出一個功能完整的游戲。

結果成了清晰的分水嶺。GPT-5.5的表現被描述為以壓倒性優勢獲勝。它不僅寫了代碼,還自主調用了GPT-image-2圖像模型,為游戲生成了賽博狼和霓虹龍等怪物資源。它構建了一個響應式的HUD界面,并且在測試者說運行之前,就已經自我修正了戰斗日志中的狀態不匹配問題。整個表現,被形容為像一位資深首席架構師。

Claude Opus 4.7呢?組件結構寫得很出色,但游戲循環崩潰了,從未真正運行起來。

而DeepSeek V4交出的答卷更為慘淡,那是一個靜態的UI界面,邏輯存在錯誤,游戲根本無法運行。

在這場測試中,Opus和DeepSeek連一個功能循環都難以實現。Build Fast with AI借此提出了一個判斷,到了2026年,我們需要的已經不只是能懂代碼的模型了,而是能執行任務的智能代理,能自主規劃、調用工具、修正錯誤、完整交付成果。

類似的挫敗也出現在更垂直的領域。AI Agent開發與測試員@akokoi1分享了他用DeepSeek V4做量化交易的經歷。策略和代碼全線交給V4自己寫。他接入了OKX剛開源的agent-trade-kit,一個MCP服務器,能把現貨、合約、期權、網格交易、算法單的接口全部直接提供給AI調用。

他說,和傳統的編程時代相比,現在的工作流完全變了。過去寫量化交易,需要自己讀交易所文檔、封裝REST和WebSocket接口、處理簽名鑒權、踩限頻的坑、做雙向對賬,代碼里有一半都在處理這些基礎設施。而現在,他只需要直接調用MCP工具拿K線數據、下單、設止損,把精力全放在描述策略邏輯上。

他坦言V4寫代碼本身是足夠用的,邏輯順、能看懂市場結構、能把指標拼起來。策略報告寫得有板有眼,前端寫得也很不錯,非常自信。但跑起來就拉胯了。

自動運行了一天,一開始幾筆是盈利的,之后就一直在虧損。他用“再這么虧下去褲衩都會虧沒”來形容這種挫敗感。模型在紙面上把策略分析得頭頭是道,代碼看起來也像模像樣,但一旦接入真實市場,面對噪音、波動和不可預知的邊緣情況,就露出了破綻。

接下來他打算把同樣的策略交給Claude Opus和GPT-5.5再各寫一套,看看不同模型在量化策略這個具體場景上,風格和能力差異能有多大。

這些測試描摹出了V4的一個弱點。在需要復雜工程落地或高度復雜的真實代碼庫環境中,它的表現依然不盡如人意。雖然對于很多任務來說它是極具性價比的選擇,但在面對最苛刻的編程挑戰時,GPT-5.5和Claude仍是更可靠的選擇。

這不是說V4不好,而是明確了它的邊界。別當成能包攬一切的神器,至少在需要審美判斷和工程精細度的工作上,GPT-5.5和Claude仍然更穩。

04長上下文:一張真正的王牌,附贈一個現實的注腳

如果把V4的能力比作一張拼圖,那么100萬token的上下文窗口,無疑是其中面積最大、也最引人注目的一塊。

100萬token是什么概念?它大到足以容納《指環王》三部曲和《霍比特人》的總和。DeepSeek表示,這個上下文窗口大小現已成為所有DeepSeek服務的默認設置,與Gemini和Claude等模型的前沿版本處于同一級別。

但真正關鍵的不只是做到了,而是怎么做到的。《麻省理工科技評論》詳細拆解了背后的技術思路。V4對其前代模型的注意力機制進行了重大的架構變革。傳統的AI模型在處理長文本時,需要將文中每個部分與其他所有部分的關系都進行計算,文本越長,這種比較的成本就呈指數級攀升。這是長上下文模型的主要瓶頸。

DeepSeek的創新在于,讓模型對什么值得關注變得更聰明、更挑剔。V4采用了一種混合注意力架構,不會將之前所有的文本都視為同等重要。它會有選擇地壓縮較早的歷史信息,聚焦于當下最可能相關的部分,同時完整保留臨近的文本,以免遺漏重要細節。

官方給出的效率提升數據相當驚人。在處理100萬token的上下文時,V4-Pro僅使用了其前代模型V3.2所需算力的27%,內存使用量削減至10%。而V4-Flash的降幅更大,僅消耗了10%的算力和7%的內存。

這意味著,構建那些需要海量材料支撐的AI工具,比如能讀取整個代碼庫的編碼助手、能分析長篇文檔的研究智能體,在成本上將變得切實可行。

那么,實際效果如何?AI從業者ByteWaveNetwork在V4發布后兩天,就針對1M上下文真正可用這個說法做了一次可復現的測試。他在GitHub上公開了完整的測試代碼和復現倉庫。

測試方法是經典的大海撈針。他生成一個超大的填充文檔,大量重復的企業風格無意義文本構成了干草堆,在其中隨機隱藏一個具體的關鍵事實作為針。然后將整個文檔喂給模型,讓它回答文檔中是否提到了這個事實、在哪里以及內容是什么。評分標準分為三個等級,完全準確、部分正確、完全遺漏。

他的核心發現是,V4的混合注意力架構確實顯著提升了長上下文下的檢索穩定性。在100萬token級別,模型能夠較為可靠地找到隱藏的信息,準確率較高。這個結果是積極的,印證了官方的技術聲明并非空談。

但他也同時指出了一個實際生產中的痛點,即響應延遲的方差較大。有時候反應很快,有時候則明顯變慢。對于需要穩定響應時間的生產環境來說,這種不確定性是一個真實的問題。他的總結是,如果你能接受偶爾不確定的延遲,V4的長上下文檢索能力是過硬的。但如果追求極致的一致性,可能還需要進一步優化或結合緩存策略。

這個注腳很務實,也很有必要。100萬token的上下文不是萬能藥,工程落地時,延遲、成本和具體場景的適配,依然是需要逐個解決的課題。

05冰山之下:一場軟硬件協同的“系統戰”

如果說上述一切還停留在產品和技術層面,那么《麻省理工科技評論》的報道點出了V4更深層的戰略意義。文章提煉了此次發布之所以重要的第三個原因,它標志著在擺脫對英偉達依賴的艱難道路上,邁出了第一步。

V4是DeepSeek首款針對華為昇騰等中國國產芯片進行優化的模型。這件事的分量,早在發布前就有跡可循。據The Information早些時候的報道,DeepSeek并未讓英偉達和AMD等美國芯片制造商提前接觸V4,而預發布訪問通常是為了讓芯片廠商能在模型發布前就做好適配優化。據報道,該公司只讓中國芯片制造商獲得了這種提前訪問權。

發布當天,華為就宣布其基于昇騰950系列的昇騰超節點產品,將為DeepSeek V4的推理提供全面支持。這意味著,希望運行自己修改版模型的公司和個人,將能夠繞開英偉達的CUDA生態,使用華為的硬件來部署這一前沿模型。

央視旗下有影響力的賬號“玉淵譚天”在周日發聲,將此譽為中國軟硬件協同進步的信號。文中寫道,雖然我國目前在制程節點、單卡性能上處于落后狀態,但我們可以通過在系統設計、集群架構、軟硬協同、供電效率上做文章,在現有約束條件下探索新的解題思路。這種表述,將一次模型發布上升到了產業路徑選擇的國家敘事層面。

不過需要厘清的是,這并非一個完全去英偉達化的故事。根據DeepSeek的技術報告,他們使用中國芯片進行推理環節,即當有人要求模型完成任務時的計算。但清華大學計算機科學教授劉知遠稱,DeepSeek似乎僅將V4的部分訓練過程適配到了中國芯片上。技術報告沒有說明一些關鍵的長上下文功能是否已在國產芯片上實現,因此劉教授的判斷是,V4可能仍主要是在英偉達芯片上訓練的。

路透社也曾報道稱,華為芯片被用于V4 Flash的部分訓練過程,而訓練對芯片的要求遠比推理更高。駐香港股票分析師梁慶新則表示,他找不到任何證據表明昇騰被用于訓練V4 Flash,但他也指出,DeepSeek的技術文件顯示兩家公司的整合正在深化,這是一個可能的跡象,表明昇騰950未來將用于訓練其模型。

DeepSeek官方還將V4的未來成本與這種硬件轉變聯系在了一起。公司表示,今年下半年華為昇騰950超節點開始大規模出貨后,V4-Pro的價格可能會顯著下降。如果這條路走得通,那么V4將不僅是一個新模型,更是中國正在成功構建一套并行AI基礎設施的早期信號。

有評論者從更宏觀的視角解讀了這番布局。X網友@OopsGuess指出,當DeepSeek V4被添加到OpenClaw時,這已經不僅僅是又一次模型更新。從中可以看到一個清晰的鏈條正在成形,模型層是DeepSeek V4,硬件層是華為昇騰,代理工具層是OpenClaw和騰訊的CodeBuddy,應用層則指向真實的編碼、會議、多步驟任務等工作流。

這意味著中國的AI生態系統,正從過去孤立的單點模型突破,轉向構建完整的本土技術棧。

他評論道,美國試圖通過切斷英偉達芯片供應來減緩中國的步伐,而中國則以其一貫的方式做出回應。不斷優化模型,將軟件適配到自家硬件,持續降低成本,開放生態系統,并最終把外部的限制轉化為建設自主基礎設施的內在動力。

DeepSeek不再只是中國版ChatGPT,它正成為中國AI產業系統中的一個關鍵節點。模型、芯片、代理工具、云服務、應用場景以及開發者的工作流程,正在開始真正地互聯互通。

他認為,對華盛頓而言,真正值得擔憂的,并非V4的參數規模有多大,而是中國正在學會如何在美國的封鎖之外,系統性地構建AI的完整閉環。

結語

把所有這些維度的信息拼在一起,DeepSeek V4的形象就不再是一個簡單的強或弱可以概括的了。

它是一個特點極其鮮明的模型。在長上下文處理、智能體工作流搭建、成本控制和開源生態上,它展現了足夠硬核的實力,為那些需要處理海量信息、追求性價比的開發者和企業,提供了一套前所未有的工具箱。

但在需要審美判斷、前端精雕細琢、或應對高度不確定復雜環境的首次嘗試中,它又暴露出肉眼可見的短板,與GPT-5.5和Claude的差距依然清晰。

DeepSeek V4不是來統治一切的,它重新定義了牌桌上的籌碼,即前沿AI能力可以有多便宜,開源模型能走多遠,以及一個受外部封鎖制約的產業如何從芯片到應用層逐步構建起自己的完整生態。

當精致的前端輸出是首要任務時,你最好還是選GPT-5.5或Claude。但當你的工作涉及長上下文分析、AI智能體、成本敏感型的自動化,以及需要一個開放且靈活的基礎設施時,DeepSeek V4就是一個繞不開的選項。

最聰明的做法,從來不是在參數表之間做選擇,而是在你自己的實際工作流中測試它,讓真實的產出,而不是炫目的跑分數字,來給出最終的答案。

相關推薦
熱點推薦
人類馬拉松首次破2!阿迪達斯立頭功!

人類馬拉松首次破2!阿迪達斯立頭功!

李東陽朋友圈
2026-04-27 09:08:31
日本“天災人禍”!沒有國家幫忙,中國也不去?

日本“天災人禍”!沒有國家幫忙,中國也不去?

小虎新車推薦員
2026-04-26 15:34:32
民進黨高層竟敢偷偷離臺,大陸火速行動!美國來陰的,鄭麗文拼了

民進黨高層竟敢偷偷離臺,大陸火速行動!美國來陰的,鄭麗文拼了

阿器談史
2026-04-26 20:10:00
208億!合肥主城“王炸”更新啟動!補償方案公布

208億!合肥主城“王炸”更新啟動!補償方案公布

合肥樓市點評
2026-04-27 14:15:39
印尼的豪賭大潰敗,給全世界提了個醒:中國行我也行,純粹是幻覺

印尼的豪賭大潰敗,給全世界提了個醒:中國行我也行,純粹是幻覺

補懂事的孩紙
2026-04-26 22:52:27
47歲周杰倫2.5億買百年莊園!登記在岳父名下,推倒重建轟動當地

47歲周杰倫2.5億買百年莊園!登記在岳父名下,推倒重建轟動當地

嫹筆牂牂
2026-04-27 07:48:31
兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點

兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點

三農老歷
2026-04-13 17:10:06
緊急通告!所有車主抓緊辦理,4月30日截止,5月1日嚴查罰款扣分

緊急通告!所有車主抓緊辦理,4月30日截止,5月1日嚴查罰款扣分

林子說事
2026-04-27 13:20:19
羅馬諾:曼聯已和巴萊巴達成口頭加盟協議!皇馬了解穆帥希望回歸

羅馬諾:曼聯已和巴萊巴達成口頭加盟協議!皇馬了解穆帥希望回歸

足球偵探
2026-04-27 08:35:08
外媒炸鍋了!當著日本航母的面,055竟然發射鷹擊-20?

外媒炸鍋了!當著日本航母的面,055竟然發射鷹擊-20?

南風不及你溫柔
2026-04-27 10:55:38
1992年,大特務毛森回浙江省親,一輩子罪行累累,晚年病死美國

1992年,大特務毛森回浙江省親,一輩子罪行累累,晚年病死美國

健康快樂丁
2025-06-03 20:27:55
雙標!利馬扯頭發停賽3場勒溫等3人卻沒事,卡里克再次為曼聯鳴冤

雙標!利馬扯頭發停賽3場勒溫等3人卻沒事,卡里克再次為曼聯鳴冤

羅米的曼聯博客
2026-04-27 11:23:36
那年我提干回家,老鄉紛紛上門說親,我卻和青梅竹馬的發小訂了婚

那年我提干回家,老鄉紛紛上門說親,我卻和青梅竹馬的發小訂了婚

靜若梨花
2026-04-27 12:58:56
中方必須無條件割讓領土?美發話后,馬來西亞叫囂:中國放棄南海

中方必須無條件割讓領土?美發話后,馬來西亞叫囂:中國放棄南海

詩酒趁的年華
2026-04-22 05:07:02
烏克蘭全球打擊俄羅斯

烏克蘭全球打擊俄羅斯

名人茍或
2026-04-27 16:04:34
鮑威爾迎來最后一場發布會!美聯儲“透明時代”恐將終結?

鮑威爾迎來最后一場發布會!美聯儲“透明時代”恐將終結?

財聯社
2026-04-27 14:52:52
58歲江珊露面,150斤穿西裝腚大腰圓,但臉顯年輕幾乎沒皺紋

58歲江珊露面,150斤穿西裝腚大腰圓,但臉顯年輕幾乎沒皺紋

墨印齋
2026-04-24 16:43:38
香港明明是中國的領土,為何他們回歸多年,依然還在使用港幣?

香港明明是中國的領土,為何他們回歸多年,依然還在使用港幣?

抽象派大師
2026-04-25 18:47:51
“人老有3坎,熬過就高壽”,這“3坎”分別是哪年,早了解不吃虧

“人老有3坎,熬過就高壽”,這“3坎”分別是哪年,早了解不吃虧

芹姐說生活
2026-04-26 16:04:37
體制內硬剛領導會是什么下場?網友"鐵頭娃"式回答,大徹大悟

體制內硬剛領導會是什么下場?網友"鐵頭娃"式回答,大徹大悟

夜深愛雜談
2026-04-24 07:32:39
2026-04-27 16:55:00

科技要聞

DeepSeek V4上線三天,第一批實測出來了

頭條要聞

吉林突現200萬豪華住宅式墓地 獨門獨戶地上地下兩層

頭條要聞

吉林突現200萬豪華住宅式墓地 獨門獨戶地上地下兩層

體育要聞

最抽象的天才,正在改變瓜迪奧拉

娛樂要聞

黃楊鈿甜為“耳環風波”出鏡道歉:謠言已澄清

財經要聞

DeepSeek融資、字節加碼 AI開始真燒錢了

汽車要聞

張純偉:奇瑞油電同進不做選擇題 重新定義新燃油

態度原創

親子
教育
游戲
時尚
房產

親子要聞

春季長高“黃金期”,帶孩子多練長高操

教育要聞

促進兒童主動表達的語言發展策略

索尼第一方新游重磅官宣!就是獨占 不會跨平臺

春天衣服別只穿黑色,看看下面這些彩色穿搭,亮眼還有感染力

房產要聞

信號!海南商業版圖,迎來大變局!

無障礙瀏覽 進入關懷版
×