網易首頁 > 網易號 > 正文申請入駐

Deepseek V4第一波測評來了！

2026-04-24 16:51:56　來源: 華爾街見聞官方

上海舉報

分享至

DeepSeek V4 預覽版開源上線后，第一波來自第三方榜單的測評結果已經出爐。多家測評顯示，DeepSeek V4性能尤其在代碼任務上沖進開源第一梯隊，同時以“百萬級上下文+低價”把開發者側的使用門檻進一步壓低。

從第三方評測來看，評測平臺 Arena.ai 在 X 上將V4 Pro（思考模式）定性為"相較DeepSeek V3.2的重大飛躍"，在其代碼競技場中列開源模型第3位、綜合第14位；另一家測評方 Vals AI 則稱，V4在其Vibe Code Benchmark中以"壓倒性優勢"拿下開源權重模型榜首，擊敗Gemini 3.1 Pro等閉源模型，較上代V3.2實現約10倍性能躍升。

定價層面，V4-Flash輸出價格為每百萬token 0.28美元，較Claude Opus 4.7低逾99%；V4-Pro輸出價格為3.48美元，是同級別前沿模型中定價最低的選項之一。對比表格顯示，Flash 處于小模型區間最低檔，Pro 也處于“大模型前沿”區間低位。

圍繞實際體驗的討論開始分化。多位網友在 X 上稱其性價比“打穿”。而DeepSeek在自述材料中則保持克制，稱在知識與推理上接近閉源系統但仍有約3到6個月差距，同時提示“受限于高端算力”，Pro 服務吞吐有限，后續價格存在下調預期。

第三方測評：代碼能力獨占鰲頭，綜合排名緊追頂級

就在OpenAI GPT-5.5發布不久后，DeepSeek-V4預覽版正式上線并同步開源，涵蓋參數總量1.6萬億（激活參數49B）的V4-Pro，以及參數總量2840億（激活參數13B）的V4-Flash，兩款模型均支持100萬token超長上下文窗口，采用MIT開源協議。

模型評測平臺Arena.ai在V4發布當日宣布，DeepSeek V4 Pro（思考模式）在其代碼競技場中排名開源模型第3位，綜合排名第14位，并將此次發布定性為"相較DeepSeek V3.2的重大飛躍"。Arena.ai同時測試了V4 Flash，兩款模型均支持100萬token上下文。

Vals AI的評測結果更具看點。該平臺表示，DeepSeek V4在其Vibe Code Benchmark中"以壓倒性優勢"成為開源權重模型第一，不僅超越第2名Kimi K2.6，更擊敗Gemini 3.1 Pro等閉源前沿模型。

Vals AI特別強調，V4較V3.2實現了約10倍的性能躍升——"V3.2在該基準上僅得5分，這不是筆誤。"在Vals綜合指數排名中，V4以第2位收官，與榜首Kimi K2.6僅相差0.07%。

社區反應十分積極。在X平臺上，用戶Sigrid Jin稱其帶來新的“shocking moment”，并提到“現在可以在家里跑 gpt 5.4-ish 的模型”。他寫道：

"GPT-5.5，對不起，DeepSeek V4才是新的震撼時刻，它在代碼競技場中擊敗了GPT-5.4高強度模式。"

用戶Ejaaz則稱：

"中國正在主導AI，他們已經追上來了。DeepSeek V4 Flash比Opus 4.7便宜99%，每百萬token僅需0.28美元，代碼競技場排名第一，這不是筆誤。"

也有用戶表達保留意見，X用戶Michael Anti在試用后表示，V4 Flash的實際體驗未能超越此前已相當成熟的V3.2，認為對老用戶而言升級體驗令人失望。

官方自評：措辭克制，代碼與Agent領域差距最小

DeepSeek對自身性能的評述保持了一貫的審慎風格。官方文件顯示，在知識與推理任務上，V4-Pro已超越主流開源模型，接近Gemini等閉源系統，但與最先進的前沿模型仍存在約3至6個月的差距。在Agent和代碼任務上，表現接近甚至部分超過Claude Sonnet。

內部使用數據方面，DeepSeek表示，V4已成為公司內部員工的Agentic Coding（智能體編程）主力模型，評測反饋顯示其使用體驗優于Claude Sonnet 4.5，交付質量接近Opus 4.6非思考模式，但與Opus 4.6思考模式仍有一定差距。

在數學、STEM及競賽級代碼評測中，V4-Pro超越目前已公開評測的所有開源模型，包括月之暗面的Kimi K2.6 Thinking和智譜GLM-5.1 Thinking，并取得比肩頂級閉源模型的成績。

博主Simon Willison在其測評文章中指出，V4-Pro（1.6萬億參數）是目前已知最大的開源權重模型，超過Kimi K2.6（1.1萬億）、GLM-5.1（7540億）以及DeepSeek V3.2（6850億），為有意本地部署的企業用戶提供了新的選項。

他還曬出了不同模型做出的鵜鶘圖例：

這是DeepSeek-V4-Flash的鵜鶘：

至于DeepSeek-V4-Pro：

價格體系：最低僅為競品1%，下半年仍有進一步降價空間

DeepSeek的定價策略是此次發布中最受市場關注的部分。V4-Flash的輸入/輸出價格分別為每百萬token 0.14美元/0.28美元，低于OpenAI GPT-5.4 Nano（0.20美元/1.25美元）和Gemini 3.1 Flash-Lite（0.25美元/1.50美元），是目前小型模型中定價最低的選項。

V4-Pro的輸入/輸出價格為1.74美元/3.48美元，同樣低于Gemini 3.1 Pro（2美元/12美元）、GPT-5.4（2.50美元/15美元）、Claude Sonnet 4.6（3美元/15美元）和Claude Opus 4.7（5美元/25美元）。

博主Simon Willison匯總的價格對比數據顯示，V4-Pro是目前大型前沿模型中成本最低的選項，V4-Flash則是小型模型中成本最低的，甚至低于OpenAI的GPT-5.4 Nano。

DeepSeek將上述低價能力歸因于模型在超長上下文場景下的極致效率優化。官方數據顯示，在100萬token場景下，V4-Pro的單token推理算力僅為V3.2的27%，KV緩存僅為10%；V4-Flash則分別低至10%和7%。

值得關注的是，DeepSeek在價格說明中附注稱，"受限于高端算力，目前Pro的服務吞吐十分有限，預計下半年昇騰950超節點批量上市后，Pro的價格會大幅下調"，暗示當前定價仍有進一步下調空間。

技術架構：混合注意力機制突破長上下文瓶頸，適配國產算力

DeepSeek-V4的核心技術創新在于首創的"CSA（壓縮稀疏注意力）+HCA（重度壓縮注意力）"混合注意力架構，旨在解決傳統注意力機制在超長上下文場景下呈平方級復雜度攀升、顯存與算力難以工程落地的行業痛點。CSA將每4個token壓縮為一個信息塊并通過稀疏檢索獲取最相關內容，在保留中段細節的同時大幅降低計算量；HCA則將海量信息濃縮為框架級信息塊，專注全局邏輯處理。

在此之外，V4還引入mHC流形約束超連接（升級傳統殘差連接，將信號傳播約束在穩定流形上）以及Muon優化器（替代傳統AdamW，適配MoE大模型與低精度訓練）。官方數據顯示，全鏈路工程優化可實現推理加速最高接近2倍。

在國產算力適配方面，DeepSeek-V4在華為昇騰NPU平臺上完成細粒度專家并行優化方案的全面驗證，在通用推理負載場景下可實現1.50至1.73倍的加速比。DeepSeek官方表示，V4是全球首個在國產算力底座上完成訓練與推理的萬億參數級模型，但目前昇騰平臺適配代碼暫未對外開源，屬于閉源優化。此外，寒武紀已通過vLLM推理框架完成對V4-Flash和V4-Pro的適配，相關代碼已開源至GitHub社區。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.