網易首頁 > 網易號 > 正文申請入駐

DeepSeek V4 即將發布：編程能力首次超越 Claude 和 GPT

2026-04-17 13:55:06　來源: AI效率筆記

河南舉報

分享至

先說結論：這次不是吹牛編程能力到底有多強？?全項目理解：一次性看懂數十萬行跨文件代碼及調用關系?自動化重構：自動進行項目重構、漏洞檢測與測試用例生成?設計圖轉代碼：Design2Code 準確率達 92%，響應延遲 4 秒五大技術亮點1. 萬億參數 MoE 架構2. 100萬 Token 上下文窗口?可以一次性處理《三體》全集?可以分析整套法律合同?可以理解數十萬行代碼工程3. Engram 條件記憶機制4. 國產芯片深度適配5. 原生多模態架構產品端的變化對開發者意味著什么？對行業意味著什么？寫在最后1API 定價：預計比 Claude 便宜 10-30 倍2上下文窗口：100萬 Token，可以處理整個項目3國產算力：華為昇騰深度適配，自主可控

昨天刷到一個消息，整個人都精神了。

DeepSeek 創始人梁文鋒在內部溝通中透露，DeepSeek V4 將于 4 月下旬正式發布。

更關鍵的是，泄露的基準測試數據顯示：V4 在 HumanEval 編程測試中得分90%，超越了 Claude 的 88% 和 GPT-4 的 82%。

這是國產大模型首次在編程能力上超越硅谷頭部玩家。

我翻了十幾篇報道，把 V4 的關鍵信息都整理出來了。如果你是開發者，或者關注 AI 行業，這篇文章值得看完。

DeepSeek V4 的消息從去年下半年就開始傳，中間跳票了好幾次，"被發布"的烏龍新聞也不少。

但這次不一樣。

第一，創始人親自背書。梁文鋒在內部溝通中明確說了"4月下旬發布"，這是官方層面的確認。

第二，產品端已經動了。4月8日，DeepSeek 上線了"快速模式"和"專家模式"，官方明確回應"專家模式是 V4 版本更新的核心功能"。灰度測試界面還出現了"視覺模式"選項，暗示 V4 將具備原生多模態能力。

第三，基準測試數據流出。HumanEval 得分 90%，這個數據來自泄露的內部測試，雖然不是官方發布，但多家媒體都有報道，可信度較高。

簡單說，這次是真的要來了。

先看數據。

模型: DeepSeek V4 | HumanEval 得分: 90%

模型: Claude Opus 4.5 | HumanEval 得分: 88%

模型: GPT-4 | HumanEval 得分: 82%

HumanEval 是 AI 編程能力的標準測試，簡單理解就是"10道編程題能做對幾道"。

V4 能做對 9 道，Claude 能做對 8.8 道，GPT-4 能做對 8.2 道。

差距看起來不大，但這是首次有國產模型在這個測試中超越硅谷頭部。

更關鍵的是，V4 不只是"幫你寫代碼"，而是"幫你做軟件工程"：

有開發者實測，讓 V4 寫一個 p5.js 模擬小球在旋轉六邊形內彈跳的程序，結果軌跡精準、物理邏輯嚴密。

說實話，這個能力已經接近"初級工程師"的水平了。

V4 采用萬億參數混合專家架構，但每次推理只激活約 370 億參數。

這意味著什么？

同樣的能力，十分之一的成本。

速度提升 35 倍，能耗降低 40%，API 價格預計比 GPT-5 和 Claude 便宜 10-30 倍。

這是 V4 最讓我震撼的一點。

100萬 Token 是什么概念？

對比一下：Claude Opus 4.5 是 200K，GPT-4o 是 128K。V4 是它們的 5-8 倍。

而且檢索速度接近 O(1)，百萬文本細節查詢秒響應。

這是一個很聰明的架構創新。

傳統 Transformer 把所有知識塞進參數，容易導致長上下文檢索衰退。

V4 把"記憶存儲"和"推理計算"分開，類似人類大腦的海馬體和皮層分工。

結果：記憶準確率達到 98.2%，比 GPT-4o 高 8.5 個百分點。

V4 優先支持華為昇騰、寒武紀、海光等國產 GPU。

通過重寫底層算子，國產芯片推理速度提升 35 倍，達到 80 tokens/s。

這意味著什么？

從模型到硬件的全鏈路自主可控。

V4 不是"文本模型 + 視覺插件"的拼接，而是原生多模態統一架構。

圖文音視頻映射到同一語義空間，理解更深入，生成更自然。

4月8日，DeepSeek 上線了模式分層設計：

模式: 快速模式 | 用途: 日常對話、即時響應 | 特點: 支持圖片、文件識別

模式: 專家模式 | 用途: 復雜推理、數學、編程 | 特點: 深度思考，高峰可能排隊

這個設計很聰明。

簡單問題用輕量模型，復雜問題用強力模型，既節省成本，又保證質量。

灰度測試界面還出現了"視覺模式"選項，雖然還沒全面開放，但暗示 V4 的多模態能力即將落地。

我看了下 V4 的編程能力，有幾個關鍵點：

第一，代碼生成更準確。

HumanEval 90% 的得分，意味著大多數編程任務 V4 都能搞定。

第二，項目級理解能力。

100萬 Token 上下文，可以一次性理解整個項目，不用分段處理。

第三，自動化程度更高。

自動重構、漏洞檢測、測試用例生成，這些以前需要人工做的事情，V4 可以自動完成。

第四，成本更低。

API 價格預計比 GPT-5 和 Claude 便宜 10-30 倍，對高頻調用的開發者來說是重大利好。

第一，國產 AI 首次在核心能力上超越硅谷。

編程能力是大模型的"試金石"，V4 的突破意味著國產 AI 已經進入世界第一梯隊。

第二，從"價格戰"轉向"能力戰"。

以前國產 AI 靠便宜搶市場，現在靠能力說話。

第三，國產算力生態加速成熟。

V4 與華為昇騰深度綁定，意味著國產 AI 產業鏈正在形成閉環。

DeepSeek V4 的發布，是國產 AI 的一個里程碑。

從 V1 到 V4，DeepSeek 用不到兩年時間完成了三次關鍵躍遷。這次 V4 在編程能力上超越 Claude 和 GPT，標志著國產大模型已經從"追趕者"變成"領跑者"。

4月下旬，V4 正式發布后，我會第一時間實測，給大家帶來更詳細的評測。

如果你是開發者，建議關注這三點：

如果這篇文章對你有幫助，點個贊、轉發給需要的朋友。有問題評論區聊，我看到都會回。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.