網易首頁 > 網易號 > 正文申請入駐

DeepSeek-V4實測，處在GPT、Claude什么水平？

2026-04-24 19:59:43　來源: 鯨選AI

北京舉報

分享至

今天，DeepSeek-V4正式發布，萬眾期待中還是夾帶著不少爭議，大家對其模型能力，到底處在什么水平有很多討論。

畢竟一年半前，DeepSeek橫空出世那種驚艷，讓其背負了太多的期待。

從技術報告看，DeepSeek-V4是 "既要、又要、還要"—— 既要超長上下文，又要頂級推理性能，還要極致的性價比。

這款剛剛發布的混合專家（MoE）模型，對比國外御三家，國內御三家到底怎么樣，我們也第一時間對其API進行了測試，大家能有個直觀的感受。

這次Deepseek，最強的亮點就是百萬上下文普惠，無論Flash還是Pro版本都標配，不需要加價。

這里我們用《戰爭與和平》這本書的99.8w字數處，處加了一段無厘頭的小故事。

然后分別去問GPT5.4，GPT5.5和Deepseek v4，加的這段故事中，王建國的個人信息以及周末吃了什么東西。

三個模型全都成功地找出了這個信息，時間上，GPT 5.5用時8秒，Deepseekv4用時15s，GPT 5.4用時53s

這是Deepseek v4給出的答案，給出了表格和文字答案。

這是GPT-5.5給出的答案，回答速度是真快，不知是不是路由模型在發力。

從用時上，Deepseek時間消耗是處于略落后GPT 5.5，領先GPT5.4。

所以日常處理大容量知識、快速問答什么的，Deepseek完全能滿足。

接下來看看DeepSeek在前端UI 方面表現，畢竟現在SWE是一個最常用的測評。

做外匯匯率實時可視化

外匯匯率實時可視化提示詞： ## 功能 - 顯示3-4個貨幣對（USD/CNY、EUR/USD、GBP/USD） - 每個貨幣對獨立顏色（綠、藍、紫、橙） - 實時曲線圖 + 粒子效果 - 漲跌顏色和方向粒子 - 顯示當前報價和漲跌幅 ### 界面 - 深色背景，金融風格 - 貨幣對選擇面板 - 主圖表 + 迷你圖

相比較下，Deepseekv4效果中規中矩，前端能力沒有那么的驚艷，光標放到K線上沒有數據，交互也差了點。

用同樣的提示詞，Claude Sonnet4.6 和 GPT-5.4 的光標放到K線上，會有時間和實時變化率，AI作出的效果更復雜和更美觀。

意外的是GPT-5.4效果超級好，按理說這款模型前端也比Gemini 3.1有很大的差距。剛剛更新的GPT-5.5也沒有很大的進步，說是依靠 Image 2 做UI圖，讓GPT-5.5再寫前端會很好。

這次GPT-5.4和Deepseek V4用同樣提示詞，網站的內容豐富度、數據展示以及UI美觀度都很強。

Claude sonnet 4.6表現在交互上略強DS V4，但是美感度上也沒更好。

然后用Deepseek調用skills做網頁，看看效果有沒有更好。這個Skills名稱為Frontend Design，做的網頁AI味還是有一些，但整體及格。

繼續用簡單的畫SVG，來看看大家的表現。要求畫轟炸機在農場路過扔下，先看DeepSeek的成績。

Deepseek V4的轟炸機，不知道為何只看到一半，這不是鯨哥畫面裁剪的問題，真是它沒做好構圖，然后也沒扔炸彈。

這是GPT5.4做的案例，轟炸機和炸彈形象，以及爆炸效果都可以，但是轟炸機沒有飛過，螺旋槳一直在旋轉，飛機卻沒有動。

這次大家算大家打個平手吧。

推理能力

給Deepseek v4做了一下考公的推理題，畢竟曾經的DeepSeek R1也是引領了推理風潮。

小錢、小周、小王、小謝、小李五人一起參與抽獎活動，開獎前五人對中獎情況的預測如下：小錢：小周和小李都沒有中獎；小周：如果小錢中獎了，那么小謝也中獎了；小王：除非小錢中獎了，否則小謝沒有中獎；小謝：小李和小王都中獎了；小李：雖然小謝沒有中獎，但是小錢中獎了。開獎后，發現五人中只有一人預測正確，由此可以推出： A.小周中獎了 B.共有三人中獎 C.小周預測正確 D.小王沒有中獎

在推理能力上deepseek，實力依舊穩定，值得一提是，最強的GPT 5.5這個外地模型還是需要提升一下理解能力。

這是GPT-5.5給的答案，意外地回答錯了。

這是DS V4給的答案，是對的。

這是官方解析，可以看到DS V4推理過程也對，答案也對。

總結：

DeepSeek V4這次為了全國產化，確實花費了很多精力在國產基礎適配方面。模型進步幅度，沒有上一次那么夸張。

尤其國外還有藏著掖著的頂模，這對我們來說，追趕的腳步確實有壓力。

但Deepseek的最大的特色還被保持，那就是無與倫比的性價比。

以上這些案例都是實用DeepSeek V4 Pro測試，深度使用測評了一個下午，只花了不到2塊錢。

還是非常超值的，要知道如果用Claude Opus，每天這么強度在Claude Code中玩，那估計要上千美金。更要命的是，Claude對我們設置的重重封鎖。

所以，DeepSeek V4作為普通用戶的日常平替，還是非常合格。在專業場景中，可能還需要配合其他頂模使用。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.