![]()
![]()
今天,DeepSeek-V4正式發布,萬眾期待中還是夾帶著不少爭議,大家對其模型能力,到底處在什么水平有很多討論。
畢竟一年半前,DeepSeek橫空出世那種驚艷,讓其背負了太多的期待。
從技術報告看,DeepSeek-V4是 "既要、又要、還要"—— 既要超長上下文,又要頂級推理性能,還要極致的性價比。
這款剛剛發布的混合專家(MoE)模型,對比國外御三家,國內御三家到底怎么樣,我們也第一時間對其API進行了測試,大家能有個直觀的感受。
這次Deepseek,最強的亮點就是百萬上下文普惠,無論Flash還是Pro版本都標配,不需要加價。
這里我們用《戰爭與和平》這本書的99.8w字數處,處加了一段無厘頭的小故事。
![]()
然后分別去問GPT5.4,GPT5.5和Deepseek v4,加的這段故事中,王建國的個人信息以及周末吃了什么東西。
三個模型全都成功地找出了這個信息,時間上,GPT 5.5用時8秒,Deepseekv4用時15s,GPT 5.4用時53s
![]()
這是Deepseek v4給出的答案,給出了表格和文字答案。
![]()
這是GPT-5.5給出的答案,回答速度是真快,不知是不是路由模型在發力。
從用時上,Deepseek時間消耗是處于略落后GPT 5.5,領先GPT5.4。
所以日常處理大容量知識、快速問答什么的,Deepseek完全能滿足。
接下來看看DeepSeek在前端UI 方面表現,畢竟現在SWE是一個最常用的測評。
做外匯匯率實時可視化
外匯匯率實時可視化提示詞: ## 功能 - 顯示3-4個貨幣對(USD/CNY、EUR/USD、GBP/USD) - 每個貨幣對獨立顏色(綠、藍、紫、橙) - 實時曲線圖 + 粒子效果 - 漲跌顏色和方向粒子 - 顯示當前報價和漲跌幅 ### 界面 - 深色背景,金融風格 - 貨幣對選擇面板 - 主圖表 + 迷你圖
相比較下,Deepseekv4效果中規中矩,前端能力沒有那么的驚艷,光標放到K線上沒有數據,交互也差了點。
![]()
用同樣的提示詞,Claude Sonnet4.6 和 GPT-5.4 的光標放到K線上,會有時間和實時變化率,AI作出的效果更復雜和更美觀。
![]()
意外的是GPT-5.4效果超級好,按理說這款模型前端也比Gemini 3.1有很大的差距。剛剛更新的GPT-5.5也沒有很大的進步,說是依靠 Image 2 做UI圖,讓GPT-5.5再寫前端會很好。
這次GPT-5.4和Deepseek V4用同樣提示詞,網站的內容豐富度、數據展示以及UI美觀度都很強。
![]()
Claude sonnet 4.6表現在交互上略強DS V4,但是美感度上也沒更好。
然后用Deepseek調用skills做網頁,看看效果有沒有更好。這個Skills名稱為Frontend Design,做的網頁AI味還是有一些,但整體及格。
![]()
繼續用簡單的畫SVG,來看看大家的表現。要求畫轟炸機在農場路過扔下,先看DeepSeek的成績。
![]()
Deepseek V4的轟炸機,不知道為何只看到一半,這不是鯨哥畫面裁剪的問題,真是它沒做好構圖,然后也沒扔炸彈。
![]()
這是GPT5.4做的案例,轟炸機和炸彈形象,以及爆炸效果都可以,但是轟炸機沒有飛過,螺旋槳一直在旋轉,飛機卻沒有動。
這次大家算大家打個平手吧。
推理能力
給Deepseek v4做了一下考公的推理題,畢竟曾經的DeepSeek R1也是引領了推理風潮。
小錢、小周、小王、小謝、小李五人一起參與抽獎活動,開獎前五人對中獎情況的預測如下: 小錢:小周和小李都沒有中獎; 小周:如果小錢中獎了,那么小謝也中獎了; 小王:除非小錢中獎了,否則小謝沒有中獎; 小謝:小李和小王都中獎了; 小李:雖然小謝沒有中獎,但是小錢中獎了。 開獎后,發現五人中只有一人預測正確,由此可以推出: A.小周中獎了 B.共有三人中獎 C.小周預測正確 D.小王沒有中獎
在推理能力上deepseek,實力依舊穩定,值得一提是,最強的GPT 5.5這個外地模型還是需要提升一下理解能力。
![]()
這是GPT-5.5給的答案,意外地回答錯了。
![]()
這是DS V4給的答案,是對的。
![]()
這是官方解析,可以看到DS V4推理過程也對,答案也對。
總結:
DeepSeek V4這次為了全國產化,確實花費了很多精力在國產基礎適配方面。模型進步幅度,沒有上一次那么夸張。
尤其國外還有藏著掖著的頂模,這對我們來說,追趕的腳步確實有壓力。
但Deepseek的最大的特色還被保持,那就是無與倫比的性價比。
以上這些案例都是實用DeepSeek V4 Pro測試,深度使用測評了一個下午,只花了不到2塊錢。
![]()
還是非常超值的,要知道如果用Claude Opus,每天這么強度在Claude Code中玩,那估計要上千美金。更要命的是,Claude對我們設置的重重封鎖。
所以,DeepSeek V4作為普通用戶的日常平替,還是非常合格。在專業場景中,可能還需要配合其他頂模使用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.