網易首頁 > 網易號 > 正文申請入駐

實測DeepSeek V4：Agent能力領先開源，3D小票翻車，但經典洗車問題終于對了

2026-04-24 20:36:30　來源: 頭號AI玩家

上海舉報

分享至

作者 | 博雯

編輯 | Kino

這個4月大模型領域真是神仙打架。

先是4月16日發布的Claude Opus 4.7，然后是今天前后腳發布的GPT 5.5和DeepSeek V4。

在頂級閉源模型的夾擊下，萬眾矚目的DeepSeek V4還是保持了一貫的底色：開源和極致性價比。

開源模型鏈接，58頁的技術報告，全都一次性放了出來。現在登錄DeepSeek官網或App，就能用最新的DeepSeek V4。

技術報告顯示，在Agent能力，世界知識測評，還有數學、STEM、競賽型代碼等多項能力測評中，DeepSeek-V4-Pro領先一眾開源模型，性能直逼Claude Opus 4.6、GPT-5.4、Gemini-Pro-3.1等頂級閉源模型，但其輸入輸出的成本，卻比這些模型低了好幾個數量級。

那么，DeepSeek V4的實際表現究竟如何呢？我們從代碼能力、邏輯推理、長文本處理和風格化寫作這幾個核心維度，簡單進行了一番實測。

代碼能力

DeepSeek官方宣稱，目前DeepSeek-V4已成為公司內部員工使用的Agentic Coding模型，而且據評測反饋，DeepSeek-V4的使用體驗優于Claude Sonnet 4.5，交付質量接近Claude Opus 4.6的非思考模式，但仍與Opus 4.6思考模式存在一定差距。

在實測中，我先讓DeepSeek V4生成一個暗黑、賽博朋克風格的介紹《GTA 6》的交互式網頁，它只思考了7秒，就寫出了一個融合了霓虹燈效果和粒子故障藝術的交互頁面，可以直接在瀏覽器中運行。

網頁的模塊化布局非常清晰，不僅視覺審美在線，而且包含了很多細膩的交互細節，比如鼠標懸停在功能卡片上時，會觸發邊框發光和上浮效果，頁面背景還有動態粒子和連線特效。

不過，在另一個更復雜的測試任務中，DeepSeek V4的表現就不那么理想了。

我讓它在一個HTML文件中構建一個高度逼真的交互式3D紙質小票，模擬紙張受到拖拽的物理效果。

首次耗時近10分鐘，卻生成了一張無法交互的空白小票。第二次雖然生成了完整小票，但視覺渲染有問題，小票不僅呈暗黑色、缺乏紙張的質感，而且是倒置的。最核心的拉扯交互效果也不正確，紙張呈現類似高彈史萊姆一樣的夸張形變，還有撕裂和穿模。

推理能力

除了寫代碼，我們也測試了幾道經典的邏輯陷阱題。比如9.9-9.11的計算題，可以看到V4雖然在思考過程中雖然幾次走入岔路，但最終還是給到了準確答案。

再來一個曾經讓無數知名AI都翻車的“洗車難題”：我家附近50米就有洗車店，請問我應該怎么去？

對于人來說，這是一個簡單到有點好笑的問題，但對于AI來說，它看到“50米”和“出行方式”，就會直接調用統計概率，然后直接輸出——短距離出行，步行是最高頻的答案。它處理的是信息，而不是現實。

但對于更新后的D老師來說，不僅瞬間就明白了問題背后的深層含義：即這是在檢測它是否理解語境，測試邏輯能力，還認為自己要給出一個幽默又合理的回答。

不知道是不是被偷偷調高了幽默值。

還有值得注意的一點是， 2026年的AI競爭已經不只是模型跑分的事了，而是看誰能更好地嵌入開發者的工作流，誰能更好用。

所以，DeepSeek-V4也專門針對Claude Code、OpenClaw、OpenCode、CodeBuddy這些主流Agent產品做了適配優化，在代碼任務、文檔生成任務等方面表現都有提升。

長文本處理與風格化寫作能力

就在一年前，百萬上下文還是只有頂尖閉源模型才玩得起的量級，普通模型要么是128k，要么也就200k。但現在，DeepSeek官方直接宣布，百萬上下文從此將成為DeepSeek所有官方服務的標配。

也就是說，現在你跟DeepSeek-V4聊一次，就算把整個《三體》三部曲都丟進去，它也能記得上下文。

我們簡單測了下，找了一本百萬字的《平凡的世界》，往里面隨機貼了一段《三體》的片段，很快，DeepSeek V4就找到了異常之處和具體內容。

再丟給它今年新榜內容節的速記，合計超過10萬字，要求它整理其中的參賽嘉賓，并從中選出一條它認為有價值的演講，最終給出一份“AI新榜”風格的稿件。

幾秒鐘之后，DeepSeek就給出了兩天全場內容節的嘉賓極其title，我們一一核對之后，發現都是正確的，而最終，DeepSeek選擇了第二天視頻號知名博主蕭大業的分享作為選題，并認為“在這樣一個技術氛圍濃厚的行業大會上，蕭老師回歸內容創作最本質的人文性和情感性，挺有反思價值的。”

說實話，文筆不錯，網上常說的那種矯揉造作的“AI味兒”，或者鑒AI時常用的“破折號、奇怪的比喻、無限糾結于細節”的情況，基本沒有出現。

不過，畢竟“AI新榜”還是以AI領域的選題為主的，于是我們指出了其選題上的問題，而且值得說道的是，在對話中，DeepSeek展現出了一種較為鮮明的立場和情緒，在我們指出后，它在思考中也展現出了相當具有辯證性的思考。

最終，DeepSeek更換了選題，選擇了傅盛的演講，并表示“對于讀者來說，這種帶著具體操作細節、成本賬目和試錯過程的案例，比行業報告上的趨勢研判更有參考意義，也更有說服力。”

這是最后的成品，同時也在這里放一篇我們在同一選題下的，大家可以自行對比：

通篇閱讀之后的感覺是，因為上下文增加，所以在輸出長文檔上的效果好了一些，在其中也展現出了一些不錯的操作思路，比如會以比較有噱頭的“受傷拄拐”開頭，也知道先說案例，再講技術。

但問題也有，比如比起自己構思一條貫通全文的主線，更傾向于以演講內容的時間線來排布內容，再比如，D老師經典的“不是……（而）是”的句式仍然很多。

為什么還不做文生圖？

因為DeepSeek屬于另一個賽道

為什么DeepSeek還是沒有文生圖功能？

這確實道出了最普通用戶的疑惑，那就是在這個AI產品加速迭代，各路文生圖、文生視頻、文生音頻的功能全都不要錢似得往上堆的情況下，為什么曾經打響了國產AI大模型熱戰第一槍的DeepSeek，卻依舊是簡簡單單，老老實實，只有一個純文字生成？

一方面確實是因為，文生圖是完全不同的架構，另一方面也是因為，DeepSeek的主賽道確實不在這里。

開源+極致性價比，這才是DeepSeek的核心競爭力。

在這次公布出來的價格上，DeepSeek延續了它當年550萬美元的極致性價比神話。兩個版本，更專業的V4-Pro百萬Token輸入12元，輸出24元，更小更便捷的V4-Flash輸入0.2元，輸出2元。

對比一下性能相似的其他頂級模型們：Claude Sonnet 4.6輸入3美元，輸出15美元；Claude Opus 4.7輸入5美元（約36元），輸出25美元（約180元）；GPT-5.5 Pro輸入30美元（約216元），輸出180美元（約1296元）……

可以說，完全不是一個數量級。

而且還沒完，DeepSeek官方發布里提到，受限于高端算力，目前Pro的服務吞吐十分有限，下半年華為昇騰950超節點批量上市后，Pro的價格還會大幅下調。

在性能已經逼近頂級閉源模型的情況下，用只有零頭的價格，就能用到“接近Opus 4.6非思考模式”的性能，這對于大量中小團隊和獨立開發者的意義不言而喻。

所以，DeepSeek賣的不是“最強”，也不是“全能”，而是“開源、便宜、且仍在快速進步”。

回頭看這半年，DeepSeek的傳言不斷。從年初開始，V4的發布傳聞幾經“跳票”，到2月Anthropic指控它蒸餾Claude的技術，鬧得沸沸揚揚，再到最近融資消息傳了一個版本又一個版本，金額從100億炒到200億。

外界的劇本寫得跌宕起伏，直到今天，主角才接戲。

發布最后，DeepSeek引用了《荀子·非十二子》的一句話："不誘于譽，不恐于誹，率道而行，端然正己。"

翻譯成人話大概是：別夸我，也別罵我，我有自己的路要走。

當然，定力值不值得鼓掌，最終還是要看產品。V4已經來了，市場會用腳投票。

歡迎分享、點贊、推薦

一起研究AI

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

傻瓜式Loop教程來了：一行命令直接上手，GitHub狂攬4.5k Star

量子位 2026-07-04 07:00:05
15 跟貼 15
全網爆火！Claude Code核心工程師放出Fable 5使用心法

新智元 2026-07-04 19:38:26
12 跟貼 12

把Agent丟入1000+文件：人大CoDA-Bench揭示Code Agent瓶頸

機器之心Pro 2026-07-05 16:28:08
0 跟貼 0

上交大提出ICRDrag：首個上下文區域拖拽模型，精準可控圖像編輯

機器之心Pro 2026-07-05 16:59:29
0 跟貼 0
GPT-5.5突遭暗中降智，思考一到516就斷！越難越翻車

新智元 2026-07-05 16:00:55
2 跟貼 2

Fable 5解禁即上崗，工程師改行當「驗收員」

新智元 2026-07-04 09:20:28
2 跟貼 2

別爭了！香農老婆，才是世界上第一個大語言模型

量子位 2026-07-05 21:48:44
0 跟貼 0
告別碎片化記憶：中科院開源輕量級內存原生Agent記憶系統Mandol

機器之心Pro 2026-07-05 21:16:02
4 跟貼 4

Claude工程師終于交出Fable 5焚訣！教你打破和模型之間的信息差

機器之心Pro 2026-07-05 20:39:00
0 跟貼 0
女特工在車廂內打孔，只為竊取鬼子的機密文件

飛鳥潛影 2026-07-02 09:31:18
1 跟貼 1
23歲4年逆襲，奧特曼連人帶公司全買了！

新智元 2026-07-04 16:33:04
38 跟貼 38
因為印度！蘋果最不愿被人看到的文件！現在全世界都能下載了！

瘋兔AD 2026-07-04 05:49:38
35 跟貼 35
清華特獎獲得者顧煜賢，加入DeepSeek

機器之心Pro 2026-07-05 20:43:37
7 跟貼 7
結賬時發現東西很貴怎么辦？網友：東西放下就走，面子沒錢重要

康富貴碎碎念 2026-07-05 12:17:01
2 跟貼 2
AI 越記住你，越可能"帶著偏見理解你"

鈦媒體APP 2026-07-05 17:50:20
1 跟貼 1
馮德萊恩：中歐對話結果必須令人滿意否則將進行報復

澎湃新聞 2026-07-05 07:08:04
11316 跟貼 11316
泰山景區回應修建滾筒式刀片刺繩隔離鐵絲網：與正常游覽路線不交叉不重疊

北京日報客戶端 2026-07-02 08:55:17
20357 跟貼 20357
剛畢業就想學網絡安全？關鍵不在代碼在“感覺”

碳基打工人 2026-07-06 01:34:58
0 跟貼 0
高考生填志愿前，都該讀一遍DeepSeek的招聘帖

AppSo 2026-07-05 11:26:48
0 跟貼 0
7月15日，豆包、千問下線該功能！

濟源網 2026-07-05 11:07:47
195 跟貼 195
幸運與美好與日俱增超492萬人次參與有獎發票

錦繡太原 2026-07-06 06:38:03
0 跟貼 0
單Agent時代正式結束：一個干不過，就上300個-3

機器之心Pro 2026-04-22 00:08:00
0 跟貼 0
河南80后男子帶村民養蟬，高峰期一晚上可抓1.2萬只：每晚摸三輪爬叉，抓到4小時內冷凍

環球網資訊 2026-07-05 08:36:34
4387 跟貼 4387
法國隊主帥:安排2名強壯球員保護姆巴佩以防對手報復

紅星新聞 2026-07-05 09:06:42
2949 跟貼 2949
Codex、ChatGPT為何合體？OpenAI核心leader回應一切

機器之心Pro 2026-07-05 21:10:33
5 跟貼 5
中央安全考核巡查組專家現場質問：你們管理人員上去過嗎？

上觀新聞 2026-07-05 14:22:38
21 跟貼 21
哈蘭德將標志性長發剪成利落短發，6日凌晨4點迎戰巴西

極目新聞 2026-07-05 17:19:25
2015 跟貼 2015
TCL回應永樂款菩薩像現其廣告：未授權或參與涉事文物展陳

南方都市報 2026-07-05 21:14:13
6321 跟貼 6321
iPhone18 Pro Max測試視頻泄露，超630G機密文件被竊取

南昌晚報 2026-07-03 14:40:52
0 跟貼 0
Arm CEO：CPU需求已「爆表」！

機器之心Pro 2026-07-05 20:50:44
0 跟貼 0
別想用軟色情做智能體的跳板

虎嗅APP 2026-07-05 21:02:22
0 跟貼 0
清華火神衛冕 RoboCup 冠軍，加速進化筑具身底座

摩爾觀察 2026-07-05 18:55:04
3 跟貼 3
兩支巴西球隊有意簽下沃齊尼亞

瀟湘晨報 2026-07-05 21:08:09
1839 跟貼 1839
從零開始，學會讓桌面Agent幫你干活！【小白教程】

秋芝2046 2026-07-05 10:22:43
1 跟貼 1
女特工偽裝成服務員，準備竊取鬼子機密文件

飛鳥潛影 2026-07-03 11:05:10
1 跟貼 1
把正手邏輯復刻到反手！鐘金勇指導：反手臺內與半出臺拉球核心要領

斯帝卡V乒乓 2026-07-03 15:16:44
1 跟貼 1
請客吃早餐花掉12萬！全網都在找他

環球網資訊 2026-07-05 16:57:11
2520 跟貼 2520
知名感冒藥沖上熱搜，全國銷量暴跌55%，網友：好難買

哈爾濱日報 2026-07-05 11:11:15
285 跟貼 285
從模型到工作流：2026 上半年圖片與視頻模型盤點

阿真Irene 2026-07-04 16:24:51
0 跟貼 0
原價139.99現56美元，PDF Expert Mac版值嗎？

碳基打工人 2026-07-06 01:16:46
0 跟貼 0

頭號AI玩家

做內容從業者關心的AI研究

474文章數 24關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

數碼

本地

游戲

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
布洛芬是怎么給人止痛的？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

實測DeepSeek V4：Agent能力領先開源，3D小票翻車，但經典洗車問題終于對了

華為：邏輯折疊將大幅提升麒麟CPU核心頻率

世界杯-挪威2-1巴西首進八強 哈蘭德梅開二度

世界杯-挪威2-1巴西首進八強 哈蘭德梅開二度

姆巴佩點走巴拉圭：巴黎三代左鋒傳承

霉霉婚禮照片泄露 有四人違規

揭秘跨境“對敲”換匯黑產

方程豹鈦9內飾曝光 用上了長聯屏設計/下半年上市

態度原創

總裁空缺17個月、現金缺口超1000億：金融局“局外人”入局萬科

Intel Xe3P核顯越來越近！Linux曝光新進展

國內足球之旅？這座小城給你高分答案

《漫威爭鋒》美國隊長性感皮膚遭修改 粉絲們生氣了

世界杯-挪威2-1巴西首進八強哈蘭德梅開二度

世界杯-挪威2-1巴西首進八強哈蘭德梅開二度

霉霉婚禮照片泄露有四人違規

方程豹鈦9內飾曝光用上了長聯屏設計/下半年上市

《漫威爭鋒》美國隊長性感皮膚遭修改粉絲們生氣了