无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

實測DeepSeek V4:Agent能力領先開源,3D小票翻車,但經典洗車問題終于對了

0
分享至


作者 | 博雯

編輯 | Kino

這個4月大模型領域真是神仙打架。

先是4月16日發布的Claude Opus 4.7,然后是今天前后腳發布的GPT 5.5和DeepSeek V4。

在頂級閉源模型的夾擊下,萬眾矚目的DeepSeek V4還是保持了一貫的底色:開源和極致性價比。

開源模型鏈接,58頁的技術報告,全都一次性放了出來。現在登錄DeepSeek官網或App,就能用最新的DeepSeek V4。

技術報告顯示,在Agent能力,世界知識測評,還有數學、STEM、競賽型代碼等多項能力測評中,DeepSeek-V4-Pro領先一眾開源模型,性能直逼Claude Opus 4.6、GPT-5.4、Gemini-Pro-3.1等頂級閉源模型,但其輸入輸出的成本,卻比這些模型低了好幾個數量級。


那么,DeepSeek V4的實際表現究竟如何呢?我們從代碼能力、邏輯推理、長文本處理和風格化寫作這幾個核心維度,簡單進行了一番實測。


代碼能力

DeepSeek官方宣稱,目前DeepSeek-V4已成為公司內部員工使用的Agentic Coding模型,而且據評測反饋,DeepSeek-V4的使用體驗優于Claude Sonnet 4.5,交付質量接近Claude Opus 4.6的非思考模式,但仍與Opus 4.6思考模式存在一定差距。

在實測中,我先讓DeepSeek V4生成一個暗黑、賽博朋克風格的介紹《GTA 6》的交互式網頁,它只思考了7秒,就寫出了一個融合了霓虹燈效果和粒子故障藝術的交互頁面,可以直接在瀏覽器中運行。

網頁的模塊化布局非常清晰,不僅視覺審美在線,而且包含了很多細膩的交互細節,比如鼠標懸停在功能卡片上時,會觸發邊框發光和上浮效果,頁面背景還有動態粒子和連線特效。

不過,在另一個更復雜的測試任務中,DeepSeek V4的表現就不那么理想了。

我讓它在一個HTML文件中構建一個高度逼真的交互式3D紙質小票,模擬紙張受到拖拽的物理效果。

首次耗時近10分鐘,卻生成了一張無法交互的空白小票。第二次雖然生成了完整小票,但視覺渲染有問題,小票不僅呈暗黑色、缺乏紙張的質感,而且是倒置的。最核心的拉扯交互效果也不正確,紙張呈現類似高彈史萊姆一樣的夸張形變,還有撕裂和穿模。


推理能力

除了寫代碼,我們也測試了幾道經典的邏輯陷阱題。比如9.9-9.11的計算題,可以看到V4雖然在思考過程中雖然幾次走入岔路,但最終還是給到了準確答案。


再來一個曾經讓無數知名AI都翻車的“洗車難題”:我家附近50米就有洗車店,請問我應該怎么去?

對于人來說,這是一個簡單到有點好笑的問題,但對于AI來說,它看到“50米”和“出行方式”,就會直接調用統計概率,然后直接輸出——短距離出行,步行是最高頻的答案。它處理的是信息,而不是現實。

但對于更新后的D老師來說,不僅瞬間就明白了問題背后的深層含義:即這是在檢測它是否理解語境,測試邏輯能力,還認為自己要給出一個幽默又合理的回答。

不知道是不是被偷偷調高了幽默值。


還有值得注意的一點是, 2026年的AI競爭已經不只是模型跑分的事了,而是看誰能更好地嵌入開發者的工作流,誰能更好用。

所以,DeepSeek-V4也專門針對Claude Code、OpenClaw、OpenCode、CodeBuddy這些主流Agent產品做了適配優化,在代碼任務、文檔生成任務等方面表現都有提升。


長文本處理與風格化寫作能力

就在一年前,百萬上下文還是只有頂尖閉源模型才玩得起的量級,普通模型要么是128k,要么也就200k。但現在,DeepSeek官方直接宣布,百萬上下文從此將成為DeepSeek所有官方服務的標配。

也就是說,現在你跟DeepSeek-V4聊一次,就算把整個《三體》三部曲都丟進去,它也能記得上下文。

我們簡單測了下,找了一本百萬字的《平凡的世界》,往里面隨機貼了一段《三體》的片段,很快,DeepSeek V4就找到了異常之處和具體內容。


再丟給它今年新榜內容節的速記,合計超過10萬字,要求它整理其中的參賽嘉賓,并從中選出一條它認為有價值的演講,最終給出一份“AI新榜”風格的稿件。


幾秒鐘之后,DeepSeek就給出了兩天全場內容節的嘉賓極其title,我們一一核對之后,發現都是正確的,而最終,DeepSeek選擇了第二天視頻號知名博主蕭大業的分享作為選題,并認為“在這樣一個技術氛圍濃厚的行業大會上,蕭老師回歸內容創作最本質的人文性和情感性,挺有反思價值的。”

說實話,文筆不錯,網上常說的那種矯揉造作的“AI味兒”,或者鑒AI時常用的“破折號、奇怪的比喻、無限糾結于細節”的情況,基本沒有出現。


不過,畢竟“AI新榜”還是以AI領域的選題為主的,于是我們指出了其選題上的問題,而且值得說道的是,在對話中,DeepSeek展現出了一種較為鮮明的立場和情緒,在我們指出后,它在思考中也展現出了相當具有辯證性的思考。


最終,DeepSeek更換了選題,選擇了傅盛的演講,并表示“對于讀者來說,這種帶著具體操作細節、成本賬目和試錯過程的案例,比行業報告上的趨勢研判更有參考意義,也更有說服力。”

這是最后的成品,同時也在這里放一篇我們在同一選題下的,大家可以自行對比:






通篇閱讀之后的感覺是,因為上下文增加,所以在輸出長文檔上的效果好了一些,在其中也展現出了一些不錯的操作思路,比如會以比較有噱頭的“受傷拄拐”開頭,也知道先說案例,再講技術。

但問題也有,比如比起自己構思一條貫通全文的主線,更傾向于以演講內容的時間線來排布內容,再比如,D老師經典的“不是……(而)是”的句式仍然很多。


為什么還不做文生圖?

因為DeepSeek屬于另一個賽道



為什么DeepSeek還是沒有文生圖功能?

這確實道出了最普通用戶的疑惑,那就是在這個AI產品加速迭代,各路文生圖、文生視頻、文生音頻的功能全都不要錢似得往上堆的情況下,為什么曾經打響了國產AI大模型熱戰第一槍的DeepSeek,卻依舊是簡簡單單,老老實實,只有一個純文字生成?

一方面確實是因為,文生圖是完全不同的架構,另一方面也是因為,DeepSeek的主賽道確實不在這里。

開源+極致性價比,這才是DeepSeek的核心競爭力。

在這次公布出來的價格上,DeepSeek延續了它當年550萬美元的極致性價比神話。兩個版本,更專業的V4-Pro百萬Token輸入12元,輸出24元,更小更便捷的V4-Flash輸入0.2元,輸出2元。

對比一下性能相似的其他頂級模型們:Claude Sonnet 4.6輸入3美元,輸出15美元;Claude Opus 4.7輸入5美元(約36元),輸出25美元(約180元);GPT-5.5 Pro輸入30美元(約216元),輸出180美元(約1296元)……

可以說,完全不是一個數量級。


而且還沒完,DeepSeek官方發布里提到,受限于高端算力,目前Pro的服務吞吐十分有限,下半年華為昇騰950超節點批量上市后,Pro的價格還會大幅下調。

在性能已經逼近頂級閉源模型的情況下,用只有零頭的價格,就能用到“接近Opus 4.6非思考模式”的性能,這對于大量中小團隊和獨立開發者的意義不言而喻。

所以,DeepSeek賣的不是“最強”,也不是“全能”,而是“開源、便宜、且仍在快速進步”。

回頭看這半年,DeepSeek的傳言不斷。從年初開始,V4的發布傳聞幾經“跳票”,到2月Anthropic指控它蒸餾Claude的技術,鬧得沸沸揚揚,再到最近融資消息傳了一個版本又一個版本,金額從100億炒到200億。

外界的劇本寫得跌宕起伏,直到今天,主角才接戲。

發布最后,DeepSeek引用了《荀子·非十二子》的一句話:"不誘于譽,不恐于誹,率道而行,端然正己。"

翻譯成人話大概是:別夸我,也別罵我,我有自己的路要走。

當然,定力值不值得鼓掌,最終還是要看產品。V4已經來了,市場會用腳投票。

歡迎分享、點贊、推薦

一起研究AI

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普訪華,美國駐華大使館的評論區亮了

特朗普訪華,美國駐華大使館的評論區亮了

歷史總在押韻
2026-05-13 18:29:26
太突然!國際奧委會連招呼沒打,直接  “點名”上海?

太突然!國際奧委會連招呼沒打,直接 “點名”上海?

華人星光
2026-05-14 11:01:10
尷尬啊!家委會發布高考結束,舉行謝師宴,全班50人只有31人報名

尷尬啊!家委會發布高考結束,舉行謝師宴,全班50人只有31人報名

火山詩話
2026-05-14 17:54:05
參加中美國宴的中國公司名單曝光

參加中美國宴的中國公司名單曝光

野渡商業評論
2026-05-14 21:44:22
馬斯克國宴現場:直接干飯喝酒,與庫克合照很傲慢,對雷軍太敷衍

馬斯克國宴現場:直接干飯喝酒,與庫克合照很傲慢,對雷軍太敷衍

影像溫度
2026-05-14 22:07:16
臺灣網友曾發出質疑:我們日子過得明明挺好,為什么還要回歸?

臺灣網友曾發出質疑:我們日子過得明明挺好,為什么還要回歸?

南風不及你溫柔
2026-05-14 09:03:21
獨造5球導演大逆轉!梅西:我已經為世界杯做好準備

獨造5球導演大逆轉!梅西:我已經為世界杯做好準備

體壇周報
2026-05-14 12:37:14
女子稱關閉支付功能后,180多萬元凌晨莫名通過支付寶捐給慈善機構;支付寶:賬密是用戶透露出去的

女子稱關閉支付功能后,180多萬元凌晨莫名通過支付寶捐給慈善機構;支付寶:賬密是用戶透露出去的

大風新聞
2026-05-14 18:15:39
雷軍找馬斯克合影,丟了中國企業家“面子”??

雷軍找馬斯克合影,丟了中國企業家“面子”??

萬能的大叔
2026-05-14 21:14:44
馬斯克攜幼子現身北京人民大會堂 外國網友:孩子那身新中式簡直太棒

馬斯克攜幼子現身北京人民大會堂 外國網友:孩子那身新中式簡直太棒

快科技
2026-05-14 19:00:09
馬斯克用中文發貼:我的兒子正在學普通話

馬斯克用中文發貼:我的兒子正在學普通話

鳳凰網科技
2026-05-14 20:36:05
詹姆斯還值頂薪嗎?已有球隊準備報價,湖人或給出2個“誠意”

詹姆斯還值頂薪嗎?已有球隊準備報價,湖人或給出2個“誠意”

以茶帶書
2026-05-14 20:44:24
特朗普率團訪華,萬斯自嘲:我現在像小鬼當家

特朗普率團訪華,萬斯自嘲:我現在像小鬼當家

觀察者網
2026-05-14 14:48:01
國宴上一幕!馬斯克喘著粗氣,面前擺滿空酒杯,網友:喝大了?

國宴上一幕!馬斯克喘著粗氣,面前擺滿空酒杯,網友:喝大了?

消失的電波
2026-05-14 22:21:16
中美關系,有了新定位

中美關系,有了新定位

中國新聞周刊
2026-05-14 16:01:38
四川武警營門推哨兵后續:大家都搞錯了罪名,她面臨的不是襲警罪

四川武警營門推哨兵后續:大家都搞錯了罪名,她面臨的不是襲警罪

奇思妙想草葉君
2026-05-13 18:25:17
馬斯克晚宴上同框庫克,卻望向了美女服務員,“表情靈動”引熱議

馬斯克晚宴上同框庫克,卻望向了美女服務員,“表情靈動”引熱議

譯言
2026-05-14 21:18:22
克宮宣布普京將訪華 巴基斯坦宣布巴總理將訪華

克宮宣布普京將訪華 巴基斯坦宣布巴總理將訪華

看看新聞Knews
2026-05-14 20:16:01
花旗將獲中國第七張外商獨資券商牌照

花旗將獲中國第七張外商獨資券商牌照

風向觀察
2026-05-14 08:46:29
中紀委再標紅線!公職人員下班后吃飯,這5種行為將被嚴肅處理!

中紀委再標紅線!公職人員下班后吃飯,這5種行為將被嚴肅處理!

細說職場
2026-05-14 16:44:30
2026-05-14 23:44:49
頭號AI玩家 incentive-icons
頭號AI玩家
做內容從業者關心的AI研究
437文章數 23關注度
往期回顧 全部

科技要聞

馬斯克說會談很順利 黃仁勛點贊 庫克比耶

頭條要聞

外媒詢問中方對魯比奧的制裁是否已經解除 外交部回應

頭條要聞

外媒詢問中方對魯比奧的制裁是否已經解除 外交部回應

體育要聞

爭議抽象天王山,和季后賽最穩定中鋒

娛樂要聞

何九華官宣當爸!全程不提孩子媽

財經要聞

李強會見美國工商界代表

汽車要聞

雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

態度原創

數碼
房產
時尚
游戲
軍事航空

數碼要聞

鑫谷推出昆侖山海MU-850GD金牌全模組電源,859元

房產要聞

海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

初夏用色彩的沖鋒衣,解鎖多種不重樣造型,清爽透氣有活力

LPL第二賽段:有事兒,他是真上啊!WBG三局戰勝JDG

軍事要聞

美以伊戰爭期間以總理密訪阿聯酋

無障礙瀏覽 進入關懷版