无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

實測DeepSeek V4:Agent能力領先開源,3D小票翻車,但經典洗車問題終于對了

0
分享至


作者 | 博雯

編輯 | Kino

這個4月大模型領域真是神仙打架。

先是4月16日發布的Claude Opus 4.7,然后是今天前后腳發布的GPT 5.5和DeepSeek V4。

在頂級閉源模型的夾擊下,萬眾矚目的DeepSeek V4還是保持了一貫的底色:開源和極致性價比。

開源模型鏈接,58頁的技術報告,全都一次性放了出來。現在登錄DeepSeek官網或App,就能用最新的DeepSeek V4。

技術報告顯示,在Agent能力,世界知識測評,還有數學、STEM、競賽型代碼等多項能力測評中,DeepSeek-V4-Pro領先一眾開源模型,性能直逼Claude Opus 4.6、GPT-5.4、Gemini-Pro-3.1等頂級閉源模型,但其輸入輸出的成本,卻比這些模型低了好幾個數量級。


那么,DeepSeek V4的實際表現究竟如何呢?我們從代碼能力、邏輯推理、長文本處理和風格化寫作這幾個核心維度,簡單進行了一番實測。


代碼能力

DeepSeek官方宣稱,目前DeepSeek-V4已成為公司內部員工使用的Agentic Coding模型,而且據評測反饋,DeepSeek-V4的使用體驗優于Claude Sonnet 4.5,交付質量接近Claude Opus 4.6的非思考模式,但仍與Opus 4.6思考模式存在一定差距。

在實測中,我先讓DeepSeek V4生成一個暗黑、賽博朋克風格的介紹《GTA 6》的交互式網頁,它只思考了7秒,就寫出了一個融合了霓虹燈效果和粒子故障藝術的交互頁面,可以直接在瀏覽器中運行。

網頁的模塊化布局非常清晰,不僅視覺審美在線,而且包含了很多細膩的交互細節,比如鼠標懸停在功能卡片上時,會觸發邊框發光和上浮效果,頁面背景還有動態粒子和連線特效。

不過,在另一個更復雜的測試任務中,DeepSeek V4的表現就不那么理想了。

我讓它在一個HTML文件中構建一個高度逼真的交互式3D紙質小票,模擬紙張受到拖拽的物理效果。

首次耗時近10分鐘,卻生成了一張無法交互的空白小票。第二次雖然生成了完整小票,但視覺渲染有問題,小票不僅呈暗黑色、缺乏紙張的質感,而且是倒置的。最核心的拉扯交互效果也不正確,紙張呈現類似高彈史萊姆一樣的夸張形變,還有撕裂和穿模。


推理能力

除了寫代碼,我們也測試了幾道經典的邏輯陷阱題。比如9.9-9.11的計算題,可以看到V4雖然在思考過程中雖然幾次走入岔路,但最終還是給到了準確答案。


再來一個曾經讓無數知名AI都翻車的“洗車難題”:我家附近50米就有洗車店,請問我應該怎么去?

對于人來說,這是一個簡單到有點好笑的問題,但對于AI來說,它看到“50米”和“出行方式”,就會直接調用統計概率,然后直接輸出——短距離出行,步行是最高頻的答案。它處理的是信息,而不是現實。

但對于更新后的D老師來說,不僅瞬間就明白了問題背后的深層含義:即這是在檢測它是否理解語境,測試邏輯能力,還認為自己要給出一個幽默又合理的回答。

不知道是不是被偷偷調高了幽默值。


還有值得注意的一點是, 2026年的AI競爭已經不只是模型跑分的事了,而是看誰能更好地嵌入開發者的工作流,誰能更好用。

所以,DeepSeek-V4也專門針對Claude Code、OpenClaw、OpenCode、CodeBuddy這些主流Agent產品做了適配優化,在代碼任務、文檔生成任務等方面表現都有提升。


長文本處理與風格化寫作能力

就在一年前,百萬上下文還是只有頂尖閉源模型才玩得起的量級,普通模型要么是128k,要么也就200k。但現在,DeepSeek官方直接宣布,百萬上下文從此將成為DeepSeek所有官方服務的標配。

也就是說,現在你跟DeepSeek-V4聊一次,就算把整個《三體》三部曲都丟進去,它也能記得上下文。

我們簡單測了下,找了一本百萬字的《平凡的世界》,往里面隨機貼了一段《三體》的片段,很快,DeepSeek V4就找到了異常之處和具體內容。


再丟給它今年新榜內容節的速記,合計超過10萬字,要求它整理其中的參賽嘉賓,并從中選出一條它認為有價值的演講,最終給出一份“AI新榜”風格的稿件。


幾秒鐘之后,DeepSeek就給出了兩天全場內容節的嘉賓極其title,我們一一核對之后,發現都是正確的,而最終,DeepSeek選擇了第二天視頻號知名博主蕭大業的分享作為選題,并認為“在這樣一個技術氛圍濃厚的行業大會上,蕭老師回歸內容創作最本質的人文性和情感性,挺有反思價值的。”

說實話,文筆不錯,網上常說的那種矯揉造作的“AI味兒”,或者鑒AI時常用的“破折號、奇怪的比喻、無限糾結于細節”的情況,基本沒有出現。


不過,畢竟“AI新榜”還是以AI領域的選題為主的,于是我們指出了其選題上的問題,而且值得說道的是,在對話中,DeepSeek展現出了一種較為鮮明的立場和情緒,在我們指出后,它在思考中也展現出了相當具有辯證性的思考。


最終,DeepSeek更換了選題,選擇了傅盛的演講,并表示“對于讀者來說,這種帶著具體操作細節、成本賬目和試錯過程的案例,比行業報告上的趨勢研判更有參考意義,也更有說服力。”

這是最后的成品,同時也在這里放一篇我們在同一選題下的,大家可以自行對比:






通篇閱讀之后的感覺是,因為上下文增加,所以在輸出長文檔上的效果好了一些,在其中也展現出了一些不錯的操作思路,比如會以比較有噱頭的“受傷拄拐”開頭,也知道先說案例,再講技術。

但問題也有,比如比起自己構思一條貫通全文的主線,更傾向于以演講內容的時間線來排布內容,再比如,D老師經典的“不是……(而)是”的句式仍然很多。


為什么還不做文生圖?

因為DeepSeek屬于另一個賽道



為什么DeepSeek還是沒有文生圖功能?

這確實道出了最普通用戶的疑惑,那就是在這個AI產品加速迭代,各路文生圖、文生視頻、文生音頻的功能全都不要錢似得往上堆的情況下,為什么曾經打響了國產AI大模型熱戰第一槍的DeepSeek,卻依舊是簡簡單單,老老實實,只有一個純文字生成?

一方面確實是因為,文生圖是完全不同的架構,另一方面也是因為,DeepSeek的主賽道確實不在這里。

開源+極致性價比,這才是DeepSeek的核心競爭力。

在這次公布出來的價格上,DeepSeek延續了它當年550萬美元的極致性價比神話。兩個版本,更專業的V4-Pro百萬Token輸入12元,輸出24元,更小更便捷的V4-Flash輸入0.2元,輸出2元。

對比一下性能相似的其他頂級模型們:Claude Sonnet 4.6輸入3美元,輸出15美元;Claude Opus 4.7輸入5美元(約36元),輸出25美元(約180元);GPT-5.5 Pro輸入30美元(約216元),輸出180美元(約1296元)……

可以說,完全不是一個數量級。


而且還沒完,DeepSeek官方發布里提到,受限于高端算力,目前Pro的服務吞吐十分有限,下半年華為昇騰950超節點批量上市后,Pro的價格還會大幅下調。

在性能已經逼近頂級閉源模型的情況下,用只有零頭的價格,就能用到“接近Opus 4.6非思考模式”的性能,這對于大量中小團隊和獨立開發者的意義不言而喻。

所以,DeepSeek賣的不是“最強”,也不是“全能”,而是“開源、便宜、且仍在快速進步”。

回頭看這半年,DeepSeek的傳言不斷。從年初開始,V4的發布傳聞幾經“跳票”,到2月Anthropic指控它蒸餾Claude的技術,鬧得沸沸揚揚,再到最近融資消息傳了一個版本又一個版本,金額從100億炒到200億。

外界的劇本寫得跌宕起伏,直到今天,主角才接戲。

發布最后,DeepSeek引用了《荀子·非十二子》的一句話:"不誘于譽,不恐于誹,率道而行,端然正己。"

翻譯成人話大概是:別夸我,也別罵我,我有自己的路要走。

當然,定力值不值得鼓掌,最終還是要看產品。V4已經來了,市場會用腳投票。

歡迎分享、點贊、推薦

一起研究AI

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
退守臺灣后,59歲何應欽隨即躲避在家,蔣介石:沒殺他已經很好了

退守臺灣后,59歲何應欽隨即躲避在家,蔣介石:沒殺他已經很好了

史筆似塵鉤
2026-06-21 21:12:13
1-2!五星巴西回家,哈蘭德7球平梅西,4支前世界杯冠軍爆冷出局

1-2!五星巴西回家,哈蘭德7球平梅西,4支前世界杯冠軍爆冷出局

球場沒跑道
2026-07-06 06:09:31
HWG要翻車?博主:埃德松加盟曼聯交易已告吹

HWG要翻車?博主:埃德松加盟曼聯交易已告吹

懂球帝
2026-07-06 03:39:06
一名退休教師的感悟:教育最大的失敗,是讓所有孩子都走同一條路

一名退休教師的感悟:教育最大的失敗,是讓所有孩子都走同一條路

千秋歷史
2026-06-02 19:56:28
2.76倍!塞罕壩憑什么讓全國人工林沉默?

2.76倍!塞罕壩憑什么讓全國人工林沉默?

水泥土的搞笑
2026-07-05 10:29:07
孩子不會感激你拼命賺錢給他最好的物質條件,不會記得你帶他見過多大的世面,唯獨兩樣東西會像烙印一樣跟著他走完這輩子

孩子不會感激你拼命賺錢給他最好的物質條件,不會記得你帶他見過多大的世面,唯獨兩樣東西會像烙印一樣跟著他走完這輩子

心理觀察局
2026-07-05 06:28:21
“消滅所有參加葬禮的人!”特朗普被百萬送葬隊伍震撼,撂出狠話

“消滅所有參加葬禮的人!”特朗普被百萬送葬隊伍震撼,撂出狠話

領略非凡
2026-07-05 19:02:54
馬特烏斯預測1/8決賽:墨西哥2-1英格蘭,葡萄牙0-2西班牙

馬特烏斯預測1/8決賽:墨西哥2-1英格蘭,葡萄牙0-2西班牙

懂球帝
2026-07-06 04:54:12
印尼失算了,中企三周拆空2年建的產線,一顆螺絲釘都不留給印尼

印尼失算了,中企三周拆空2年建的產線,一顆螺絲釘都不留給印尼

瀲滟晴方DAY
2026-07-05 08:39:35
兒子打光棍29年愁壞繼母她一咬牙:別找了,媽這兒就有現成的

兒子打光棍29年愁壞繼母她一咬牙:別找了,媽這兒就有現成的

大熊歡樂坊
2026-07-05 20:11:10
悲喜兩重天 內馬爾坐地痛哭 哈蘭德帶領挪威觀眾“劃船”氣勢如虹

悲喜兩重天 內馬爾坐地痛哭 哈蘭德帶領挪威觀眾“劃船”氣勢如虹

狍子歪解體壇
2026-07-06 06:24:55
C羅賽前回擊質疑:這是我最后一屆世界杯,誰也無法定義我的傳奇

C羅賽前回擊質疑:這是我最后一屆世界杯,誰也無法定義我的傳奇

體育閑話說
2026-07-06 05:43:05
韓紅公開道歉不到24小時,荒唐的一幕發生,羅永浩公開"發難"

韓紅公開道歉不到24小時,荒唐的一幕發生,羅永浩公開"發難"

米師傅安裝
2026-07-06 00:52:41
LV批量起訴惹爭議,網友:你敢起訴人民幣嗎?

LV批量起訴惹爭議,網友:你敢起訴人民幣嗎?

映射生活的身影
2026-07-04 20:06:13
碩士畢業于石河子大學,博士畢業于中國科學院大學,山西農大研究員以通訊作者身份Nature旗下權威期刊發表研究成果

碩士畢業于石河子大學,博士畢業于中國科學院大學,山西農大研究員以通訊作者身份Nature旗下權威期刊發表研究成果

植物研究進展
2026-07-05 21:46:09
玄學提醒:不要讓任何人去你家,記住,是任何人

玄學提醒:不要讓任何人去你家,記住,是任何人

背包旅行
2026-07-04 16:24:16
錢再多有什么用?意外摔倒“毀容”的王力宏,給所有人敲響了警鐘

錢再多有什么用?意外摔倒“毀容”的王力宏,給所有人敲響了警鐘

天天熱點見聞
2026-07-06 06:46:52
安切洛蒂霸氣回應外界批評:全世界只有弗格森有資格指點我的戰術

安切洛蒂霸氣回應外界批評:全世界只有弗格森有資格指點我的戰術

夜白侃球
2026-07-04 22:26:51
小某書在批量生產“擦邊”跑步網紅

小某書在批量生產“擦邊”跑步網紅

馬拉松跑步健身
2026-07-04 20:33:50
19場19球!三次世界杯從未被淘汰!專為世界杯而生,他是當世第一

19場19球!三次世界杯從未被淘汰!專為世界杯而生,他是當世第一

聽我說球
2026-07-05 08:55:47
2026-07-06 07:24:49
頭號AI玩家 incentive-icons
頭號AI玩家
做內容從業者關心的AI研究
474文章數 24關注度
往期回顧 全部

科技要聞

華為:邏輯折疊將大幅提升麒麟CPU核心頻率

頭條要聞

世界杯-挪威2-1巴西首進八強 哈蘭德梅開二度

頭條要聞

世界杯-挪威2-1巴西首進八強 哈蘭德梅開二度

體育要聞

姆巴佩點走巴拉圭:巴黎三代左鋒傳承

娛樂要聞

霉霉婚禮照片泄露 有四人違規

財經要聞

揭秘跨境“對敲”換匯黑產

汽車要聞

方程豹鈦9內飾曝光 用上了長聯屏設計/下半年上市

態度原創

房產
數碼
本地
游戲
公開課

房產要聞

總裁空缺17個月、現金缺口超1000億:金融局“局外人”入局萬科

數碼要聞

Intel Xe3P核顯越來越近!Linux曝光新進展

本地新聞

國內足球之旅?這座小城給你高分答案

《漫威爭鋒》美國隊長性感皮膚遭修改 粉絲們生氣了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版