網易首頁 > 網易號 > 正文 申請入駐

DeepSeek-V4和GPT-5.5第一波實測對決,結果出人意料!

DeepSeek-V4和GPT-5.5實測對決

0
分享至


新智元報道

編輯:Aeneas KingHZ

【新智元導讀】昨夜,GPT-5.5果然按期發布了,全網沒有白等。更炸裂的是,就在同一天,DeepSeek-V4緊隨其后發布了!實測后,結果出人意料。

2026年4月24日,這是屬于全球AI開發者的「瘋狂星期五」,也是科技史上注定被銘記的一天。

凌晨時分,OpenAI的GPT-5.5如約空降,試圖以絕對的參數再次定義智能邊界。

然而,就在大洋彼岸的余震還未平息時,那個曾經數次單挑閉源巨頭的國產「價格屠夫」與「效率天才」——DeepSeek,帶著全新的V4系列來正面硬剛了!

當GPT-5.5還在試圖用更昂貴的算力堆砌未來時,DeepSeek-V4已經用1M超長上下文、比肩頂級閉源模型的Agent能力,以及僅為前代10%的KV緩存占用,直接把大模型推向了「平民化智能」的極境。

一邊是科技春晚般的華麗登場,一邊是開源領域近乎「掀桌子」的絕地反擊。我們見證了一場精彩的「暴力美學」與「算法巧思」的巔峰對決。

通往AGI的賽道,瞬間被這兩大巨頭縮短了不少。

接下來,中國開源之光DeepSeek-V4和GPT-5.5,要來一場真刀實槍的實測大PK了。

GPT-5.5和DeepSeek-V4巔峰對決

第一題,一道可以肉眼判斷模型差異的電梯謎題,測的是「真假話+身份推理」。

有四個人 A、B、C、D,其中只有一個人偷了寶石。

他們分別說了下面四句話: A:不是我偷的。 B:是C偷的。 C:是D偷的。 D:B在說謊。

已知: 1. 四句話中恰好有兩句是真的。 2. 小偷說的話一定是假話。 3. 非小偷不一定說真話,也可能說假話。

請問:誰偷了寶石?

這道題看似簡單,但其實,在給出的條件下,B和C都滿足。因此,這是一道故意設計的「陷阱題」:如果模型直接給出唯一答案C,說明它沒有認真驗證唯一性。

真正想測的是,模型會不會發現題目本身不充分。

更強模型應該回答:無法唯一確定,小偷可能是B或C。題目條件不足。

這道題給GPT-5.5后,它成功發現了陷阱。


把這道題給DeepSeek-V4后,一個直觀感受就是:它的思考過程,真的十分長長長長長。

GPT-5.5十幾秒就出了答案,四分鐘了DeepSeek-V4還在跑。

不過好在,V4最終也給出了正確答案。結果是好的,就是過程比較慢。


第二題,我們用數字競賽題,來測試CoT的思考上限。重點比拼兩個模型的數學邏輯推理和思考模式效能。

既然DeepSeek-V4宣稱在STEM和競賽型代碼上比肩頂級閉源模型,那我們就看看V4和GPT-5.5在面對人類智力天花板題目時,誰的推導過程更嚴密,誰會出現更多幻覺。

我們選了去年國際奧數決賽的一道真題:

Alice和Bob正在玩一個名為inekoalaty的雙人游戲,這個游戲的規則依賴于一個雙方都知道的正實數λ。

在游戲的第n輪(從n=1開始),會發生以下情況:

? 如果n是奇數,Alice選擇一個非負實數x?,使得x? + x? + ? + x?的總和不超過λn。

? 如果n是偶數,Bob選擇一個非負實數x?,使得x?2 + x?2 + ? + x?2的總和不超過n。

如果一個玩家無法選擇一個合適的x?,游戲結束,另一個玩家獲勝。如果游戲無限進行下去,沒有玩家獲勝。所有選定的數字對兩個玩家都是已知的。

需要確定的是,哪些λ的值能確保Alice有獲勝策略,以及哪些λ的值能確保Bob有獲勝策略。


原題和答案:https://web.evanchen.cc/exams/IMO-2025-notes.pdf

在進階思考深度下,GPT-5.5得到了正確答案:


全程耗時2分鐘51秒,思路清晰,輸出格式也很漂亮。


在專家模式下,開啟思考模式,同樣的題目輸入DeepSeek──


DeepSeek在思考過程結束前,沒有給出明確的輸出。

點擊繼續后,DeepSeek也發現了答案的線索:


最后,DeepSeek也成功證明了這道IMO決賽真題。


可以看出,DeepSeek推理能力、思考深度的確進步明顯。

接下來,我們考驗一下兩個模型的可視化能力。

生成一個HTML網頁介紹人類的起源和生物的進化,要圖文并茂,好理解。

DeepSeek這次效果更佳,GPT-5.5生成格式有些問題。




接下來,要求兩個模型開發一個游戲網站,測試它們在動態圖形、3D空間交互、碰撞檢測和整體游戲架構方面的能力。

通過最終呈現,可以清晰對比兩個模型在2D細膩特效與3D場景構建、光照與實時粒子系統方面的代碼生成能力、架構合理性以及視覺審美水平。

跟上面一樣,GPT-5.5很快完成了這個任務,在預覽中呈現了網站效果。


上下滾動查看更多


DeepSeek-V4的思考時間不長,最終效果不如GPT-5.5,這一輪V4完敗。



GPT-5.5:更像個人了

接下來,我們還搜羅了一波AI大V和開發者們對GPT-5.5的實測。

在今天發布之前,多位早期測試者已經用了兩周。他們的結論高度一致:在編程、推理、長任務三個維度上,GPT-5.5全面登頂。

但真正讓人坐不住的不是它更聰明了,是它更「像個人」了。

更貴的單價,反而更省錢;更強的能力,反而更會聊天;更高的自主性,反而更聽話。這一次,OpenAI拆掉了舊時代的發動機,直接給模型裝上了「靈魂」。

Codex,直接淘汰「AI輔助編程」!

可以說,GPT-5.5的Codex模式,直接把「AI輔助編程」這個詞淘汰了。

一位測試者扔給它一份完整的PRD文檔,只說了一個詞:go。

幾個小時后,GPT-5.5就獨立完成了整個項目構建。

更關鍵的,是GPT-5.5的工作方式。

它并不是寫完代碼等人審,而是自己形成了閉環——構建,視覺檢查,發現問題,再迭代。

這種自主性,在其他模型上從未見過。

OpenAI研究員Noam Brown的反饋,相信大家都已經看過了。

用他的話說,「有了GPT-5.5,我的IC效率比以往任何時候都高。我現在可以像專業人士一樣編寫CUDA kernels,可以依靠它來運行我的研究實驗。」


后端開發、復雜Bug定位、大型代碼庫理解,GPT-5.5在這些維度全面領先。

有測試者專門讓它用Svelte寫了一個自定義虛擬滾動實現,完美調用了所有bind原語。

他的評價是:「我見過AI寫出的最好的代碼,來自這個模型。」

在世界上最難的電子表格任務上,GPT-5.5實現全新SOTA:速度最快、效率最高。



更狠的是,GPT-5.5的持續研究能力,已有跡象表明AI已經能勝任研究合作者——

人類研究人員只需要提出構想,全程無需寫一行代碼,GPT-5.5全部自主完成。


甚至可以自主運行31個小時!


這意味著,AI正從「助理」變為「雇傭兵」。你不需要告訴它怎么走,你只需要給它一個終點。

不過短板同樣存在。

前端設計仍然不如Opus,響應速度不如Opus 4.6 Fast。


復雜布局有時候直接甩一張img了事,SVG硬編碼把自己繞暈。

而且變得過度謹慎——動不動就問你問題,prompt稍有不慎就會觸發「瘋狂寫單元測試」模式。

總結就是:能力很強,但需要馴服。

沃頓商學院的教授Ethan Mollick測試了GPT-5.5好幾周,得出結論:目前,GPT-5.5 Pro就是解決復雜問題的最佳模型。


更貴的模型,怎么反而更便宜

GPT-5.5的定價比5.4更高。


紙面上看不是好消息。

但一位深度測試兩周的開發者給出了關鍵數據:達到GPT-5.4同等智能水平,GPT-5.5消耗的Token顯著更少。綜合算下來,整體運行成本反而更低。

「這可能比大多數人意識到的更重要。」


在Artificial Analysis指數的成本性能前沿上,GPT-5.5模型系列占據絕對主導地位。


速度端的提升,就更加直觀了。

早期測試者的實測數據擺在這里——

GPT-5.5 Thinking Heavy模式,2分鐘出的答案,比GPT-5.4 Thinking Heavy花10分鐘出的更好。

GPT-5.5 Pro,8分鐘的輸出質量,超過GPT-5.4 Pro花30分鐘的結果。

同樣的活,時間砍了80%,質量還漲了。

Token效率這件事為什么重要?因為它直接決定了AI Agent的經濟可行性。

一個每跑一次任務就燒掉幾美元Token的模型,沒法大規模部署到真實工作流里。現在,GPT-5.5把這個門檻往下壓了一大截。


為什么GPT-5.5感覺不一樣?

GPT-5.5建立在一次新的預訓練(pre-train)之上。

所謂預訓練,就是那種規模龐大、成本高昂的基礎訓練過程:在指令微調、工具使用和推理腳手架等后訓練步驟加入之前,它先教會基礎模型底層模式。

后訓練可以讓模型更聽話、更安全,或者更具智能體能力;但一次新的預訓練,則可能改變模型本身的「重心」。

其實,OpenAI已經通過GPT-5.4證明,自己重新具備了強競爭力。

GPT-5.4使用的仍然是早期GPT-5.x模型的同一套預訓練。

而現在發布一個新的預訓練。


此外,有國外科技媒體報道,GPT-5.5也就是Spud「將是更智能的預訓練模型」。


現在,GPT-5.5的正式發布,更貴反而更便宜,編程效果又好得出奇,推測GPT-5.5可能只是新預訓練模型的初始強化學習Checkpoint。


奧特曼直接攤牌了:GPT-5.5還會快速迭代。


這說明OpenAI想繼續向Anthropic施壓:它押注的是,回應Claude的下一步,不只是圍繞同一個底座做更好的腳手架,而是換一個不同的基礎模型。

GPT-5.5就是GPT-5.5,但無人關心了

整個GPT-5.5發布中,最重要的成果可能是前所未有的網絡安全能力:

在一次網絡攻防評估中,GPT-5.5在10次試驗中有1次成功接管了模擬的企業網絡,預算為1億個token。


此前,唯一能夠完成此任務的模型Claude Mythos,它在10次嘗試中成功了3次。

Opus 4.6和Opus 4.7都做不到,GPT-5.4、GPT-5.3-Codex也做不到。

在衡量AI長時間跨度內經營業務能力的Vending-Bench Arena中,GPT-5.5再次擊敗Opus 4.7。


而Opus 4.7依舊延續Opus 4.6的策略:撒謊賴賬,拒不退貨;GPT-5.5贏得堂堂正正。

這說明GPT的對齊和能力同步提升,堪稱「德才兼備、文武雙全」。


GPT終于通關《寶可夢》!


GPT-5.4曾在一個循環迷宮里反復讀檔,像個陷入算法死循環的孤魂。

而GPT-5.5不僅第一次嘗試就輕松打贏了勁敵,甚至展現出真正的「人類邏輯」——它會主動拿取道具、購物、規劃路徑,而不是暴力試錯。

在網友定制的超級難度的《寶可夢 水晶》中,GPT-5.5依舊輕松通關。


別被版本號里的「+0.1」騙了,GPT-5.5是一次重大更新。

詭異的是,對于99%的用戶而言,這些都不重要。

最重要的亮點在于能力范圍。GPT-5.5彌補了GPT系列在某些方面的不足:

基于現有上下文進行設計、iOS/原生Mac應用、安全等方面。


這次發布有一種心理上很奇怪的地方。

GPT-5感覺像一次相變,因為它抬高了「可能性」的天花板。

GPT-5.3-Codex感覺像一次相變,因為它讓長時間運行的自主工程在操作層面變得真實可用。

GPT-5.5并非如此。

它更像把粗糙邊緣磨平,讓薄弱類別不再那么弱,讓模型在更多真實世界的混亂工作中變得更有用。

它并不完美,它沒有突然變成最好的設計模型,它不是魔法。

如果你想認真完成重要工作,你仍然需要給它明確目標、真實上下文和驗證方式。

對大多數人、在大多數任務上,GPT-5.5與其說是一種全新能力,不如說是讓現有能力變得更寬、更安全、更可靠。它把這個模型補圓了。

參考資料:

https://x.com/nicochristie/status/2047476237464211721

https://x.com/MatthewBerman/status/2047375703516361174

https://www.oneusefulthing.org/p/sign-of-the-future-gpt-55

https://www.reddit.com/r/singularity/comments/1sttcbf/is_the_ai_subscription_bubble_starting_to_crack/

https://x.com/ArtificialAnlys/status/2047378419282034920

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
2009年以17萬做局,騙走乾隆真跡轉賣8700萬的專家,結局大快人心

2009年以17萬做局,騙走乾隆真跡轉賣8700萬的專家,結局大快人心

談史論天地
2026-04-03 14:20:03
A股:剛剛,三大利空重磅落地!周一A股迎關鍵變盤,兩類人要睡不著了

A股:剛剛,三大利空重磅落地!周一A股迎關鍵變盤,兩類人要睡不著了

股市皆大事
2026-04-26 09:35:52
驚天內幕!1984年中美黑鷹交易只交付24架,真相竟是戰略失誤!

驚天內幕!1984年中美黑鷹交易只交付24架,真相竟是戰略失誤!

人生錄
2026-04-25 15:13:17
麻六記正式登陸日本!新宿首店聘店長,年薪最高可達1400萬日元

麻六記正式登陸日本!新宿首店聘店長,年薪最高可達1400萬日元

東瀛萬事通
2026-04-25 22:42:09
美JDAM-LR測試成功,射程超俄版6倍,成本降90%

美JDAM-LR測試成功,射程超俄版6倍,成本降90%

咸魚金腦袋
2026-04-25 20:22:31
霍爾木茲戰火下,中東客商涌進北京車展搶貨:劃掉“豐田”們,狂訂中國車

霍爾木茲戰火下,中東客商涌進北京車展搶貨:劃掉“豐田”們,狂訂中國車

每日經濟新聞
2026-04-25 18:33:41
內塔被上百國通緝,中方打破沉默,在安理會出手,明牌清算以色列

內塔被上百國通緝,中方打破沉默,在安理會出手,明牌清算以色列

軒逸阿II
2026-04-26 08:44:53
60歲老人,怕被女兒拔管

60歲老人,怕被女兒拔管

中國新聞周刊
2026-04-25 18:56:24
27+10+92.2%!效率逆天!最可怕的是,他連球隊老三都算不上

27+10+92.2%!效率逆天!最可怕的是,他連球隊老三都算不上

阿浪的籃球故事
2026-04-25 16:01:55
現代級魔改,估計俄羅斯娘家也看傻眼了吧

現代級魔改,估計俄羅斯娘家也看傻眼了吧

三叔的裝備空間
2026-04-24 23:53:16
沒得談了?伊朗列出美方罪狀,巴鐵大將致電特朗普,送出一句忠告

沒得談了?伊朗列出美方罪狀,巴鐵大將致電特朗普,送出一句忠告

兵說
2026-04-25 08:30:08
俄羅斯專家:美國所有總統都知道打伊朗的后果,只有特朗普不知道

俄羅斯專家:美國所有總統都知道打伊朗的后果,只有特朗普不知道

揭秘歷史的真相
2026-04-23 21:03:05
國乒男團名單敲定!關鍵二號位確定,王皓布陣高明球迷直呼穩了

國乒男團名單敲定!關鍵二號位確定,王皓布陣高明球迷直呼穩了

小徐講八卦
2026-04-25 10:20:20
烏度卡狂噴小賈有理?致命失誤+為絕平詹推開申京 1.22億真沒壓價

烏度卡狂噴小賈有理?致命失誤+為絕平詹推開申京 1.22億真沒壓價

顏小白的籃球夢
2026-04-26 07:13:20
4月25日俄烏最新:普京受邀參加G20峰會?

4月25日俄烏最新:普京受邀參加G20峰會?

西樓飲月
2026-04-25 16:23:16
事態升級,中方開打第二波反擊,高市或突然辭職,石破茂已扛旗

事態升級,中方開打第二波反擊,高市或突然辭職,石破茂已扛旗

浪子阿邴聊體育
2026-04-25 10:21:50
昆明長水國際機場內多處漏水,機場客服:正在搶修

昆明長水國際機場內多處漏水,機場客服:正在搶修

極目新聞
2026-04-25 11:40:00
三星長公主前夫:離婚拿了8370萬揮霍一空,和巫女女友淪為階下囚

三星長公主前夫:離婚拿了8370萬揮霍一空,和巫女女友淪為階下囚

照見古今
2026-04-22 18:42:23
福建永安保安扇女車主耳光事件最新:警方認定來了,全網熱議

福建永安保安扇女車主耳光事件最新:警方認定來了,全網熱議

老貓觀點
2026-04-25 07:31:06
后背發涼!一月入3萬36歲女高管,失業8個月加離婚,如今送外賣了

后背發涼!一月入3萬36歲女高管,失業8個月加離婚,如今送外賣了

火山詩話
2026-01-02 19:14:41
2026-04-26 10:39:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15064文章數 66806關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

牛彈琴:伊朗放了美國人鴿子 特朗普被氣壞了

頭條要聞

牛彈琴:伊朗放了美國人鴿子 特朗普被氣壞了

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

手機
旅游
家居
公開課
軍事航空

手機要聞

小米15解鎖工具流出,8750機型通吃,但我卻不建議折騰!

旅游要聞

非遺流量變消費增量 “馬上入川·蜀你好玩”第二季四川中江啟動

家居要聞

自然肌理 溫潤美學

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗總統:不會在壓力、威脅下進行談判

無障礙瀏覽 進入關懷版