網易首頁 > 網易號 > 正文 申請入駐

剛發布就落伍!DeepSeek V4竟坦承不如GPT-5.4

0
分享至

2026年4月24日,全球AI行業迎來一個足以載入史冊的日子。

中國AI公司DeepSeek正式發布全新系列模型DeepSeek-V4預覽版并同步開源,總參數高達1.6萬億。而同一天,OpenAI發布的新一代旗艦模型GPT-5.5,API定價飆升至每百萬Token輸出30美元,是前代的三倍。



一邊是“開源普惠、成本重構”,另一邊是“性能登頂、價格翻倍”。同一天的隔空對撞,徹底將AI行業撕裂為兩條完全不同的道路。

這不是巧合,這是一場蓄謀已久的路線攤牌。

01

參數對決

1.6萬億MoE架構的降維打擊

DeepSeek-V4此次推出Pro和Flash兩個版本:DeepSeek-V4-Pro總參數1.6萬億、激活參數49B;DeepSeek-V4-Flash總參數284B、激活參數13B,均原生支持100萬token上下文。

架構上,V4采用了DSA2注意力機制,融合了DeepSeek V3/R1中已驗證的DSA設計與今年初論文中提出的NSA稀疏注意力方案。混合專家系統(MoE)啟用Mega內核結構,每層配置384個專家,每次推理激活其中6個。



這套架構的直接效果是驚人的效率突破——在100萬上下文設置下,V4-Pro的單token推理FLOPs只有前代V3.2的27%,KV Cache只有10%;V4-Flash更極端,分別壓到10%和7%。

這意味著,DeepSeek做了一個大膽的選擇:不拼絕對性能的“越級”,而是把超長上下文的計算成本打穿到極致。官方自己承認,V4的能力水平發展軌跡大約滯后前沿閉源模型3至6個月。但這句話背后隱藏的真實意圖是——當別人在堆性能時,我在拆成本。

而GPT-5.5則在另一條賽道上狂奔。在Terminal-Bench 2.0這項測試復雜命令行工作流的硬核基準中,GPT-5.5得分82.7%,不僅碾壓前代GPT-5.4的75.1%,更將最強競品Claude Opus 4.7的69.4%拉開了超13個百分點。在評估44種職業知識工作能力的GDPval中,GPT-5.5在84.9%的任務中達到或超過行業專家水平。



但注意,DeepSeek V4技術報告公開的對比對手,是GPT-5.4、Opus 4.6,并不含同一天發布的GPT-5.5。在這場同臺競技中,V4的對手已經不是最新一代,真正的差距還需要第三方評測來驗證。

02

30美元 vs 1元錢

AI的階級分裂

如果說參數是武器,價格就是那道真正的撕裂線。

GPT-5.5的API定價為每百萬Token輸入5美元、輸出30美元,GPT-5.5 Pro更是高達輸入30美元、輸出180美元,比GPT-5.4翻了三倍。OpenAI總裁Greg Brockman的辯解是:雖然單價漲了,但GPT-5.5完成相同任務所需Token數量大幅減少,完成相同智能水平任務時綜合成本反而下降約40%。



再看DeepSeek V4:Flash版本1元/百萬Token(緩存未命中),輸出僅需2元;Pro版本也不過12元/百萬Token輸入、24元輸出。按當前匯率簡單換算,GPT-5.5 Pro的輸出價格約是DeepSeek V4-Pro的50倍以上。

這不是價格差異,這是階層分化。

OpenAI選擇了“奢侈品路線”——讓最先進的技術先服務于能付得起錢的企業級客戶。NVIDIA GB200 NVL72系統上部署GPT-5.5后,百萬Token成本確實降到了前代的1/35,但這個降幅的受益方是英偉達內部,不是普通開發者。

DeepSeek則選擇了一條完全相反的路線——開源權重、全量模型可下載,1M上下文成為所有官方服務的標配。不需要依賴特定硬件,不需要支付天價Token費。"普惠"這個詞,DeepSeek是認真的。

03

誰才是真正的“打工人替代者”

如果說價格是用戶的選擇題,Agent能力就是技術路線的最終驗收場。

GPT-5.5的核心定位是“面向真實工作的新型智能”,最大的突破在于Agent能力——用戶無需精細管理每一步,只需下達模糊的多部分任務,模型即可自主規劃、調用工具、檢查結果并持續推進直至完成。



英偉達一位內測工程師的說法極具沖擊力:“失去GPT-5.5的訪問權限,就像被截肢。”這不是公關話術,這是一線開發者的真實反饋。Cursor CEO Michael Truell也給出了實測評價:“GPT-5.5比GPT-5.4明顯更聰明、更持續,對于復雜、長時間運行的任務,它能堅持到底不中途停下。”

而在Agent這條賽道上,DeepSeek V4同樣沒有缺席。V4-Pro在Agentic Coding評測中已達到當前開源模型最佳水平,使用體驗優于Sonnet 4.5,交付質量接近Opus 4.6非思考模式。V4還針對Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent產品進行了專項適配和優化。



但差距也是明擺著的。在Terminal-Bench 2.0 Agent任務中,V4-Pro得分67.9%,低于Gemini 3.1 Pro的68.5%,與GPT-5.5的82.7%差距更是一目了然。

一位行業觀察者的判斷精準而殘酷:“GPT-5.5從模型層面改進了智能體最核心的幾個特征——理解目標、拆解步驟、調用工具、修正過程,并最終交付結果。每一項都不是全新能力,但被放到同一個系統里之后,體驗開始發生變化。”

這句話翻譯過來就是:DeepSeek把Agent的基礎設施鋪好了,但GPT-5.5已經跑在上面的成品賽道上了。

04

開源 vs 閉源

一場沒有回頭路的路線分裂

這場同日對撞的本質,不是“誰更好”的比較題,而是“哪條路能走通”的路線之爭。

OpenAI的GPT-5.5走的是極致性能閉環。它與英偉達GB200/GB300 NVL72系統聯合設計,從訓練到部署,模型和硬件之間從誕生開始就“雙向奔赴”。NVIDIA內部已有超過10,000名員工率先使用,原本耗時數天的調試周期縮短至數小時,復雜多文件代碼庫的實驗周期從數周壓縮至一夜之間。



DeepSeek V4走的是開源生態擴張。模型權重全部公開,API兼容OpenAI ChatCompletions與Anthropic兩套標準,1M上下文向下兼容,全部模型可本地部署,對國產AI硬件(華為昇騰等)和NVIDIA Blackwell架構做了雙重優化。

這兩條路的選擇背后,藏著更深的地緣政治邏輯。DeepSeek V4在KnowYourSymbol評測中以96%領先GPT-5.4的95%和Gemini 2.5 Pro的92.8%,在中文語境和東方知識體系中的表現已展現獨到優勢。而OpenAI則深度綁定英偉達生態,Codex產品被推廣至英偉達全公司,奧爾特曼親自曬出了與黃仁勛的交流郵件。

這不是一場單純的產品競爭,這是兩種AI治理體系和產業生態的全面角力。

05

差距承認了,然后呢?

最有意思的,是DeepSeek這次罕見的“坦誠”。

官方技術報告中明確寫道:V4的能力水平仍落后GPT-5.4和Gemini-3.1-Pro。注意,這里說的甚至不是GPT-5.5,而是上一代的GPT-5.4。



這種公開“認輸”在AI行業極為罕見。但細看之下,這不是認輸,而是一種精妙的重置敘事——我承認我現在追不上你,但我要告訴你,追不上的那段路,我不跟你比了。

V4在長上下文成本上做到了極致,將百萬token推理的KV Cache降到了前代的10%,這種工程化突破的價值遠不止于“省內存”——它打開了允許模型在一個連續語境中讀完100萬本書、追蹤整個代碼倉庫歷史、處理一個企業全部會議紀要的技術通道。

GPT-5.5在智力上跑得更快,但GPT-5.5的400K上下文窗口背后,是每百萬Token 30美元的代價。DeepSeek的1M上下文背后,是1元錢的Flash版入門費。



“更聰明”需要更強算力、更貴硬件、更高單價。而“足夠聰明但更便宜”需要更極致的架構創新和工程優化。哪條路能走得更遠?行業里沒人有標準答案。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
女人發了情,是什么表現?

女人發了情,是什么表現?

加油丁小文
2026-04-25 12:00:09
新血糖標準已更新,空腹血糖最佳值不再是5.4,早干預更安心

新血糖標準已更新,空腹血糖最佳值不再是5.4,早干預更安心

健康科普365
2026-04-24 19:30:03
阿斯:巴薩全隊在酒店看皇馬比賽,貝萊林進絕平球后陷入狂歡

阿斯:巴薩全隊在酒店看皇馬比賽,貝萊林進絕平球后陷入狂歡

懂球帝
2026-04-25 10:11:10
牡丹花下死!汪峰官宣戀情才2年,森林北又走上了章子怡的老路

牡丹花下死!汪峰官宣戀情才2年,森林北又走上了章子怡的老路

落雪聽梅a
2026-04-24 07:58:40
烏克蘭清除全部庫皮揚斯克俄軍部隊!摧毀紅軍村通訊系統

烏克蘭清除全部庫皮揚斯克俄軍部隊!摧毀紅軍村通訊系統

項鵬飛
2026-04-24 12:48:43
伊朗國防部說伊朗已生產逾千種武器裝備

伊朗國防部說伊朗已生產逾千種武器裝備

界面新聞
2026-04-25 09:35:27
月薪1.6萬招放羊工老板:電話快被打爆了,更適合四五十歲的夫妻搭檔,一個人來的都拒絕了

月薪1.6萬招放羊工老板:電話快被打爆了,更適合四五十歲的夫妻搭檔,一個人來的都拒絕了

環球網資訊
2026-04-24 14:55:55
五指山艦女兵受訪“一問三不知”,沒被罵反被夸,真實原因太戳人

五指山艦女兵受訪“一問三不知”,沒被罵反被夸,真實原因太戳人

奇思妙想草葉君
2026-04-24 17:11:11
再見,曼聯!9000萬“大核”決定離隊!斥資2.4億簽下“新中軸”

再見,曼聯!9000萬“大核”決定離隊!斥資2.4億簽下“新中軸”

頭狼追球
2026-04-25 13:27:55
古爾曼:蘋果正研發MacBook Ultra,外觀重大升級、首搭OLED屏幕

古爾曼:蘋果正研發MacBook Ultra,外觀重大升級、首搭OLED屏幕

IT之家
2026-04-25 07:05:03
核風險升高!3艘俄艦被擊沉,局勢觸碰普京底線,美官員集體發聲

核風險升高!3艘俄艦被擊沉,局勢觸碰普京底線,美官員集體發聲

云上烏托邦
2026-04-22 20:08:41
突然被帶走調查:牢記“三不說、四不簽”,不吃虧、不踩坑

突然被帶走調查:牢記“三不說、四不簽”,不吃虧、不踩坑

匹夫來搞笑
2026-04-25 03:19:47
忠縣驚現特大謀殺案!副縣長辦公室內慘遭殺害,真相引人深思!

忠縣驚現特大謀殺案!副縣長辦公室內慘遭殺害,真相引人深思!

人生錄
2026-04-24 09:13:06
任天堂提醒您:吃灰的Switch別忘記充電

任天堂提醒您:吃灰的Switch別忘記充電

游民星空
2026-04-25 12:11:16
湖北一老人拿離世孩子手機去維修,稱里面有視頻想留個念想,獨臂店主拒絕收錢

湖北一老人拿離世孩子手機去維修,稱里面有視頻想留個念想,獨臂店主拒絕收錢

深圳晚報
2026-04-25 12:22:24
在俄羅斯社交平臺發“666”將被定性為極端主義,已有數人被罰!

在俄羅斯社交平臺發“666”將被定性為極端主義,已有數人被罰!

虔青
2026-04-24 15:14:28
眼紅啊!從年薪20萬到125萬,一上海交大碩士特斯拉6年收入345萬

眼紅啊!從年薪20萬到125萬,一上海交大碩士特斯拉6年收入345萬

火山詩話
2026-04-23 07:11:53
高瓴資本張磊:判斷一個人是否靠譜,關鍵看4個維度

高瓴資本張磊:判斷一個人是否靠譜,關鍵看4個維度

新浪財經
2026-04-20 01:51:52
瞞不下去了,真的需要徹查了!

瞞不下去了,真的需要徹查了!

胖胖說他不胖
2026-04-25 14:12:40
一周最少8次,54歲女子肛裂住院,丈夫哭訴:怎么勸她就是不聽!

一周最少8次,54歲女子肛裂住院,丈夫哭訴:怎么勸她就是不聽!

健康之光
2026-04-13 09:01:59
2026-04-25 15:27:00
電腦報少年派 incentive-icons
電腦報少年派
最新鮮的互聯網產業資訊
3922文章數 1602關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

"蚊子大軍"來襲北極圈也被攻破 各地疾控發出重要預警

頭條要聞

"蚊子大軍"來襲北極圈也被攻破 各地疾控發出重要預警

體育要聞

火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

娛樂要聞

鄧超最大的幸運,就是遇見孫儷

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

時尚
數碼
藝術
公開課
軍事航空

火了30年的off-duty,不費力,才是真本事

數碼要聞

3DMark macOS獨立版終于發布:不用蘋果商店、離線也能跑

藝術要聞

荒廢十多年!福建石獅“最美爛尾樓”,德國品牌接盤了

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美防長:戰事不會“沒完沒了”

無障礙瀏覽 進入關懷版