網易首頁 > 網易號 > 正文 申請入駐

GPT-5.4 到底變強了多少?三大核心能力+電腦操控Codex上手實測!

0
分享至


大數據文摘受權轉載自夕小瑤科技說

上周,GPT-5.4 發了。意圖非常明顯,直指 Claude Opus4.6 和 Gemini 3.1 Pro。

2 月 5 日,Claude Opus 4.6 發了。2 月 19 日,Gemini 3.1 Pro 發了。OpenAI 被輪流摁了整整一個月。3 月 5 日,GPT-5.4 來了。

我一看成績,強得沒邊兒了。


但跑分這個東西,放一起才見真章。我把(省流版)御三家的三款旗艦模型的發布時間、能力、價格放在一起看:


僅從數據上看,編程被 Anthropic 壓制,推理被 Google 領跑,價格卡在中間。


整張表里最亮眼的成績就是,「知識工作」和「原生計算機操控」,也是這次 GPT-5.4 的亮點。

知識工作,可以看 GDPval 的表現。GDPval 跑了 44 種真實職業場景,GPT-5.4 在 83% 的比較里能和行業專業人員持平甚至超越,所以切的企業最容易買單的能力。

原生計算機操控,這是整張表里最亮眼的成績。

GPT-5.4 是 OpenAI 首個具備原生計算機使用能力的通用模型,也是第一個在桌面自主操作任務上超越人類專家表現的模型。

OSWorld 桌面操控成功率 75%,官方說超過人類平均水平 72.4%。既能寫 Playwright 代碼來操作電腦,也能直接通過截圖發出鼠標鍵盤指令。

光看數據沒意思,得試。

但從 5.1 之后我一怒之下退訂了 ChatGPT 后,到現在都沒有續回去,這次測試就選擇把可信的三方 API,接入 Codex。

既然官方最吹的就是電腦操控,那就先從這開刀。

我先想了個騷操作:讓它通過 Codex 啟動另一個 Codex,指揮第二個 Codex 去打開瀏覽器搜東西。Codex 操控 Codex,套娃。

結果,它一沖瞎劃了。

它還沒敲回車呢,就把后面要搜的內容輸進去了,整個命令混成一坨,直接報錯。

算了算了,廢了。


那就降低難度。讓它打開桌面上的 Edge 瀏覽器,進 OpenAI 的博客頁面。這個簡單任務倒是順利完成了,也沒調用什么第三方瀏覽器庫,直接操控的系統。

先不做評論,畢竟是 75% 超越人類的計算機操控。

這里插一嘴,Codex 這個殼我其實一直不太習慣,終端味太重,看著也丑。后來按照大佬給的方法,在 cc switch 里把 GPT-5.4 模型配到了 Claude Code 里面。這下界面好看了,但體驗還是怪怪的。


怎么說呢,用 Claude Code 跑 Claude 的時候,你說一句它馬上理解,然后動手,很流暢。

換成 GPT-5.4 之后,反饋周期明顯長一截,它會到關鍵節點才反饋一次,中間那段時間你就干等著,不知道它在想什么。

算了這些都只是殼。我在意的,還是它到底能不能出活。于是我打開 Codex 終端,上正經任務。

一共三個大任務,覆蓋了深度知識工作、高階編程和調試、電腦操控三個核心維度。

任務一:262 萬行數據,10 分鐘出報告

請幫我完成以下電腦操作:(1)打開瀏覽器,訪問 data.gov,下載"Consumer Complaint Database"的最新 CSV 數據集;(2)用本地 Python 打開這個文件;(3)進行數據清洗——去重、處理缺失值、標準化日期格式;(4)生成一份包含 5 個圖表的分析報告(投訴趨勢、公司排名、產品分類、州分布熱力圖、處理時效分布);(5)把報告保存為 PDF。全程用電腦操控完成,不要只給我代碼。  

這是一個比較復雜的專業數據分析流程。

這次,GPT-5.4 上來就踩坑了。data.gov 官方那個"Download all complaint data"鏈接,下下來一解壓,就一行表頭,286 字節。數據呢?


他判斷出這個下載鏈接有問題,于是主動切換到了 CFPB 的官方開放 API,分塊把完整數據拉了下來。

我依稀記得,以前的 GPT 遇到這種情況,會硬著頭皮處理那個空文件。。自己想到換方案,變聰明了。

最終成績,262 萬多行數據,清洗后保留 262 萬多行,跳過 1 條缺失 ID 的壞尾行;缺失值補了 600 多萬個;日期全變成 YYYY-MM-DD;5 張圖和 6 頁 PDF 報告全部出完。

整個過程大約 10 分鐘。

還可以。

任務二:2w 行代碼

第二個任務,我扔給它一個真實的桌面項目,PySide6 寫的,20000 多行,把小說生成、新聞批量處理、AI 編輯器、熱榜預覽、作品管理等功能全堆在一起。

我讓 codex 做三件事:

  • 畫出完整函數調用關系圖、

  • 找出性能瓶頸最大的 3 個函數,

  • 再順手判斷一下原作者是什么風格的程序員。

Mermaid 調用圖它畫出來了,從 main.py 入口到各個子模塊的信號槽連接,層次還挺清楚的。



性能瓶頸的分析也讓我比較服氣。它定位到了三個函數,確實都是我為了讓系統不崩潰做的超級冗余。


還有作者風格判斷,它的結論是,不是那種特別講究潔癖式分層的基礎設施工程師。好像有點馬屁,其實沒有。。


GPT-5.4 看代碼,已經不只是“看函數”,而是開始“看人”了。它能順著代碼,反推出作者的工作方式、取舍習慣、甚至一點點性格傾向。

由此判斷,代碼能力算是穩的,至少算中層。GPT-5.4 的編程能力配合它的知識工作能力用,是加分項。單獨拿出來,沒贏面。

任務三:數學建模國賽 C 題

前兩個任務,一個偏知識流程,一個偏工程。

第三個任務,我想看它在“高復雜度、長鏈條、強約束”的場景里,到底能頂到哪。

所以我直接把它拉去做 2024 年數學建模國賽 C 題,54 個地塊,7 年規劃,41 種作物,要考慮輪作、土地適應性、市場波動、超產滯銷,最后還要形成完整論文。


這個任務也最能暴露它的上限。

因為它不是某一個點上難,而是每一步都容易出小錯:讀題、抽象、建模、寫代碼、跑優化、生成論文、處理公式、處理文件、處理中文路徑,哪一步都能翻。

GPT-5.4 確實搭了個 PuLP 的混合整數線性規劃模型,也確實把論文骨架搭出來了:摘要、問題重述、假設、符號說明、建模、求解、結果分析、模型評價,樣樣不少。

但中間它被 Windows PowerShell 的中文編碼狠狠干了幾次。中文文件名讀不進去,“完整論文.md”寫不進去,“附件 1.xlsx”也找不到,LaTeX 公式里的\right還被換行吃掉了。它最后是靠把文件名全改成 ASCII,才把流程跑通。

有意思,真正折磨模型的,還真不是 benchmark 上那道最難的題,是現實環境里那些又臟又碎的坑啊!

所以這一項給我的感覺很明確,GPT-5.4 可以把這種大活先搭到 70 分,甚至能把最煩的前半段干掉;但離“直接交卷拿高分”還有距離,中間隔著一堆細節層面的破事。

你要的是一個能跑起來的框架,它可以。你要的是一篇非常漂亮的競賽論文,還得自己往上抬,至少要自己教它方法、配個 skill。

跑完這三個任務,我對 GPT-5.4 的判斷也慢慢清楚了:代碼能力很強、人感不錯,但操作計算機的能力好像離預期差一點至少套娃還差一點。

至于 5.4pro,網上已經有人開始拿它開涮了。

比如 Daniel Nguyen 發的那個圖就很典型:有人問 GPT-5.4 Pro,“How do I install CUDA 12.1 on Ubuntu 24.04?”


它想了 69 分 42 秒,最后回了一句:“You can’t.”

我自己也測了一下 Pro。讓它扮演一個 20 年經驗的 AI 行業獵頭,對 Sam Altman 進行一場“GPT-5.4 產品經理”崗位的壓力面試。

它想了 22 分鐘 46 秒。



出來的東西說實話有點壓力。這個質量,確實不是普通版能給的。你能明顯感覺到,Pro 在一些高要求、高壓縮、高質量輸出的場景里,確實更像“高級腦力勞動者”。但代價嘛...


Pro 版輸出 180 美元/百萬 token,是 Claude 的 7.2 倍。之前有人對它說了句"Hi"就燒掉 80 美元,我這次一個面試題想了 22 分鐘,賬單也不敢細看。

所以問題來了。

如果未來兩個季度,你只能讓 GPT-5.4 在一個維度形成“不可逆的用戶心智占領”,你會押哪一個?

A. 長周期 agent 任務完成率
B. 高價值知識工作的“可直接簽字”輸出率
C. 跨文檔、跨應用、跨工具的上下文連續性
D. 單位任務成本

評論區告訴我答案,我挑幾個最狠的回答,整理一下,轉達給 GPT-5.4 Pro。

你覺得 GPT5.4 的能力到哪了?

GPU 訓練特惠!

H100/H200 GPU算力按秒計費,平均節省開支30%以上!

掃碼了解詳情?

點「贊」的人都變好看了哦!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
馬鞍山一中學多名學生研學就餐后腹痛腹瀉,官方:涉事酒店停業整頓

馬鞍山一中學多名學生研學就餐后腹痛腹瀉,官方:涉事酒店停業整頓

界面新聞
2026-04-23 21:01:05
“撞車啦”! 中超第8輪CCTV直播北京國安 海港都是同個時間段

“撞車啦”! 中超第8輪CCTV直播北京國安 海港都是同個時間段

80后體育大蜀黍
2026-04-23 11:04:00
違建一年未拆!深圳一街道辦凍結涉事房產引質疑,街道回應

違建一年未拆!深圳一街道辦凍結涉事房產引質疑,街道回應

南方都市報
2026-04-23 20:48:22
王子文和王朔未婚生子的瓜!

王子文和王朔未婚生子的瓜!

八卦瘋叔
2026-04-23 11:10:22
梅德韋杰夫終結阿爾卡拉斯16連勝:一場遲到的復仇

梅德韋杰夫終結阿爾卡拉斯16連勝:一場遲到的復仇

綠茵狂熱者
2026-04-23 15:04:40
14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

阿訊說天下
2026-04-18 11:52:55
梅西也八卦?埃雷拉:內馬爾派對上,我們想下樓看熱鬧被老婆攔下

梅西也八卦?埃雷拉:內馬爾派對上,我們想下樓看熱鬧被老婆攔下

星耀國際足壇
2026-04-23 14:38:09
阿瑪尼官宣!是臺州姑娘李云霄

阿瑪尼官宣!是臺州姑娘李云霄

陳意小可愛
2026-04-22 04:46:09
萬科執行副總裁全身而退

萬科執行副總裁全身而退

地產微資訊
2026-04-23 20:06:56
美剛宣布 "大勝",伊朗就從地下挖出整個“司令部”,白宮懵了

美剛宣布 "大勝",伊朗就從地下挖出整個“司令部”,白宮懵了

新動察
2026-04-22 10:12:07
朝鮮半島生變,美“謊言”不攻自破

朝鮮半島生變,美“謊言”不攻自破

烽火瞭望者
2026-04-23 19:49:23
烏度卡拒擔責引休媒炮轟:史無前例慘敗 遠遜JJ無戰術 該被解雇

烏度卡拒擔責引休媒炮轟:史無前例慘敗 遠遜JJ無戰術 該被解雇

顏小白的籃球夢
2026-04-23 07:25:20
河北一轎車斑馬線撞飛2人后掉頭再次沖撞傷者,周邊商家:肇事司機未逃離當場被控制

河北一轎車斑馬線撞飛2人后掉頭再次沖撞傷者,周邊商家:肇事司機未逃離當場被控制

極目新聞
2026-04-22 15:36:21
51歲國足名宿:曾是上海申花隊長,退役定居美國,今回國當主教練

51歲國足名宿:曾是上海申花隊長,退役定居美國,今回國當主教練

以茶帶書
2026-04-23 16:10:52
重磅官宣!水官高速4月25日24時起停止收費

重磅官宣!水官高速4月25日24時起停止收費

南方都市報
2026-04-23 16:44:13
聯手圍剿特朗普?四大前總統齊聚費城,美國撕裂真相藏不住了

聯手圍剿特朗普?四大前總統齊聚費城,美國撕裂真相藏不住了

真正能保護你的
2026-04-23 23:43:58
同事借我車去青海,我提前把ETC卡拔了,2小時后他從收費站來電了

同事借我車去青海,我提前把ETC卡拔了,2小時后他從收費站來電了

張道陵秘話
2026-04-11 16:37:21
湖南男子買煙炫富,致使一家三口被滅,2歲兒子在遺體邊躺了兩天

湖南男子買煙炫富,致使一家三口被滅,2歲兒子在遺體邊躺了兩天

莫地方
2026-04-24 00:10:03
窗戶紙捅破,生死局開啟?日本商界急得團團轉,對華提出一個請求

窗戶紙捅破,生死局開啟?日本商界急得團團轉,對華提出一個請求

歸史
2026-04-22 20:37:52
55歲"紙片人"魯豫,與小19歲男友同居后變樣,如今她令人大跌眼鏡

55歲"紙片人"魯豫,與小19歲男友同居后變樣,如今她令人大跌眼鏡

觀察鑒娛
2026-04-17 09:43:01
2026-04-24 01:11:00
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6852文章數 94541關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

媒體:海軍宣傳片出現的"新兵何劍" 傳遞了巨大信息量

頭條要聞

媒體:海軍宣傳片出現的"新兵何劍" 傳遞了巨大信息量

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

令人驚艷的奇瑞車 風云A9可不只是樣子貨

態度原創

藝術
本地
家居
教育
公開課

藝術要聞

吉達塔蓋到第100層,“它是沙特唯一能按期完成的大項目”

本地新聞

SAGA GIRLS 2026女團選秀

家居要聞

浪漫協奏 法式風格

教育要聞

家長讓老師給發電子版試卷,卻被老師指責派頭大,到底誰的問題?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版