大數據文摘受權轉載自夕小瑤科技說
上周,GPT-5.4 發了。意圖非常明顯,直指 Claude Opus4.6 和 Gemini 3.1 Pro。
2 月 5 日,Claude Opus 4.6 發了。2 月 19 日,Gemini 3.1 Pro 發了。OpenAI 被輪流摁了整整一個月。3 月 5 日,GPT-5.4 來了。
我一看成績,強得沒邊兒了。
![]()
但跑分這個東西,放一起才見真章。我把(省流版)御三家的三款旗艦模型的發布時間、能力、價格放在一起看:
![]()
僅從數據上看,編程被 Anthropic 壓制,推理被 Google 領跑,價格卡在中間。
![]()
整張表里最亮眼的成績就是,「知識工作」和「原生計算機操控」,也是這次 GPT-5.4 的亮點。
知識工作,可以看 GDPval 的表現。GDPval 跑了 44 種真實職業場景,GPT-5.4 在 83% 的比較里能和行業專業人員持平甚至超越,所以切的企業最容易買單的能力。
原生計算機操控,這是整張表里最亮眼的成績。
GPT-5.4 是 OpenAI 首個具備原生計算機使用能力的通用模型,也是第一個在桌面自主操作任務上超越人類專家表現的模型。
OSWorld 桌面操控成功率 75%,官方說超過人類平均水平 72.4%。既能寫 Playwright 代碼來操作電腦,也能直接通過截圖發出鼠標鍵盤指令。
光看數據沒意思,得試。
但從 5.1 之后我一怒之下退訂了 ChatGPT 后,到現在都沒有續回去,這次測試就選擇把可信的三方 API,接入 Codex。
既然官方最吹的就是電腦操控,那就先從這開刀。
我先想了個騷操作:讓它通過 Codex 啟動另一個 Codex,指揮第二個 Codex 去打開瀏覽器搜東西。Codex 操控 Codex,套娃。
結果,它一沖瞎劃了。
它還沒敲回車呢,就把后面要搜的內容輸進去了,整個命令混成一坨,直接報錯。
算了算了,廢了。
![]()
那就降低難度。讓它打開桌面上的 Edge 瀏覽器,進 OpenAI 的博客頁面。這個簡單任務倒是順利完成了,也沒調用什么第三方瀏覽器庫,直接操控的系統。
先不做評論,畢竟是 75% 超越人類的計算機操控。
這里插一嘴,Codex 這個殼我其實一直不太習慣,終端味太重,看著也丑。后來按照大佬給的方法,在 cc switch 里把 GPT-5.4 模型配到了 Claude Code 里面。這下界面好看了,但體驗還是怪怪的。
![]()
怎么說呢,用 Claude Code 跑 Claude 的時候,你說一句它馬上理解,然后動手,很流暢。
換成 GPT-5.4 之后,反饋周期明顯長一截,它會到關鍵節點才反饋一次,中間那段時間你就干等著,不知道它在想什么。
算了這些都只是殼。我在意的,還是它到底能不能出活。于是我打開 Codex 終端,上正經任務。
一共三個大任務,覆蓋了深度知識工作、高階編程和調試、電腦操控三個核心維度。
任務一:262 萬行數據,10 分鐘出報告
請幫我完成以下電腦操作:(1)打開瀏覽器,訪問 data.gov,下載"Consumer Complaint Database"的最新 CSV 數據集;(2)用本地 Python 打開這個文件;(3)進行數據清洗——去重、處理缺失值、標準化日期格式;(4)生成一份包含 5 個圖表的分析報告(投訴趨勢、公司排名、產品分類、州分布熱力圖、處理時效分布);(5)把報告保存為 PDF。全程用電腦操控完成,不要只給我代碼。
這是一個比較復雜的專業數據分析流程。
這次,GPT-5.4 上來就踩坑了。data.gov 官方那個"Download all complaint data"鏈接,下下來一解壓,就一行表頭,286 字節。數據呢?
![]()
他判斷出這個下載鏈接有問題,于是主動切換到了 CFPB 的官方開放 API,分塊把完整數據拉了下來。
我依稀記得,以前的 GPT 遇到這種情況,會硬著頭皮處理那個空文件。。自己想到換方案,變聰明了。
最終成績,262 萬多行數據,清洗后保留 262 萬多行,跳過 1 條缺失 ID 的壞尾行;缺失值補了 600 多萬個;日期全變成 YYYY-MM-DD;5 張圖和 6 頁 PDF 報告全部出完。
整個過程大約 10 分鐘。
還可以。
任務二:2w 行代碼
第二個任務,我扔給它一個真實的桌面項目,PySide6 寫的,20000 多行,把小說生成、新聞批量處理、AI 編輯器、熱榜預覽、作品管理等功能全堆在一起。
我讓 codex 做三件事:
畫出完整函數調用關系圖、
找出性能瓶頸最大的 3 個函數,
再順手判斷一下原作者是什么風格的程序員。
Mermaid 調用圖它畫出來了,從 main.py 入口到各個子模塊的信號槽連接,層次還挺清楚的。
![]()
![]()
性能瓶頸的分析也讓我比較服氣。它定位到了三個函數,確實都是我為了讓系統不崩潰做的超級冗余。
![]()
還有作者風格判斷,它的結論是,不是那種特別講究潔癖式分層的基礎設施工程師。好像有點馬屁,其實沒有。。
![]()
GPT-5.4 看代碼,已經不只是“看函數”,而是開始“看人”了。它能順著代碼,反推出作者的工作方式、取舍習慣、甚至一點點性格傾向。
由此判斷,代碼能力算是穩的,至少算中層。GPT-5.4 的編程能力配合它的知識工作能力用,是加分項。單獨拿出來,沒贏面。
任務三:數學建模國賽 C 題
前兩個任務,一個偏知識流程,一個偏工程。
第三個任務,我想看它在“高復雜度、長鏈條、強約束”的場景里,到底能頂到哪。
所以我直接把它拉去做 2024 年數學建模國賽 C 題,54 個地塊,7 年規劃,41 種作物,要考慮輪作、土地適應性、市場波動、超產滯銷,最后還要形成完整論文。
![]()
這個任務也最能暴露它的上限。
因為它不是某一個點上難,而是每一步都容易出小錯:讀題、抽象、建模、寫代碼、跑優化、生成論文、處理公式、處理文件、處理中文路徑,哪一步都能翻。
GPT-5.4 確實搭了個 PuLP 的混合整數線性規劃模型,也確實把論文骨架搭出來了:摘要、問題重述、假設、符號說明、建模、求解、結果分析、模型評價,樣樣不少。
但中間它被 Windows PowerShell 的中文編碼狠狠干了幾次。中文文件名讀不進去,“完整論文.md”寫不進去,“附件 1.xlsx”也找不到,LaTeX 公式里的\right還被換行吃掉了。它最后是靠把文件名全改成 ASCII,才把流程跑通。
有意思,真正折磨模型的,還真不是 benchmark 上那道最難的題,是現實環境里那些又臟又碎的坑啊!
所以這一項給我的感覺很明確,GPT-5.4 可以把這種大活先搭到 70 分,甚至能把最煩的前半段干掉;但離“直接交卷拿高分”還有距離,中間隔著一堆細節層面的破事。
你要的是一個能跑起來的框架,它可以。你要的是一篇非常漂亮的競賽論文,還得自己往上抬,至少要自己教它方法、配個 skill。
跑完這三個任務,我對 GPT-5.4 的判斷也慢慢清楚了:代碼能力很強、人感不錯,但操作計算機的能力好像離預期差一點至少套娃還差一點。
至于 5.4pro,網上已經有人開始拿它開涮了。
比如 Daniel Nguyen 發的那個圖就很典型:有人問 GPT-5.4 Pro,“How do I install CUDA 12.1 on Ubuntu 24.04?”
![]()
它想了 69 分 42 秒,最后回了一句:“You can’t.”
我自己也測了一下 Pro。讓它扮演一個 20 年經驗的 AI 行業獵頭,對 Sam Altman 進行一場“GPT-5.4 產品經理”崗位的壓力面試。
它想了 22 分鐘 46 秒。
![]()
![]()
出來的東西說實話有點壓力。這個質量,確實不是普通版能給的。你能明顯感覺到,Pro 在一些高要求、高壓縮、高質量輸出的場景里,確實更像“高級腦力勞動者”。但代價嘛...
![]()
Pro 版輸出 180 美元/百萬 token,是 Claude 的 7.2 倍。之前有人對它說了句"Hi"就燒掉 80 美元,我這次一個面試題想了 22 分鐘,賬單也不敢細看。
所以問題來了。
如果未來兩個季度,你只能讓 GPT-5.4 在一個維度形成“不可逆的用戶心智占領”,你會押哪一個?
A. 長周期 agent 任務完成率
B. 高價值知識工作的“可直接簽字”輸出率
C. 跨文檔、跨應用、跨工具的上下文連續性
D. 單位任務成本
評論區告訴我答案,我挑幾個最狠的回答,整理一下,轉達給 GPT-5.4 Pro。
你覺得 GPT5.4 的能力到哪了?
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
點「贊」的人都變好看了哦!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.