網易首頁 > 網易號 > 正文申請入駐

GPT-5.4 到底變強了多少？三大核心能力+電腦操控Codex上手實測！

2026-03-10 12:13:28　來源: 大數據文摘

北京舉報

分享至

大數據文摘受權轉載自夕小瑤科技說

上周，GPT-5.4 發了。意圖非常明顯，直指 Claude Opus4.6 和 Gemini 3.1 Pro。

2 月 5 日，Claude Opus 4.6 發了。2 月 19 日，Gemini 3.1 Pro 發了。OpenAI 被輪流摁了整整一個月。3 月 5 日，GPT-5.4 來了。

我一看成績，強得沒邊兒了。

但跑分這個東西，放一起才見真章。我把（省流版）御三家的三款旗艦模型的發布時間、能力、價格放在一起看：

僅從數據上看，編程被 Anthropic 壓制，推理被 Google 領跑，價格卡在中間。

整張表里最亮眼的成績就是，「知識工作」和「原生計算機操控」，也是這次 GPT-5.4 的亮點。

知識工作，可以看 GDPval 的表現。GDPval 跑了 44 種真實職業場景，GPT-5.4 在 83% 的比較里能和行業專業人員持平甚至超越，所以切的企業最容易買單的能力。

原生計算機操控，這是整張表里最亮眼的成績。

GPT-5.4 是 OpenAI 首個具備原生計算機使用能力的通用模型，也是第一個在桌面自主操作任務上超越人類專家表現的模型。

OSWorld 桌面操控成功率 75%，官方說超過人類平均水平 72.4%。既能寫 Playwright 代碼來操作電腦，也能直接通過截圖發出鼠標鍵盤指令。

光看數據沒意思，得試。

但從 5.1 之后我一怒之下退訂了 ChatGPT 后，到現在都沒有續回去，這次測試就選擇把可信的三方 API，接入 Codex。

既然官方最吹的就是電腦操控，那就先從這開刀。

我先想了個騷操作：讓它通過 Codex 啟動另一個 Codex，指揮第二個 Codex 去打開瀏覽器搜東西。Codex 操控 Codex，套娃。

結果，它一沖瞎劃了。

它還沒敲回車呢，就把后面要搜的內容輸進去了，整個命令混成一坨，直接報錯。

算了算了，廢了。

那就降低難度。讓它打開桌面上的 Edge 瀏覽器，進 OpenAI 的博客頁面。這個簡單任務倒是順利完成了，也沒調用什么第三方瀏覽器庫，直接操控的系統。

先不做評論，畢竟是 75% 超越人類的計算機操控。

這里插一嘴，Codex 這個殼我其實一直不太習慣，終端味太重，看著也丑。后來按照大佬給的方法，在 cc switch 里把 GPT-5.4 模型配到了 Claude Code 里面。這下界面好看了，但體驗還是怪怪的。

怎么說呢，用 Claude Code 跑 Claude 的時候，你說一句它馬上理解，然后動手，很流暢。

換成 GPT-5.4 之后，反饋周期明顯長一截，它會到關鍵節點才反饋一次，中間那段時間你就干等著，不知道它在想什么。

算了這些都只是殼。我在意的，還是它到底能不能出活。于是我打開 Codex 終端，上正經任務。

一共三個大任務，覆蓋了深度知識工作、高階編程和調試、電腦操控三個核心維度。

任務一：262 萬行數據，10 分鐘出報告

請幫我完成以下電腦操作：（1）打開瀏覽器，訪問 data.gov，下載"Consumer Complaint Database"的最新 CSV 數據集；（2）用本地 Python 打開這個文件；（3）進行數據清洗——去重、處理缺失值、標準化日期格式；（4）生成一份包含 5 個圖表的分析報告（投訴趨勢、公司排名、產品分類、州分布熱力圖、處理時效分布）；（5）把報告保存為 PDF。全程用電腦操控完成，不要只給我代碼。

這是一個比較復雜的專業數據分析流程。

這次，GPT-5.4 上來就踩坑了。data.gov 官方那個"Download all complaint data"鏈接，下下來一解壓，就一行表頭，286 字節。數據呢？

他判斷出這個下載鏈接有問題，于是主動切換到了 CFPB 的官方開放 API，分塊把完整數據拉了下來。

我依稀記得，以前的 GPT 遇到這種情況，會硬著頭皮處理那個空文件。。自己想到換方案，變聰明了。

最終成績，262 萬多行數據，清洗后保留 262 萬多行，跳過 1 條缺失 ID 的壞尾行；缺失值補了 600 多萬個；日期全變成 YYYY-MM-DD；5 張圖和 6 頁 PDF 報告全部出完。

整個過程大約 10 分鐘。

還可以。

任務二：2w 行代碼

第二個任務，我扔給它一個真實的桌面項目，PySide6 寫的，20000 多行，把小說生成、新聞批量處理、AI 編輯器、熱榜預覽、作品管理等功能全堆在一起。

我讓 codex 做三件事：

畫出完整函數調用關系圖、
找出性能瓶頸最大的 3 個函數，
再順手判斷一下原作者是什么風格的程序員。

Mermaid 調用圖它畫出來了，從 main.py 入口到各個子模塊的信號槽連接，層次還挺清楚的。

性能瓶頸的分析也讓我比較服氣。它定位到了三個函數，確實都是我為了讓系統不崩潰做的超級冗余。

還有作者風格判斷，它的結論是，不是那種特別講究潔癖式分層的基礎設施工程師。好像有點馬屁，其實沒有。。

GPT-5.4 看代碼，已經不只是“看函數”，而是開始“看人”了。它能順著代碼，反推出作者的工作方式、取舍習慣、甚至一點點性格傾向。

由此判斷，代碼能力算是穩的，至少算中層。GPT-5.4 的編程能力配合它的知識工作能力用，是加分項。單獨拿出來，沒贏面。

任務三：數學建模國賽 C 題

前兩個任務，一個偏知識流程，一個偏工程。

第三個任務，我想看它在“高復雜度、長鏈條、強約束”的場景里，到底能頂到哪。

所以我直接把它拉去做 2024 年數學建模國賽 C 題，54 個地塊，7 年規劃，41 種作物，要考慮輪作、土地適應性、市場波動、超產滯銷，最后還要形成完整論文。

這個任務也最能暴露它的上限。

因為它不是某一個點上難，而是每一步都容易出小錯：讀題、抽象、建模、寫代碼、跑優化、生成論文、處理公式、處理文件、處理中文路徑，哪一步都能翻。

GPT-5.4 確實搭了個 PuLP 的混合整數線性規劃模型，也確實把論文骨架搭出來了：摘要、問題重述、假設、符號說明、建模、求解、結果分析、模型評價，樣樣不少。

但中間它被 Windows PowerShell 的中文編碼狠狠干了幾次。中文文件名讀不進去，“完整論文.md”寫不進去，“附件 1.xlsx”也找不到，LaTeX 公式里的\right還被換行吃掉了。它最后是靠把文件名全改成 ASCII，才把流程跑通。

有意思，真正折磨模型的，還真不是 benchmark 上那道最難的題，是現實環境里那些又臟又碎的坑啊！

所以這一項給我的感覺很明確，GPT-5.4 可以把這種大活先搭到 70 分，甚至能把最煩的前半段干掉；但離“直接交卷拿高分”還有距離，中間隔著一堆細節層面的破事。

你要的是一個能跑起來的框架，它可以。你要的是一篇非常漂亮的競賽論文，還得自己往上抬，至少要自己教它方法、配個 skill。

跑完這三個任務，我對 GPT-5.4 的判斷也慢慢清楚了：代碼能力很強、人感不錯，但操作計算機的能力好像離預期差一點至少套娃還差一點。

至于 5.4pro，網上已經有人開始拿它開涮了。

比如 Daniel Nguyen 發的那個圖就很典型：有人問 GPT-5.4 Pro，“How do I install CUDA 12.1 on Ubuntu 24.04?”

它想了 69 分 42 秒，最后回了一句：“You can’t.”

我自己也測了一下 Pro。讓它扮演一個 20 年經驗的 AI 行業獵頭，對 Sam Altman 進行一場“GPT-5.4 產品經理”崗位的壓力面試。

它想了 22 分鐘 46 秒。

出來的東西說實話有點壓力。這個質量，確實不是普通版能給的。你能明顯感覺到，Pro 在一些高要求、高壓縮、高質量輸出的場景里，確實更像“高級腦力勞動者”。但代價嘛...

Pro 版輸出 180 美元/百萬 token，是 Claude 的 7.2 倍。之前有人對它說了句"Hi"就燒掉 80 美元，我這次一個面試題想了 22 分鐘，賬單也不敢細看。

所以問題來了。

如果未來兩個季度，你只能讓 GPT-5.4 在一個維度形成“不可逆的用戶心智占領”，你會押哪一個？

A. 長周期 agent 任務完成率
B. 高價值知識工作的“可直接簽字”輸出率
C. 跨文檔、跨應用、跨工具的上下文連續性
D. 單位任務成本

評論區告訴我答案，我挑幾個最狠的回答，整理一下，轉達給 GPT-5.4 Pro。

你覺得 GPT5.4 的能力到哪了？

GPU 訓練特惠！

H100/H200 GPU算力按秒計費，平均節省開支30%以上！

掃碼了解詳情?

點「贊」的人都變好看了哦！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.