網易首頁 > 網易號 > 正文 申請入駐

最強大模型GPT-5.5來了,實測:不止是會說人話了

ChatGPT5.5是最強AI模型嗎

0
分享至


今天繼續聊新模型

剛剛,OpenAI 放出了 GPT-5.5

我第一反應是:這節奏有點兇

昨天還在看各家模型打架,今天 OpenAI 又把桌子往前推了一截。官方說它是“最聰明、最直覺化”的模型,重點能力放在 Agentic Coding、電腦操作、知識工作、科研分析這些硬活上

說人話:更適合讓它接一整段活,而非只回答一個問題

升級 Codex 之后,已經能直接用了


先說結論

我簡單測試了一圈,感覺很明確:

GPT-5.5 最大的變化,是它更懂“我要干什么”

很多模型很強,但用起來像在帶實習生。你得把邊界、格式、語氣、步驟、例外都交代清楚,少說一句就開始自由發揮

GPT-5.5 給我的感覺是,它會更快抓住任務形狀。尤其是寫代碼、改稿子、做前端、整理信息這些場景,它少繞路,少廢話,少自我感動

當然,也沒成神

我拿經典數手指挑戰試了一下,失敗


這個測試很適合潑冷水

別看到新模型就以為天下無敵,視覺細節、復雜空間關系、奇怪的人類刁鉆題,模型依然會翻車

但另一個測試,我讓它做閱讀理解 + SVG 代碼生成 + 審美表達

確實是一流水平


這個地方我挺有感觸

過去很多模型做 SVG,會把“能畫出來”當目標。GPT-5.5 更像是在理解內容之后,順手把視覺層級、構圖、文字密度一起處理了。最終效果談不上設計師畢業作品,但已經明顯脫離“AI 生成味兒太沖”的階段

還有一個測試,作為彩蛋,文末公布

官方到底說了什么

OpenAI 官方文章標題很直接:

這張圖里最關鍵的詞,其實是:real work

OpenAI 這次想講的,不只是“模型分數更高了”,它更想強調 GPT-5.5 是一個能干活的模型

我把官方信息拆成一張表,讀起來更清楚:

方向

官方強調

老章翻譯

Agentic Coding

寫代碼、調試、跨文件改動、長期任務

更適合丟給它一整個工程問題

Computer Use

操作軟件、跨工具移動、看屏幕、點擊、輸入

更像能一起用電腦干活的搭子

Knowledge Work

調研、分析數據、生成文檔、表格、PPT

辦公室里那些雜活,它能接更多

Scientific Research

多階段科研分析、代碼、數據、論文上下文

能陪研究人員從問題走到實驗結果

Inference Efficiency

速度接近 GPT-5.4,但能力更強,token 更省

貴歸貴,但復雜任務上少返工

Safety

網絡安全、生物能力做了更強評估和限制

能力越強,護欄也越厚

官方原文里有一句話很重要:你可以給 GPT-5.5 一個混亂的、多步驟任務,讓它自己規劃、用工具、檢查結果、穿過模糊地帶繼續推進

這句話我覺得比 benchmark 更關鍵

因為過去我們用模型,很多時候像在寫“超詳細說明書”;現在 OpenAI 想把它推進到“你說目標,它自己拆活”的階段

從官方給出的能力圖譜看,GPT-5.5 主要有四條主線:

第一,代碼能力繼續增強

官方給出的 Terminal-Bench 2.0 是 82.7%,GPT-5.4 是 75.1%

SWE-Bench Pro 是 58.6%,GPT-5.4 是 57.7%

Expert-SWE 內部評測是 73.1%,GPT-5.4 是 68.5%

這個提升看起來有的很大,有的沒那么夸張。但我更在意 Terminal-Bench 這種命令行長期任務,因為它真正測的是規劃、執行、出錯后修正、繼續往前走

編碼評測

GPT-5.5

GPT-5.4

我的理解

Terminal-Bench 2.0

82.7%

75.1%

長程命令行任務更穩

SWE-Bench Pro

58.6%

57.7%

真實 GitHub issue 略有提升

Expert-SWE

73.1%

68.5%

長周期工程任務更強

第二,知識工作更像真人工作流

官方提到,GPT-5.5 在 Codex 里生成文檔、表格、幻燈片更強,也更適合做運營調研、財務建模、把混亂業務輸入整理成計劃

OpenAI 自己也給了幾個內部例子:

  • 通訊團隊用它分析 6 個月演講請求數據,做評分和風險框架

  • 財務團隊用它審查 24,771 份 K-1 稅表,總計 71,637 頁

  • Go-to-Market 團隊有人用它自動生成周報,每周節省 5 到 10 小時

這幾個例子很有代表性

AI 真正進入工作流,核心價值常常在處理這些又碎、又長、又不能隨便錯的東西

第三,長上下文終于更有意義了

Codex 里 GPT-5.5 是 400K context window,API 計劃給到 1M context window

但長上下文不能只看長度,還要看能不能在長上下文里找對東西

官方長上下文評測里,Graphwalks BFS 1mil f1,GPT-5.5 是 45.4%,GPT-5.4 是 9.4%;OpenAI MRCR v2 8-needle 512K-1M,GPT-5.5 是 74.0%,GPT-5.4 是 36.6%

這兩個數字的意思很樸素:上下文拉長以后,GPT-5.5 更不容易迷路

長上下文評測

GPT-5.5

GPT-5.4

Graphwalks BFS 1mil f1

45.4%

9.4%

Graphwalks parents 1mil f1

58.5%

44.4%

MRCR 512K-1M

74.0%

36.6%

這對讀 PDF、審代碼庫、看會議記錄、整理大項目文檔都很關鍵

以前模型上下文很長,但你總擔心它“看是看了,腦子沒帶上”

這次至少從官方數據看,長上下文檢索和推理能力往前走了一步

第四,科研和安全能力都被單獨拎出來了

官方頁里這張圖挺有代表性,是 GPT-5.5 在 Codex 里從一句 prompt 做出來的代數幾何可視化應用:


GPT-5.5 生成的代數幾何可視化應用

科研這塊,官方重點提到 GeneBench、BixBench、FrontierMath、GPQA Diamond 等評測

比如 GeneBench,GPT-5.5 是 25.0%,GPT-5.4 是 19.0%;BixBench 是 80.5%,GPT-5.4 是 74.0%;FrontierMath Tier 4 是 35.4%,GPT-5.4 是 27.1%

這些題已經超出普通聊天,更接近“讀數據、理解實驗、寫代碼、找問題、解釋結果”的組合題

安全這塊也很明顯

Capture-the-Flags 內部任務,GPT-5.5 是 88.1%,GPT-5.4 是 83.7%;CyberGym 是 81.8%,GPT-5.4 是 79.0%

這說明它在安全攻防理解上也更強了,所以官方同時強調了更嚴格的防護策略

這地方我挺支持

模型越來越能寫代碼、找漏洞、操作工具,如果護欄跟不上,麻煩會很大

第五,推理效率這次也值得看

OpenAI 說 GPT-5.5 在真實服務里的 per-token latency 能接近 GPT-5.4,同時能力更強

更有意思的是,他們還說 Codex 和 GPT-5.5 參與了服務它自己的基礎設施優化

其中一個例子是負載均衡和分區啟發式算法,分析了數周生產流量模式后,token 生成速度提升超過 20%

這段很科幻

模型幫助優化運行模型的系統,聽起來像套娃,但這大概率就是未來 AI 基建的常態

最后說可用性和價格:

使用入口

可用范圍

關鍵信息

ChatGPT

Plus、Pro、Business、Enterprise

可用 GPT-5.5 Thinking

ChatGPT Pro

Pro、Business、Enterprise

可用 GPT-5.5 Pro

Codex

Plus、Pro、Business、Enterprise、Edu、Go

400K context window

Codex Fast mode

Codex 中可選

token 生成速度 1.5 倍,費用 2.5 倍

API

即將上線

gpt-5.5

是 1M context window

API 價格也公布了:

API 模型

輸入價格

輸出價格

gpt-5.5

5 美元 / 100 萬 token

30 美元 / 100 萬 token

gpt-5.5-pro

30 美元 / 100 萬 token

180 美元 / 100 萬 token

Batch 和 Flex 是標準 API 價格的一半,Priority 是標準價格的 2.5 倍

這個價格不便宜

所以我的建議很簡單:日常碎活用普通模型,復雜工程、長文檔、多步驟任務,再把 GPT-5.5 請出來

編程:少一點折騰

我最關心的還是 Codex

因為現在 AI 編程模型的問題,很多時候已經從“會不會寫代碼”,變成了“會不會添亂”

你讓它修一個小 bug,它順手重構半個項目;

你讓它補一個測試,它開始發明一套新架構;

你讓它按現有風格改,它偏要展示一下自己的抽象能力

這些事,大家應該都遇到過

GPT-5.5 給我的第一印象是:它更收得住

它更愿意先讀上下文,再判斷改哪里;更愿意沿著原項目風格走;也更能理解“這只是一個小改動”

這點對工程師很重要

模型智商高當然好,但真正讓人愿意長期使用的,是它能不能降低心智負擔。你交代一句,它往正確方向走三步,這才叫生產力

官方也提到,GPT-5.5 在 Codex 里更擅長長程任務,能做實現、重構、調試、測試、驗證這些連續動作

說白了,就是更像一個能扛事的 Agent

前端:審美終于往前走了

前端這個方向,我之前對很多模型都很苛刻

原因很簡單:前端差一點就很丑

按鈕間距差一點,信息層級差一點,顏色克制差一點,整個頁面立刻變成“后臺管理系統 2016 懷舊版”

GPT-5.5 這次在前端上確實有進步

網友實測也提到,同樣提示下,它生成的 dashboard 比 GPT-5.4 更自然;如果先用 GPT Image 2 做設計方向,再讓 GPT-5.5 實現,組合效果會更穩

這個思路很值得借鑒

以后做前端原型,可以這樣玩:

先讓圖像模型給視覺方向
再讓 GPT-5.5 還原交互和代碼
最后人工收口細節

我試下來也有類似感覺

GPT-5.5 對“看起來像一個真實產品”這件事更敏感了。它會注意留白、卡片密度、圖標按鈕、狀態提示這些小東西

當然,如果你完全不給設計約束,它也會偶爾走回老路。所以前端提示詞里,還是建議明確說清楚:目標用戶、產品類型、信息密度、交互狀態、移動端適配

寫作:它真的更會說人話

這次最讓我意外的,其實是寫作

很多模型寫中文,有一種很微妙的“正確廢話感”

每句話都沒錯,每段都很完整,讀完什么也沒留下

GPT-5.5 這個問題好了一些

它更愿意直接進入重點,句子也沒那么端著。寫消息、郵件、帖子、小段文案時,它更容易貼近人的表達習慣

我看到一段網友日常使用后的評價,說得挺準:

? GPT-5.5 感覺更直接、更專注,也更能理解我真正想問什么

這句話我認可

尤其是“更直接”

AI 時代,模型越來越聰明之后,真正稀缺的反倒是克制。別動不動就寫小論文,別每次都強行平衡觀點,別把一句人話翻譯成三段企業公文

這也是為什么我把標題寫成:會說人話了

Claude 這邊也很熱鬧
先生,你剛剛被 GPT 5.5 擊敗了

這兩天還有一個很有意思的小插曲

Anthropic 官方發了一篇復盤,解釋最近 Claude Code 質量波動的問題

重點有三個:

  • 3 月 4 日,Claude Code 的默認 reasoning effort 從 high 調成了 medium,目的是降低延遲,但用戶明顯感到變笨;4 月 7 日撤回

  • 3 月 26 日,一個緩存優化 bug 導致舊 thinking 在部分會話里持續丟失,模型會顯得健忘、重復、工具選擇奇怪;4 月 10 日修復

  • 4 月 16 日,一個減少 verbosity 的系統提示影響了編碼質量;4 月 20 日撤回

這個復盤很真誠,也很有參考價值

大模型產品現在已經復雜到一個程度:能力不只來自模型本體,還來自默認參數、系統提示、上下文管理、工具調用、緩存策略、產品 UI

所以你感覺一個模型“突然變笨”,有時候真未必是幻覺


更有意思的是,這個復盤剛好在 GPT-5.5 發布當天出來

時間點過于微妙

商戰,精彩

我的使用建議

如果你問 GPT-5.5 值不值得用,我的建議是:

值得,但別把它當萬能藥

適合用 GPT-5.5 的場景:

  • 大型項目里的復雜代碼修改

  • 多文件重構、調試、補測試

  • 需要跨工具完成的資料整理

  • 長文檔閱讀、歸納、改寫

  • 前端原型實現

  • 有明確目標的科研/數據分析輔助

暫時沒必要用 GPT-5.5 的場景:

  • 簡單問答

  • 日常翻譯

  • 普通摘要

  • 幾十行以內的小腳本

  • 低價值批量生成內容

原因也很現實:它貴

貴模型要干貴活

One More Thing

文末放個彩蛋

菜單公布:本文由 GPT-5.5 輔助撰寫,我做了些許修改

你看出來了嗎?


如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

以茶帶書
2026-04-25 16:22:06
王石真的老了!突然現身大梅沙,他赤裸著上半身,貼著胰島素針頭

王石真的老了!突然現身大梅沙,他赤裸著上半身,貼著胰島素針頭

火山詩話
2026-04-26 06:11:32
5月1日起,有房有車有身份證的人,或要吃大虧了!

5月1日起,有房有車有身份證的人,或要吃大虧了!

小談食刻美食
2026-04-26 09:09:28
趙麗穎在上海某高檔餐廳被偶遇,瘦是真的瘦,素顏依然很美

趙麗穎在上海某高檔餐廳被偶遇,瘦是真的瘦,素顏依然很美

一盅情懷
2026-04-25 19:36:00
中國第四艘航母官宣:是核動力!舷號19,命名大概率是“江蘇號”

中國第四艘航母官宣:是核動力!舷號19,命名大概率是“江蘇號”

福建睿平
2026-04-26 10:53:36
小米:李某華已被行拘

小米:李某華已被行拘

南方都市報
2026-04-26 12:01:47
曝球球退出陳翔六點半!疑細節原因曝光,否認與“蘑菇頭”是夫妻

曝球球退出陳翔六點半!疑細節原因曝光,否認與“蘑菇頭”是夫妻

橙星文娛
2026-04-26 14:26:26
華為余承東:尊界新車價格在200萬左右

華為余承東:尊界新車價格在200萬左右

界面新聞
2026-04-26 13:08:56
馬齒莧立功!研究發現:其天然成分4周降脂33%,還能減少血管斑塊

馬齒莧立功!研究發現:其天然成分4周降脂33%,還能減少血管斑塊

思思夜話
2026-04-25 11:16:17
網友開盒掛出“深圳派出所煙男”名單,微博官方:嚴重違規,已關號處理

網友開盒掛出“深圳派出所煙男”名單,微博官方:嚴重違規,已關號處理

極目新聞
2026-04-26 17:45:26
月入過萬!“崩老頭”登上熱搜,80后90后男性,成為年輕女性目標

月入過萬!“崩老頭”登上熱搜,80后90后男性,成為年輕女性目標

火山詩話
2026-04-26 15:18:10
全變味了?蘇超開幕不到半月,不對勁的一幕上演,輿論風向又變了

全變味了?蘇超開幕不到半月,不對勁的一幕上演,輿論風向又變了

墨印齋
2026-04-25 18:07:43
飯店老板被顧客踹續:一腳踹出三米遠,強喂服務員吃菜,警方介入

飯店老板被顧客踹續:一腳踹出三米遠,強喂服務員吃菜,警方介入

奇思妙想草葉君
2026-04-25 15:02:47
斯諾克世錦賽:吳宜澤出師不利!2局僅得1分,塞爾比狂轟2破百!

斯諾克世錦賽:吳宜澤出師不利!2局僅得1分,塞爾比狂轟2破百!

劉姚堯的文字城堡
2026-04-26 17:56:36
田馥甄曬3人合體爬山,陳嘉樺帶包子接地氣,任家萱現在最沒星味

田馥甄曬3人合體爬山,陳嘉樺帶包子接地氣,任家萱現在最沒星味

離離言幾許
2026-04-25 20:49:13
手機拍完相機拍 白宮晚宴槍擊現場男子淡定記錄

手機拍完相機拍 白宮晚宴槍擊現場男子淡定記錄

看看新聞Knews
2026-04-26 12:48:06
白宮晚宴槍擊案全網最全細節:特工疑與槍手互開數槍,特朗普在臺上十分淡定

白宮晚宴槍擊案全網最全細節:特工疑與槍手互開數槍,特朗普在臺上十分淡定

爆角追蹤
2026-04-26 10:29:13
網紅女主播因父親重病去世失聯停播,公司要求其支付違約金:親人去世值得同情,但違約事實已發生;經法院調解,公司降低違約金數額

網紅女主播因父親重病去世失聯停播,公司要求其支付違約金:親人去世值得同情,但違約事實已發生;經法院調解,公司降低違約金數額

魯中晨報
2026-04-26 15:40:06
孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

醫脈圈
2026-04-25 20:04:06
結束了!再見愛德華茲!NBA最慘季后賽球隊

結束了!再見愛德華茲!NBA最慘季后賽球隊

籃球實戰寶典
2026-04-26 19:48:57
2026-04-26 20:00:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3352文章數 11139關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環王》的美劇,有第二季

財經要聞

事關新就業群體,中辦、國辦發文

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

房產
健康
藝術
教育
時尚

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

干細胞如何讓燒燙傷皮膚"再生"?

藝術要聞

18幅 列賓美院教師Artem Tikhonov風景寫生

教育要聞

休學率上漲,驚到很多人!北大六院醫生直言:這背后其實是夫妻關系和家庭關系……

IU的臉,真的有自己的時間線

無障礙瀏覽 進入關懷版