![]()
今天繼續聊新模型
剛剛,OpenAI 放出了 GPT-5.5
我第一反應是:這節奏有點兇
昨天還在看各家模型打架,今天 OpenAI 又把桌子往前推了一截。官方說它是“最聰明、最直覺化”的模型,重點能力放在 Agentic Coding、電腦操作、知識工作、科研分析這些硬活上
說人話:更適合讓它接一整段活,而非只回答一個問題
升級 Codex 之后,已經能直接用了
![]()
先說結論
我簡單測試了一圈,感覺很明確:
GPT-5.5 最大的變化,是它更懂“我要干什么”
很多模型很強,但用起來像在帶實習生。你得把邊界、格式、語氣、步驟、例外都交代清楚,少說一句就開始自由發揮
GPT-5.5 給我的感覺是,它會更快抓住任務形狀。尤其是寫代碼、改稿子、做前端、整理信息這些場景,它少繞路,少廢話,少自我感動
當然,也沒成神
我拿經典數手指挑戰試了一下,失敗
![]()
這個測試很適合潑冷水
別看到新模型就以為天下無敵,視覺細節、復雜空間關系、奇怪的人類刁鉆題,模型依然會翻車
但另一個測試,我讓它做閱讀理解 + SVG 代碼生成 + 審美表達
確實是一流水平
![]()
這個地方我挺有感觸
過去很多模型做 SVG,會把“能畫出來”當目標。GPT-5.5 更像是在理解內容之后,順手把視覺層級、構圖、文字密度一起處理了。最終效果談不上設計師畢業作品,但已經明顯脫離“AI 生成味兒太沖”的階段
還有一個測試,作為彩蛋,文末公布
官方到底說了什么
OpenAI 官方文章標題很直接:
這張圖里最關鍵的詞,其實是:real work
OpenAI 這次想講的,不只是“模型分數更高了”,它更想強調 GPT-5.5 是一個能干活的模型
我把官方信息拆成一張表,讀起來更清楚:
方向
官方強調
老章翻譯
Agentic Coding
寫代碼、調試、跨文件改動、長期任務
更適合丟給它一整個工程問題
Computer Use
操作軟件、跨工具移動、看屏幕、點擊、輸入
更像能一起用電腦干活的搭子
Knowledge Work
調研、分析數據、生成文檔、表格、PPT
辦公室里那些雜活,它能接更多
Scientific Research
多階段科研分析、代碼、數據、論文上下文
能陪研究人員從問題走到實驗結果
Inference Efficiency
速度接近 GPT-5.4,但能力更強,token 更省
貴歸貴,但復雜任務上少返工
Safety
網絡安全、生物能力做了更強評估和限制
能力越強,護欄也越厚
官方原文里有一句話很重要:你可以給 GPT-5.5 一個混亂的、多步驟任務,讓它自己規劃、用工具、檢查結果、穿過模糊地帶繼續推進
這句話我覺得比 benchmark 更關鍵
因為過去我們用模型,很多時候像在寫“超詳細說明書”;現在 OpenAI 想把它推進到“你說目標,它自己拆活”的階段
從官方給出的能力圖譜看,GPT-5.5 主要有四條主線:
第一,代碼能力繼續增強
官方給出的 Terminal-Bench 2.0 是 82.7%,GPT-5.4 是 75.1%
SWE-Bench Pro 是 58.6%,GPT-5.4 是 57.7%
Expert-SWE 內部評測是 73.1%,GPT-5.4 是 68.5%
這個提升看起來有的很大,有的沒那么夸張。但我更在意 Terminal-Bench 這種命令行長期任務,因為它真正測的是規劃、執行、出錯后修正、繼續往前走
編碼評測
GPT-5.5
GPT-5.4
我的理解
Terminal-Bench 2.0
82.7%
75.1%
長程命令行任務更穩
SWE-Bench Pro
58.6%
57.7%
真實 GitHub issue 略有提升
Expert-SWE
73.1%
68.5%
長周期工程任務更強
第二,知識工作更像真人工作流
官方提到,GPT-5.5 在 Codex 里生成文檔、表格、幻燈片更強,也更適合做運營調研、財務建模、把混亂業務輸入整理成計劃
OpenAI 自己也給了幾個內部例子:
通訊團隊用它分析 6 個月演講請求數據,做評分和風險框架
財務團隊用它審查 24,771 份 K-1 稅表,總計 71,637 頁
Go-to-Market 團隊有人用它自動生成周報,每周節省 5 到 10 小時
這幾個例子很有代表性
AI 真正進入工作流,核心價值常常在處理這些又碎、又長、又不能隨便錯的東西
第三,長上下文終于更有意義了
Codex 里 GPT-5.5 是 400K context window,API 計劃給到 1M context window
但長上下文不能只看長度,還要看能不能在長上下文里找對東西
官方長上下文評測里,Graphwalks BFS 1mil f1,GPT-5.5 是 45.4%,GPT-5.4 是 9.4%;OpenAI MRCR v2 8-needle 512K-1M,GPT-5.5 是 74.0%,GPT-5.4 是 36.6%
這兩個數字的意思很樸素:上下文拉長以后,GPT-5.5 更不容易迷路
長上下文評測
GPT-5.5
GPT-5.4
Graphwalks BFS 1mil f1
45.4%
9.4%
Graphwalks parents 1mil f1
58.5%
44.4%
MRCR 512K-1M
74.0%
36.6%
這對讀 PDF、審代碼庫、看會議記錄、整理大項目文檔都很關鍵
以前模型上下文很長,但你總擔心它“看是看了,腦子沒帶上”
這次至少從官方數據看,長上下文檢索和推理能力往前走了一步
第四,科研和安全能力都被單獨拎出來了
官方頁里這張圖挺有代表性,是 GPT-5.5 在 Codex 里從一句 prompt 做出來的代數幾何可視化應用:
![]()
GPT-5.5 生成的代數幾何可視化應用
科研這塊,官方重點提到 GeneBench、BixBench、FrontierMath、GPQA Diamond 等評測
比如 GeneBench,GPT-5.5 是 25.0%,GPT-5.4 是 19.0%;BixBench 是 80.5%,GPT-5.4 是 74.0%;FrontierMath Tier 4 是 35.4%,GPT-5.4 是 27.1%
這些題已經超出普通聊天,更接近“讀數據、理解實驗、寫代碼、找問題、解釋結果”的組合題
安全這塊也很明顯
Capture-the-Flags 內部任務,GPT-5.5 是 88.1%,GPT-5.4 是 83.7%;CyberGym 是 81.8%,GPT-5.4 是 79.0%
這說明它在安全攻防理解上也更強了,所以官方同時強調了更嚴格的防護策略
這地方我挺支持
模型越來越能寫代碼、找漏洞、操作工具,如果護欄跟不上,麻煩會很大
第五,推理效率這次也值得看
OpenAI 說 GPT-5.5 在真實服務里的 per-token latency 能接近 GPT-5.4,同時能力更強
更有意思的是,他們還說 Codex 和 GPT-5.5 參與了服務它自己的基礎設施優化
其中一個例子是負載均衡和分區啟發式算法,分析了數周生產流量模式后,token 生成速度提升超過 20%
這段很科幻
模型幫助優化運行模型的系統,聽起來像套娃,但這大概率就是未來 AI 基建的常態
最后說可用性和價格:
使用入口
可用范圍
關鍵信息
ChatGPT
Plus、Pro、Business、Enterprise
可用 GPT-5.5 Thinking
ChatGPT Pro
Pro、Business、Enterprise
可用 GPT-5.5 Pro
Codex
Plus、Pro、Business、Enterprise、Edu、Go
400K context window
Codex Fast mode
Codex 中可選
token 生成速度 1.5 倍,費用 2.5 倍
API
即將上線
gpt-5.5
是 1M context window
API 價格也公布了:
API 模型
輸入價格
輸出價格
gpt-5.5
5 美元 / 100 萬 token
30 美元 / 100 萬 token
gpt-5.5-pro
30 美元 / 100 萬 token
180 美元 / 100 萬 token
Batch 和 Flex 是標準 API 價格的一半,Priority 是標準價格的 2.5 倍
這個價格不便宜
所以我的建議很簡單:日常碎活用普通模型,復雜工程、長文檔、多步驟任務,再把 GPT-5.5 請出來
編程:少一點折騰
我最關心的還是 Codex
因為現在 AI 編程模型的問題,很多時候已經從“會不會寫代碼”,變成了“會不會添亂”
你讓它修一個小 bug,它順手重構半個項目;
你讓它補一個測試,它開始發明一套新架構;
你讓它按現有風格改,它偏要展示一下自己的抽象能力
這些事,大家應該都遇到過
GPT-5.5 給我的第一印象是:它更收得住
它更愿意先讀上下文,再判斷改哪里;更愿意沿著原項目風格走;也更能理解“這只是一個小改動”
這點對工程師很重要
模型智商高當然好,但真正讓人愿意長期使用的,是它能不能降低心智負擔。你交代一句,它往正確方向走三步,這才叫生產力
官方也提到,GPT-5.5 在 Codex 里更擅長長程任務,能做實現、重構、調試、測試、驗證這些連續動作
說白了,就是更像一個能扛事的 Agent
前端:審美終于往前走了
前端這個方向,我之前對很多模型都很苛刻
原因很簡單:前端差一點就很丑
按鈕間距差一點,信息層級差一點,顏色克制差一點,整個頁面立刻變成“后臺管理系統 2016 懷舊版”
GPT-5.5 這次在前端上確實有進步
網友實測也提到,同樣提示下,它生成的 dashboard 比 GPT-5.4 更自然;如果先用 GPT Image 2 做設計方向,再讓 GPT-5.5 實現,組合效果會更穩
這個思路很值得借鑒
以后做前端原型,可以這樣玩:
先讓圖像模型給視覺方向
再讓 GPT-5.5 還原交互和代碼
最后人工收口細節
我試下來也有類似感覺
GPT-5.5 對“看起來像一個真實產品”這件事更敏感了。它會注意留白、卡片密度、圖標按鈕、狀態提示這些小東西
當然,如果你完全不給設計約束,它也會偶爾走回老路。所以前端提示詞里,還是建議明確說清楚:目標用戶、產品類型、信息密度、交互狀態、移動端適配
寫作:它真的更會說人話
這次最讓我意外的,其實是寫作
很多模型寫中文,有一種很微妙的“正確廢話感”
每句話都沒錯,每段都很完整,讀完什么也沒留下
GPT-5.5 這個問題好了一些
它更愿意直接進入重點,句子也沒那么端著。寫消息、郵件、帖子、小段文案時,它更容易貼近人的表達習慣
我看到一段網友日常使用后的評價,說得挺準:
? GPT-5.5 感覺更直接、更專注,也更能理解我真正想問什么
這句話我認可
尤其是“更直接”
AI 時代,模型越來越聰明之后,真正稀缺的反倒是克制。別動不動就寫小論文,別每次都強行平衡觀點,別把一句人話翻譯成三段企業公文
這也是為什么我把標題寫成:會說人話了
Claude 這邊也很熱鬧 ![]()
先生,你剛剛被 GPT 5.5 擊敗了
這兩天還有一個很有意思的小插曲
Anthropic 官方發了一篇復盤,解釋最近 Claude Code 質量波動的問題
重點有三個:
3 月 4 日,Claude Code 的默認 reasoning effort 從 high 調成了 medium,目的是降低延遲,但用戶明顯感到變笨;4 月 7 日撤回
3 月 26 日,一個緩存優化 bug 導致舊 thinking 在部分會話里持續丟失,模型會顯得健忘、重復、工具選擇奇怪;4 月 10 日修復
4 月 16 日,一個減少 verbosity 的系統提示影響了編碼質量;4 月 20 日撤回
這個復盤很真誠,也很有參考價值
大模型產品現在已經復雜到一個程度:能力不只來自模型本體,還來自默認參數、系統提示、上下文管理、工具調用、緩存策略、產品 UI
所以你感覺一個模型“突然變笨”,有時候真未必是幻覺
![]()
更有意思的是,這個復盤剛好在 GPT-5.5 發布當天出來
時間點過于微妙
商戰,精彩
我的使用建議
如果你問 GPT-5.5 值不值得用,我的建議是:
值得,但別把它當萬能藥
適合用 GPT-5.5 的場景:
大型項目里的復雜代碼修改
多文件重構、調試、補測試
需要跨工具完成的資料整理
長文檔閱讀、歸納、改寫
前端原型實現
有明確目標的科研/數據分析輔助
暫時沒必要用 GPT-5.5 的場景:
簡單問答
日常翻譯
普通摘要
幾十行以內的小腳本
低價值批量生成內容
原因也很現實:它貴
貴模型要干貴活
One More Thing
文末放個彩蛋
菜單公布:本文由 GPT-5.5 輔助撰寫,我做了些許修改
你看出來了嗎?
![]()
如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.