OpenAI 昨晚突然發布了 GPT 5.5。
這是他們本周第三次發新東西了,他們似乎走上了 Anthropic 的路子,也卷到每天都發版了。
GPT 5.5 發布,讓上周發布的 Claude Opus 4.7 在王座上屁股還沒坐熱就被趕下去了。
但實話說,Opus 4.7 真的非常垃圾(相比 4.6),所以,再厲害的公司也別光看參數。
那這次 GPT 5.5 咋樣??
官方說: 這是我們迄今為止最智能、最直觀易用的模型,也是在計算機上完成工作的新方式的下一步。
好吧,一句廢話開場。
然后后面是一堆的描述,其實核心就一點:5.5 在智能體方面突飛猛進,到了你只要把任務給它就行了,其他事兒它都會自動搞定。
主打智能體能力(或任務執行能力),是現在幾乎每一個模型首推的點,即便國產的 Kimi 也如此。
官方引用了一張第三方的 AI 模型綜合智能指數,無疑,GPT 5.5 是最厲害的。
那么具體在哪些方面厲害,簡單來過一下。
先是編程能力(代理編程),現在 OpenAI 居然把這個放第一,要知道這可是 Claude 的優勢領地。
不過這里它沒有提供全面的和 Opus 4.7 的對比,只看到 Terminal-Bench 2.0 比 Opus 4.7 強。但這個指標一直以來都是各說各話,似乎沒有統一的標準。
其他體現編程能力的比如 SWE-Bench Pro、Expert-SWE 都是跟自己的 前任 5.4 對比。
結論是:GPT 5.5 可以在更少 Token 的情況下,得到比 5.4 更好的成績。
官方給出的圖比較夸張,同樣成績,新版消耗的 Token 居然不到之前的一半。
這就叫:人狠話不多。
![]()
不得不說,這個賣點還是非常有針對性的。
還記得上周發布的 Opus 4.7 嗎?官方非常正式(不要臉)的說,它的 Token 消耗會直接漲 20-30%。
漲 30% vs 降 50%,這一波我站 GPT 5.5,畢竟 Claude 的 Token 實在燒不起啊!!
大家都知道,數學好了,數理化就都差不了。
編程能力,就好比是現在這些大模型的數學能力,它一好,其他的也跟著變強。
OpenAI 這里提到的是“知識工作”,基本就是那些 Paper Work。文檔、Excel、PPT 啥的。
這個路子也越來越走到 Claude 那邊了,要知道 Claude 的 for Office 三件套真的吸粉無數。
OpenAI 看它不順眼很久了。
官方這里舉例一些例子,但實際怎么樣還得自己去試了才知道。
![]()
他們也提供好了一個參數對比,這個參數就是 GDPVal。這玩意之前我解釋過,看名字是 GDP 開頭就知道它跟 GDP 沾點關系。
實際的意思是,OpenAI 搞的一個參數,想衡量這個 AI 在現實中真正能產生多少實際的價值(GDP是 KPI),而不是光吹牛逼。
當然,這里繼續領跑。
GPT 5.5 是構建在英偉達的 GB200 NVL72 和 G300 系統上面的。
OpenAI 在文檔里面還提到一個新的方面,就是科學研究。
傳統的科學研究,都包括收集證據,檢驗假設,解釋結果,并決定下一步的嘗試方向這樣一個循環。
GPT 5.5 在這方面可謂是碾壓前任 5.4,官方舉了基因分析和生物學分析的例子,同時在藥物發現方面的準確率也顯著提升了。
用 AI 來進化 AI,這已經是公開的秘密。
OpenAI 也不隱藏。
他們在官方文檔中提到,Codex 和 GPT-5.5 在幫他們進行性能優化方面提供了很大的幫助。
特別是 Codex 很快的將他們的想法變成現實,包括繪制草圖、搭建實驗流程以及確認優化點等。
GPT 5.5 用來發現自身問題并進行改進。
今天開始,GPT-5.5 將面向 ChatGPT 和 Codex 的 Plus、Pro、Business 和 Enterprise 用戶推出,GPT-5.5 Pro 也將面向 ChatGPT 的 Pro、Business 和 Enterprise 用戶推出。
官方宣稱,很快把會把 GPT-5.5 和 GPT-5.5 Pro 集成到 API 中。
特別要提一下 Codex,它里面的 GPT 5.5 上下文窗口是 400K,同時還提供了快速模式,生成 Token 的速度 1.5x,當然費用要增加 2.5x。
說好的多快好省呢?
參考鏈接: https://openai.com/index/introducing-gpt-5-5/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.