![]()
新智元報道
![]()
【新智元導讀】GPT-5.5大翻車,竟被數字「516」活活卡死。80%復雜推理被悄悄截斷,開發者怒轟OpenAI暗中閹割算力:花最貴的錢,買最爛的體驗!
簡直太詭異了。
OpenAI當家王牌GPT-5.5,這幾天在復雜編程任務上突然「拉胯」,大幅降智。
細思極恐的是,有人找到了讓它瞬間崩潰的「死亡密碼」:
數字516
![]()
大批Codex開發者集體吐槽,驗證了這個離譜的Bug。
![]()
堂堂頂級大模型,為何會被一個數字搞崩?
GPT-5.5死卡「516」
80%任務悄悄降智
事情的真相,是這樣的……
一周前,Codex開發者@vguptaa45,拉出后臺元數據,意外發現了一條讓人頭皮發麻的規律——
GPT-5.5的大量回復,其推理Token的數量,竟死死地卡在「516」這個數字上。
![]()
傳送門:https://github.com/openai/codex/issues/30364
而且,不止一個點位。在1034和1552這兩個節點,同樣出現了詭異的集中爆發。
在編號#30364的GitHub Issue里,開發者攤開了一份統計:
分析窗口從2026年2月1日-6月27日,覆蓋390,195條響應級Token記錄、865個會話。
其中,推理Token精確等于516的事件,一共3363次。
![]()
![]()
在一次跨模型的橫向對比中,結果觸目驚心——
GPT-5.5,只占全部響應量的19.3%,卻包攬了82.0%的「精準516」事件。
換句話說,全網所有卡在516這個死結上的回復,超過八成都出自GPT-5.5一家之手。
![]()
接下來,再和自家GPT系模型對比,一個關鍵指標叫「精準516/大于等于516的比例」。
在GPT-5.5身上,接近一半的「深度思考」回復,最后都精準落在了516這堵墻上。
而到了GPT-5.2,這個比例是0.34%——幾乎為零。
它的比值,比其他所有非GPT-5.5模型的基準值,高出了整整33.6倍。
![]()
不得不說,這種斷崖式的、只砸向單一模型的分布,怎么看都不像是大模型在自然地「思考」。
它更像是,某個藏在深處的開關,被悄悄撥到了「516」這一格。
而且,越用越「笨」了
按常理,一個模型頻繁觸發「516」,至少說明它「想得多」、推理量大。
事實恰恰相反。
數據顯示,就在「516現象」急劇惡化的5月和6月,GPT-5.5的整體推理強度——
無論是平均值還是P90(90分位),反而比2月到4月大幅縮水。
一邊是「516死結」越卡越頻繁,一邊是模型整體「越想越少」。
![]()
這兩組極其詭異的矛盾數據,指向了一個讓所有付費用戶細思極恐的可能:
GPT-5.5在處理復雜、高風險任務時,可能正在被某種隱藏的「推理預算上限」或「截斷機制」,悄悄地按下暫停鍵。
你以為你花了錢、買了最強模型、開了最高檔,讓它去死磕一個硬骨頭。
結果它想到一半,啪,到516了,收工,交卷。答案對不對?不管了。
GitHub萬人上訪,開發者怒了
一石激起千層浪。
#30364這個帖子一發出,評論區瞬間擠滿了「苦主」——
我也一直被這個問題折磨,快瘋了。
同樣的毛病,求OpenAI給個說法!
![]()
有人翻出,其實早在#29353這個帖子里,就有人復現過:
GPT-5.5跑到剛好516個推理Token就「短路」停機,然后交出了一個錯誤答案。
這一次,開發者只是把這個孤例,用橫跨5個月的海量數據,錘成了鐵證。
甚至有開發者已經把戰火燒到了Reddit,發帖直言「你有一半的高風險Codex請求,可能正在被悄悄降級」。
![]()
HK上的網友表示,給到一個推理的問題,最終使用6000-8000個思考Token,才會輸出正確結果。
![]()
還有人在Codex和Claude兩個AI中,來回徘徊。
![]()
面對洶涌的民意,社區正式向Codex團隊遞上了一張「通緝令」,句句誅心:
這到底是推理預算被限了,是路由出了問題,是被截斷了,是觸發了某種fallback,還是調度器在搞鬼,導致回復統統在516/1034/1552附近戛然而止?
如果這是「正常設計」,那請告訴我們——
516,究竟是一個正常的思考終點,一個預算天花板,還是一個被降級的「劣質檔位」?
這一連串反問,等的就是OpenAI一個正面回答。
不過,提出者本人說得很克制:他沒有聲稱這就「證明」了 OpenAI在偷偷截斷思維鏈。
他的原話是,這更像一個「GPT-5.5特有的、看起來符合某種閾值化推理預算行為」的異常聚集。
是不是OpenAI主動閹割算力這個結論,還差OpenAI官方的一句話。
不光變笨,更「變毒舌」了
最近全網另一波吐槽,則精準戳向了GPT-5.5的性格。
一位名叫Angel的開發者,做了個狠實驗:把同樣的話,分別喂給ChatGPT(GPT-5.5 Instant)和Claude(Fable 5),截圖并排對比。
![]()
結論讓一票人拍案——
問題一:什么都要列成小圓點。
ChatGPT沒法用一句正常的人話說話,任何回答都被它剁成標題、加粗、圓點、冒號。
讓它「自然點,別那么AI腔」,它回你一個四點的項目符號列表,一本正經地列出「我將如何不像AI」。而Claude只回了一句:「行,我說話自然點,怎么了?」
![]()
![]()
![]()
![]()
問題二:它非得糾正你不可。
讓它檢查一句話、一條推文,它必須挑出點毛病來,仿佛「說一句『挺好的』」會要它的命。
而Claude說「沒問題,可以直接發」,ChatGPT卻硬塞給你兩個改寫版、兩個「更X風格」的備選,外加一句「你這話有點夸張了」。
![]()
![]()
問題三:你要一個,它給三個。
你說「講個笑話哄我開心」,Claude講一個。
ChatGPT講完一個,追加一個自己的補充包袱,再來一句「或者這個」,講第二個,接著「還有一個特別蠢的」,講第三個,最后請你「說明你偏好的幽默類型,好讓它瞄得更準」。
![]()
![]()
開發者的判斷一針見血:對一個聊天助手來說,性格就是產品本身。
如果每一次回答都是過度格式化、過度糾錯、過度給選項,摩擦會一點點累積,最后把人耗光。
一個卡在516,一個困在圓點里,兩樁怪病看著風馬牛不相及,病根卻是同一個——
GPT-5.5越來越擅長「交差」,越來越不擅長「幫忙」。
真正的智能,不該是被「516」鎖死的提線木偶。
畢竟,人類花錢雇傭的是一個能并肩作戰的天才,而不是一個按件計酬的「教導主任」。
參考資料:
https://github.com/openai/codex/issues/30364
編輯:桃子
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.