OpenAI推理之父掀桌：AI真·滿血的樣子，你沒錢見！

2026-06-11 19:38:29　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

【新智元導(dǎo)讀】OpenAI o1推理模型核心締造者Noam Brown發(fā)長文炮轟整個(gè)行業(yè)：用單一跑分評價(jià)AI模型，從2024年就過時(shí)了。GPT-5.5看起來只比5.4強(qiáng)一點(diǎn)？控制推理預(yù)算后再看，那叫一個(gè)天壤之別。

OpenAI的Noam Brown，剛剛發(fā)了一篇長文，對著整個(gè)AI行業(yè)開了一炮。

文章標(biāo)題叫「大規(guī)模推理計(jì)算的啟示」，核心論點(diǎn)只有一個(gè)，你現(xiàn)在看到的所有AI跑分排行榜，給你的信息基本上是錯(cuò)的。

原因很簡單。

同一個(gè)模型，給它一塊錢想事情和給它一萬塊錢想事情，跑出來的分?jǐn)?shù)天差地別。但現(xiàn)在所有的排行榜，都不告訴你這個(gè)模型花了多少錢跑出來的成績。

GPT-5.5的成績單是「假的」？

4月23日，GPT-5.5發(fā)布。

OpenAI甩出benchmark表格，社區(qū)照例逐行比對。結(jié)論是：還行，比5.4好一點(diǎn)，但也沒好到哪去。

然后幾個(gè)小時(shí)過去了。

波蘭數(shù)學(xué)家Bartosz Naskr?cki用一條prompt，讓GPT-5.5在11分鐘內(nèi)搭出一個(gè)代數(shù)幾何可視化應(yīng)用。

Ruby on Rails之父DHH更是感慨，用完5.5再切回Opus 4.7，像倒退了一個(gè)時(shí)代。

同一個(gè)模型。benchmark說「還行」，人說「炸裂」。為什么？

原因很簡單，5.5和5.4根本不是在同一個(gè)計(jì)算預(yù)算下被測試的。

這就好比兩個(gè)學(xué)生考同一張卷子，一個(gè)給了30分鐘，一個(gè)給了3小時(shí)。你拿兩份成績來比，說「差距不大」，這不是比較，這是搞笑。

GPT-5.4 Pro的API定價(jià)是$30/$180（每百萬token），GPT-5.5是$5/$30。價(jià)格差了6倍。

但benchmark表格上，這兩個(gè)模型被當(dāng)成同一個(gè)量級來比較，完全忽略了推理預(yù)算的差異。一旦控制token預(yù)算，GPT-5.5在網(wǎng)絡(luò)安全評估上大幅拉開GPT-5.4。

Brown在文中展示了兩張圖。左邊是傳統(tǒng)benchmark視角，5.5比5.4好一點(diǎn)。右邊x軸換成token數(shù)量，5.5的曲線遠(yuǎn)遠(yuǎn)甩開5.4。

同一場考試。換個(gè)維度看，結(jié)論完全不同。

這不是個(gè)案。

MMLU這個(gè)曾經(jīng)最主流的評測基準(zhǔn)，前沿模型全部擠在88%以上，分?jǐn)?shù)差異在統(tǒng)計(jì)上已經(jīng)沒有意義。你看到的不是「誰更聰明」，是噪聲。

MRCR v2在100萬token長度上的測試，GPT-5.4得36.6%，GPT-5.5得74.0%——翻了一倍。但這個(gè)維度在標(biāo)準(zhǔn)benchmark表格里根本不存在。

ARC-AGI上，OpenAI的o3跑出最高分，單道題推理成本$30,000。

隔壁NVARC團(tuán)隊(duì)用40億參數(shù)小模型拿了24%準(zhǔn)確率，每道題$0.20。

三萬美元對兩毛錢，同一場考試——「誰排名更高」這個(gè)問題本身就已經(jīng)失效了。

當(dāng)模型的能力是推理計(jì)算量的函數(shù)時(shí)，一個(gè)沒有x軸的benchmark分?jǐn)?shù)，就是一個(gè)沒有單位的物理量。它什么都沒告訴你。

在Brown看來，正確的做法是畫一條曲線：性能 vs 推理計(jì)算量。

x軸可以是token數(shù)、美元或耗時(shí)，各有優(yōu)劣。但可以肯定的是，任何一條曲線，都比一個(gè)標(biāo)量數(shù)字強(qiáng)。

或者，你也可以設(shè)一個(gè)明確的預(yù)算上限，告訴模型「你就這么多錢，給我答案」。

這恰好是人類考試的邏輯，SAT給固定時(shí)間，國際數(shù)學(xué)奧賽也給固定時(shí)間。

只有AI評測，在2026年了，還在假裝「給多少錢想事情」這個(gè)變量不存在。

被忽略的x軸

為什么這個(gè)問題現(xiàn)在才爆發(fā)？

因?yàn)閮赡昵埃评頃r(shí)計(jì)算只是o1的專屬概念。

而o1的核心貢獻(xiàn)者，正是Brown。

此前，他在卡耐基梅隆做出Libratus和Pluribus（擊敗頂級撲克職業(yè)選手，后者登上Science封面），在Meta FAIR做出CICERO（第一個(gè)在策略游戲《外交》中達(dá)到人類水平的AI）。

從不完美信息博弈到推理模型，他一直在同一條線上：讓AI學(xué)會(huì)想更久、想更深。

2024年的o1讓「推理時(shí)間換準(zhǔn)確率」進(jìn)入公眾視野。到了2026年，推理時(shí)計(jì)算已經(jīng)是所有前沿模型的標(biāo)配。

GPT-5.5 Pro不是一個(gè)獨(dú)立模型，它是GPT-5.5同一個(gè)底座加了并行推理時(shí)計(jì)算：遇到難題跑多條推理鏈，綜合出結(jié)果。

Claude有extended thinking，Gemini有Deep Think，幾乎每家前沿實(shí)驗(yàn)室都在往同一個(gè)方向跑。

對此，學(xué)術(shù)界也給出了量化關(guān)系。覆蓋率與采樣次數(shù)呈對數(shù)線性關(guān)系。

也就是，給AI雙倍的「想事情時(shí)間」，它不會(huì)變聰明一倍，但確實(shí)會(huì)變聰明一點(diǎn)。收益是對數(shù)級遞減的。

但Brown引用了Karpathy和AI Safety Institute的一個(gè)關(guān)鍵發(fā)現(xiàn)——

越強(qiáng)的模型，在更長時(shí)間跨度上的收益越大。性能的高原期被推遠(yuǎn)了，甚至可能消失。

弱模型多想兩分鐘，可能已經(jīng)到頂了。但強(qiáng)模型多想兩個(gè)小時(shí)，曲線還在往上走。

每一代模型發(fā)布時(shí)，如果你只在某個(gè)固定的推理預(yù)算下跑benchmark，你看到的就只是冰山一角。真正的能力上限，在你測不起的那片水域。

用Brown的話說就是：「我們可能根本不知道現(xiàn)代LLM的能力天花板在哪里，因?yàn)闇y量成本太高了。」

Brown的三張藥方

針對這一問題，Brown給了三條建議。

第一，實(shí)驗(yàn)室發(fā)布新模型時(shí)公布性能-推理計(jì)算量曲線，至少標(biāo)明分?jǐn)?shù)對應(yīng)的推理預(yù)算。

GPT-5.5的82.7% Terminal-Bench 2.0，你不知道花了多少錢跑出來的。你拿它和另一個(gè)模型比，你也不知道對方花了多少錢。

這就像兩家公司比營收，一家報(bào)的是年收入，一家報(bào)的是季度收入，但都不標(biāo)注時(shí)間跨度。

第二，benchmark排行榜追蹤推理用量，或設(shè)定明確預(yù)算上限。

ARC-AGI已經(jīng)在這么做了，但不是行業(yè)標(biāo)準(zhǔn)。

第三，安全準(zhǔn)備框架和負(fù)責(zé)任擴(kuò)展政策顯式納入推理計(jì)算量。

安全評估不能只測「默認(rèn)狀態(tài)」——國家級攻擊者完全可以在單個(gè)任務(wù)上砸1000萬美元推理預(yù)算。

以Gemini 3 Deep Think為例。

Deep Think本質(zhì)上就是Gemini 3 Pro加了外部調(diào)用框架，任何人花同樣推理費(fèi)就能復(fù)現(xiàn)。

真正該問的是，為什么所有模型卡都沒把能力作為推理預(yù)算的函數(shù)來展示？

Brown理想中的安全評估應(yīng)該是一張圖。

x軸是推理預(yù)算（從$1到$10M），y軸是模型在特定危險(xiǎn)能力上的表現(xiàn)。在低預(yù)算下測量，然后向高預(yù)算區(qū)域做預(yù)測。

但他也承認(rèn)一個(gè)棘手的問題，長期評估可能無法靠外推解決。要評估一個(gè)AI agent跑一年會(huì)不會(huì)出問題，可能真得讓它跑一年。

而AI實(shí)驗(yàn)室很快將面臨荒誕局面——agent的運(yùn)行周期超過了新模型的開發(fā)周期。你還沒評估完上一代的長期行為，下一代就已經(jīng)發(fā)布了。

超級智能是道算術(shù)題

所有前面的討論都指向同一個(gè)問題。

如果模型的能力是推理計(jì)算量的函數(shù)，而且越強(qiáng)的模型高原期越遠(yuǎn)，那「超級智能」到底是什么？

傳統(tǒng)理解里，ASI是一個(gè)質(zhì)變的拐點(diǎn)：某天某個(gè)模型突然在所有認(rèn)知任務(wù)上全面超越人類。

順著這個(gè)邏輯往下想——ASI可能不是一個(gè)時(shí)刻，而是一條曲線。

前面的數(shù)字已經(jīng)說得很清楚：同一類任務(wù)，兩毛錢和三萬美元的推理預(yù)算，買到的是完全不同的結(jié)果。但這些還只是已經(jīng)測過的區(qū)間。

給一個(gè)前沿模型$1,000,000的推理預(yù)算呢？$100,000,000呢？

沒人測過。Brown說了，測不起。

但對數(shù)線性的scaling關(guān)系告訴你，曲線還沒到頂。而且越強(qiáng)的模型，高原期越遠(yuǎn)。

ASI可能不需要一個(gè)全新的架構(gòu)突破。它需要的可能只是：足夠的錢和足夠的時(shí)間。

一個(gè)運(yùn)行一整年、消耗數(shù)億美元推理預(yù)算的AI agent，在這一年里表現(xiàn)出的能力，可能已經(jīng)在特定領(lǐng)域超越了人類個(gè)體的一生積累。

決賽的真實(shí)比分

過去十年，整個(gè)AI行業(yè)習(xí)慣了一種評估方式：一個(gè)模型，一個(gè)分?jǐn)?shù)，排個(gè)名次。從ImageNet到MMLU到Chatbot Arena，誰的數(shù)字大誰就贏。

如今，跑分的「二維時(shí)代」正在開場。

模型的能力從一個(gè)點(diǎn)變成了一條曲線，評估從一個(gè)分?jǐn)?shù)變成了一張圖。y軸是表現(xiàn)，x軸是你愿意花多少錢讓它想。

每個(gè)「第一」還要再乘以一個(gè)變量：推理預(yù)算。

同一個(gè)模型在$5和$500預(yù)算下的能力，可能根本不是同一個(gè)級別。而這張二維地圖上的絕大部分區(qū)域，至今沒有人探索過。

2026年，全球科技巨頭在AI基礎(chǔ)設(shè)施上的投入預(yù)計(jì)接近7000億美元。這些錢買的不只是更大的模型，還有更長的推理、更多的采樣、更快的inference。

同一個(gè)開源模型，有人跑$0.20一道題，有人跑$30,000一道題。能力差距不是模型的差距，是資源的差距。

當(dāng)「智能」變成一種可以用美元標(biāo)價(jià)的連續(xù)函數(shù)，「超級智能」也不再是一個(gè)是非題。

誰先適應(yīng)這個(gè)二維坐標(biāo)系，誰就先看清楚ASI決賽的真實(shí)比分。

參考資料：

https://x.com/polynoamial/status/2064210146558136827

編輯：摩西

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.