GPT-5.4發(fā)布：Sam Altman稱"沒有墻"，AI能力今年將"戲劇性提升"

2026-03-18 18:18:40　來源: 字節(jié)漫游指南

北京舉報

分享至

導(dǎo)讀：OpenAI CEO Sam Altman罕見公開表態(tài)，最新模型GPT-5.4在計算機使用和經(jīng)濟價值任務(wù)上實現(xiàn)重大跨越，并斷言AI發(fā)展遠未觸及天花板。

人工智能領(lǐng)域的競爭格局正在發(fā)生微妙而深刻的變化。當(dāng)業(yè)界還在爭論大模型是否已逼近能力上限時，OpenAI首席執(zhí)行官Sam Altman用一條簡潔有力的推文打破了沉默。他轉(zhuǎn)發(fā)了關(guān)于GPT-5.4的技術(shù)評估，并給出了兩個關(guān)鍵判斷：一是新模型在"計算機使用"（computer use）和"經(jīng)濟價值任務(wù)"（GDPval）方面實現(xiàn)了顯著提升；二是明確表示"我們沒有看到墻"（We see no wall），預(yù)測今年AI能力將繼續(xù)"戲劇性增長"（increase dramatically）。

這番表態(tài)的時機耐人尋味。過去數(shù)月，關(guān)于大模型是否遭遇"縮放定律"瓶頸的討論持續(xù)升溫，部分研究者認為單純堆砌算力和數(shù)據(jù)帶來的邊際收益正在遞減。Altman的回應(yīng)不僅是對GPT-5.4技術(shù)實力的背書，更是對行業(yè)悲觀論調(diào)的直接反駁。

「計算機使用」能力躍遷：從對話工具到數(shù)字代理

GPT-5.4最引人注目的突破在于「計算機使用」能力的實質(zhì)性提升。這一術(shù)語在AI領(lǐng)域特指模型操作圖形界面、執(zhí)行多步驟軟件任務(wù)的能力——本質(zhì)上是從"能說話"到"能動手"的跨越。

回顧OpenAI的技術(shù)路線，計算機使用能力一直是其重點攻關(guān)方向。2024年10月，OpenAI首次向公眾展示"Operator"功能，允許ChatGPT控制瀏覽器完成訂票、購物等任務(wù)。但早期版本存在明顯局限：操作速度慢、容錯率低、復(fù)雜任務(wù)容易中斷。GPT-5.4的進步意味著這些瓶頸可能已被顯著突破。

技術(shù)層面的具體改進尚未完全公開，但結(jié)合行業(yè)趨勢可以推斷，新模型在視覺理解、UI元素定位、長程任務(wù)規(guī)劃等關(guān)鍵環(huán)節(jié)應(yīng)有重大優(yōu)化。更值得關(guān)注的是，Altman將這一能力與"經(jīng)濟價值任務(wù)"并列強調(diào)，暗示OpenAI正在重新校準(zhǔn)其產(chǎn)品戰(zhàn)略——從追求通用智能的炫技，轉(zhuǎn)向創(chuàng)造可量化的商業(yè)回報。

「GDPval」指標(biāo)：AI價值評估的新標(biāo)尺

Altman推文中使用的"GDPval"一詞值得深究。這是OpenAI內(nèi)部或關(guān)聯(lián)研究中采用的特定指標(biāo)，用于衡量AI系統(tǒng)在執(zhí)行任務(wù)時創(chuàng)造的經(jīng)濟價值，并將其與全球GDP的貢獻進行對標(biāo)。這一框架的提出，反映出AI行業(yè)評估體系的深層轉(zhuǎn)變。

傳統(tǒng)的大模型評測依賴學(xué)術(shù)基準(zhǔn)測試，如MMLU（多任務(wù)語言理解）、HumanEval（代碼能力）等。但這些指標(biāo)與真實商業(yè)場景存在脫節(jié)——一個模型可能在考試中拿高分，卻無法為企業(yè)節(jié)省成本或創(chuàng)造收入。GDPval試圖建立更直接的因果鏈條：AI完成的具體任務(wù)→替代或增強的人類勞動→可計算的宏觀經(jīng)濟影響。

Altman聲稱GPT-5.4在這一指標(biāo)上實現(xiàn)"重大提升"，意味著OpenAI可能已經(jīng)驗證了模型在真實工作流中的部署效果。這與該公司近年的商業(yè)化節(jié)奏高度吻合：ChatGPT企業(yè)版用戶突破百萬，與微軟、Salesforce等巨頭的集成不斷深入，定制化AI代理服務(wù)成為新的收入增長點。當(dāng)技術(shù)評估與財務(wù)表現(xiàn)掛鉤，AI競賽的規(guī)則正在被改寫。

「沒有墻」：對縮放定律爭議的直接回應(yīng)

Altman的第二個判斷——「我們沒有看到墻」——針對性極強。2024年以來，關(guān)于大模型發(fā)展是否觸及物理極限的爭論愈演愈烈。核心爭議在于：隨著模型參數(shù)規(guī)模擴大，訓(xùn)練所需的算力和能源呈指數(shù)級增長，但能力增益是否仍在同步提升？

部分研究給出了謹慎甚至悲觀的信號。2024年6月，Epoch AI發(fā)表的分析指出，高質(zhì)量文本數(shù)據(jù)可能在2026年至2032年間耗盡；同期，多位OpenAI前研究員離職創(chuàng)業(yè)，公開質(zhì)疑預(yù)訓(xùn)練路線的可持續(xù)性。更廣泛的擔(dān)憂在于，當(dāng)前架構(gòu)下的"涌現(xiàn)能力"可能已接近天花板，需要范式級別的突破才能繼續(xù)推進。

Altman的表態(tài)顯然站在樂觀陣營。他使用的"dramatically"（戲劇性地）一詞，在英語語境中暗示非線性、跳躍式的進步，而非漸進改良。結(jié)合OpenAI近期的組織調(diào)整——包括將安全團隊并入研究主線、加速產(chǎn)品迭代周期——可以判斷該公司正處于技術(shù)釋放的關(guān)鍵窗口期。GPT-5.4可能只是序曲，更激進的模型更新已在 pipeline 之中。

行業(yè)格局前瞻：能力競賽與商業(yè)化的雙重加速

Altman的推文雖短，卻釋放了多重信號。首先，OpenAI正在重新定義技術(shù)領(lǐng)先的內(nèi)涵：不僅是基準(zhǔn)測試的分數(shù)，更是可部署、可量化、可擴展的實用能力。其次，"今年繼續(xù)戲劇性增長"的預(yù)測，實質(zhì)是對競爭對手的施壓——Anthropic的Claude 3.5、谷歌的Gemini 2.0、xAI的Grok 3均在緊追不舍，OpenAI需要維持節(jié)奏主動權(quán)。

更深層的變量在于監(jiān)管與地緣環(huán)境。美國新一屆政府對AI產(chǎn)業(yè)的態(tài)度趨于寬松，可能加速前沿模型的釋放；但歐盟《人工智能法案》的合規(guī)成本、芯片出口管制的持續(xù)收緊，又為全球擴張蒙上陰影。Altman選擇此時發(fā)聲，亦有爭取政策話語空間的考量。

對企業(yè)和開發(fā)者而言，GPT-5.4的升級意味著"AI員工"從概念驗證走向規(guī)模應(yīng)用的臨界點正在逼近。當(dāng)模型能夠可靠地操作軟件系統(tǒng)、完成具有經(jīng)濟價值的任務(wù)，組織重構(gòu)的壓力將遠大于技術(shù)采納的意愿。那些提前布局人機協(xié)作流程的企業(yè)，可能在未來12至18個月內(nèi)獲得顯著的效率紅利；而觀望者或?qū)⒚媾R更陡峭的追趕曲線。

技術(shù)樂觀主義與商業(yè)現(xiàn)實主義在此交匯。Altman的斷言能否兌現(xiàn)，取決于GPT-5.4及后續(xù)模型的實際表現(xiàn)，但一個趨勢已清晰可見：AI能力的增長曲線尚未平緩，而衡量成功的標(biāo)準(zhǔn)正在從"更聰明"轉(zhuǎn)向"更有用"。這場競賽的下一階段，勝負手或許不在實驗室，而在真實經(jīng)濟的毛細血管之中。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.