導(dǎo)讀:OpenAI CEO Sam Altman罕見公開表態(tài),最新模型GPT-5.4在計算機使用和經(jīng)濟價值任務(wù)上實現(xiàn)重大跨越,并斷言AI發(fā)展遠未觸及天花板。
人工智能領(lǐng)域的競爭格局正在發(fā)生微妙而深刻的變化。當(dāng)業(yè)界還在爭論大模型是否已逼近能力上限時,OpenAI首席執(zhí)行官Sam Altman用一條簡潔有力的推文打破了沉默。他轉(zhuǎn)發(fā)了關(guān)于GPT-5.4的技術(shù)評估,并給出了兩個關(guān)鍵判斷:一是新模型在"計算機使用"(computer use)和"經(jīng)濟價值任務(wù)"(GDPval)方面實現(xiàn)了顯著提升;二是明確表示"我們沒有看到墻"(We see no wall),預(yù)測今年AI能力將繼續(xù)"戲劇性增長"(increase dramatically)。
![]()
這番表態(tài)的時機耐人尋味。過去數(shù)月,關(guān)于大模型是否遭遇"縮放定律"瓶頸的討論持續(xù)升溫,部分研究者認為單純堆砌算力和數(shù)據(jù)帶來的邊際收益正在遞減。Altman的回應(yīng)不僅是對GPT-5.4技術(shù)實力的背書,更是對行業(yè)悲觀論調(diào)的直接反駁。
「計算機使用」能力躍遷:從對話工具到數(shù)字代理
GPT-5.4最引人注目的突破在于「計算機使用」能力的實質(zhì)性提升。這一術(shù)語在AI領(lǐng)域特指模型操作圖形界面、執(zhí)行多步驟軟件任務(wù)的能力——本質(zhì)上是從"能說話"到"能動手"的跨越。
回顧OpenAI的技術(shù)路線,計算機使用能力一直是其重點攻關(guān)方向。2024年10月,OpenAI首次向公眾展示"Operator"功能,允許ChatGPT控制瀏覽器完成訂票、購物等任務(wù)。但早期版本存在明顯局限:操作速度慢、容錯率低、復(fù)雜任務(wù)容易中斷。GPT-5.4的進步意味著這些瓶頸可能已被顯著突破。
技術(shù)層面的具體改進尚未完全公開,但結(jié)合行業(yè)趨勢可以推斷,新模型在視覺理解、UI元素定位、長程任務(wù)規(guī)劃等關(guān)鍵環(huán)節(jié)應(yīng)有重大優(yōu)化。更值得關(guān)注的是,Altman將這一能力與"經(jīng)濟價值任務(wù)"并列強調(diào),暗示OpenAI正在重新校準(zhǔn)其產(chǎn)品戰(zhàn)略——從追求通用智能的炫技,轉(zhuǎn)向創(chuàng)造可量化的商業(yè)回報。
「GDPval」指標(biāo):AI價值評估的新標(biāo)尺
Altman推文中使用的"GDPval"一詞值得深究。這是OpenAI內(nèi)部或關(guān)聯(lián)研究中采用的特定指標(biāo),用于衡量AI系統(tǒng)在執(zhí)行任務(wù)時創(chuàng)造的經(jīng)濟價值,并將其與全球GDP的貢獻進行對標(biāo)。這一框架的提出,反映出AI行業(yè)評估體系的深層轉(zhuǎn)變。
傳統(tǒng)的大模型評測依賴學(xué)術(shù)基準(zhǔn)測試,如MMLU(多任務(wù)語言理解)、HumanEval(代碼能力)等。但這些指標(biāo)與真實商業(yè)場景存在脫節(jié)——一個模型可能在考試中拿高分,卻無法為企業(yè)節(jié)省成本或創(chuàng)造收入。GDPval試圖建立更直接的因果鏈條:AI完成的具體任務(wù)→替代或增強的人類勞動→可計算的宏觀經(jīng)濟影響。
Altman聲稱GPT-5.4在這一指標(biāo)上實現(xiàn)"重大提升",意味著OpenAI可能已經(jīng)驗證了模型在真實工作流中的部署效果。這與該公司近年的商業(yè)化節(jié)奏高度吻合:ChatGPT企業(yè)版用戶突破百萬,與微軟、Salesforce等巨頭的集成不斷深入,定制化AI代理服務(wù)成為新的收入增長點。當(dāng)技術(shù)評估與財務(wù)表現(xiàn)掛鉤,AI競賽的規(guī)則正在被改寫。
「沒有墻」:對縮放定律爭議的直接回應(yīng)
Altman的第二個判斷——「我們沒有看到墻」——針對性極強。2024年以來,關(guān)于大模型發(fā)展是否觸及物理極限的爭論愈演愈烈。核心爭議在于:隨著模型參數(shù)規(guī)模擴大,訓(xùn)練所需的算力和能源呈指數(shù)級增長,但能力增益是否仍在同步提升?
部分研究給出了謹慎甚至悲觀的信號。2024年6月,Epoch AI發(fā)表的分析指出,高質(zhì)量文本數(shù)據(jù)可能在2026年至2032年間耗盡;同期,多位OpenAI前研究員離職創(chuàng)業(yè),公開質(zhì)疑預(yù)訓(xùn)練路線的可持續(xù)性。更廣泛的擔(dān)憂在于,當(dāng)前架構(gòu)下的"涌現(xiàn)能力"可能已接近天花板,需要范式級別的突破才能繼續(xù)推進。
Altman的表態(tài)顯然站在樂觀陣營。他使用的"dramatically"(戲劇性地)一詞,在英語語境中暗示非線性、跳躍式的進步,而非漸進改良。結(jié)合OpenAI近期的組織調(diào)整——包括將安全團隊并入研究主線、加速產(chǎn)品迭代周期——可以判斷該公司正處于技術(shù)釋放的關(guān)鍵窗口期。GPT-5.4可能只是序曲,更激進的模型更新已在 pipeline 之中。
行業(yè)格局前瞻:能力競賽與商業(yè)化的雙重加速
Altman的推文雖短,卻釋放了多重信號。首先,OpenAI正在重新定義技術(shù)領(lǐng)先的內(nèi)涵:不僅是基準(zhǔn)測試的分數(shù),更是可部署、可量化、可擴展的實用能力。其次,"今年繼續(xù)戲劇性增長"的預(yù)測,實質(zhì)是對競爭對手的施壓——Anthropic的Claude 3.5、谷歌的Gemini 2.0、xAI的Grok 3均在緊追不舍,OpenAI需要維持節(jié)奏主動權(quán)。
更深層的變量在于監(jiān)管與地緣環(huán)境。美國新一屆政府對AI產(chǎn)業(yè)的態(tài)度趨于寬松,可能加速前沿模型的釋放;但歐盟《人工智能法案》的合規(guī)成本、芯片出口管制的持續(xù)收緊,又為全球擴張蒙上陰影。Altman選擇此時發(fā)聲,亦有爭取政策話語空間的考量。
對企業(yè)和開發(fā)者而言,GPT-5.4的升級意味著"AI員工"從概念驗證走向規(guī)模應(yīng)用的臨界點正在逼近。當(dāng)模型能夠可靠地操作軟件系統(tǒng)、完成具有經(jīng)濟價值的任務(wù),組織重構(gòu)的壓力將遠大于技術(shù)采納的意愿。那些提前布局人機協(xié)作流程的企業(yè),可能在未來12至18個月內(nèi)獲得顯著的效率紅利;而觀望者或?qū)⒚媾R更陡峭的追趕曲線。
技術(shù)樂觀主義與商業(yè)現(xiàn)實主義在此交匯。Altman的斷言能否兌現(xiàn),取決于GPT-5.4及后續(xù)模型的實際表現(xiàn),但一個趨勢已清晰可見:AI能力的增長曲線尚未平緩,而衡量成功的標(biāo)準(zhǔn)正在從"更聰明"轉(zhuǎn)向"更有用"。這場競賽的下一階段,勝負手或許不在實驗室,而在真實經(jīng)濟的毛細血管之中。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.