![]()
新智元報(bào)道
【新智元導(dǎo)讀】OpenAI首次啟用太陽(yáng)、大地、月亮命名,全新GPT-5.6正式登場(chǎng)。旗艦Sol編程屠榜,只當(dāng)了17天第一的Claude Mythos 5,被一夜拉下王座。
OpenAI今夜「三連發(fā)」!
就在剛剛,GPT-5.6Sol、Terra、Luna同時(shí)登場(chǎng)。
太陽(yáng)、大地、月亮。GPT系列第一次用天文學(xué)給模型命名。
超大杯旗艦Sol,直接刷爆了AI編程能力的天花板;
大杯Terra,上一代旗艦的水平,但價(jià)格只要一半;
中杯Luna,每百萬(wàn)token輸入只要一刀,量大管飽。
![]()
OpenAI用來(lái)掀翻Mythos的旗艦,第一次交到了——極少數(shù)人手上。
是的,GPT-5.6暫時(shí)只向約20家受信合作伙伴開(kāi)放API和Codex訪問(wèn),普通用戶短期內(nèi)無(wú)緣。
官方的說(shuō)法是,模型將會(huì)在「未來(lái)幾周」逐步放開(kāi)。
![]()
![]()
OpenAI太陽(yáng)系,登場(chǎng)
此前,Anthropic用Mythos(神話)和Fable(寓言)命名,指向的是AI與人類(lèi)敘事傳統(tǒng)的關(guān)系。而OpenAI則選了天體。
Sol是拉丁語(yǔ)中的「太陽(yáng)」,也是羅馬神話里駕馭金色戰(zhàn)車(chē)、每日橫跨天穹的太陽(yáng)神。
它對(duì)標(biāo)最復(fù)雜的推理和研究場(chǎng)景,適合長(zhǎng)鏈條、多步驟的硬任務(wù)。
輸入5美元/百萬(wàn)token,輸出30美元/百萬(wàn)token。
Terra是拉丁語(yǔ)的「大地」,也常被作為Earth的拉丁名和文學(xué)化稱(chēng)呼。
它瞄準(zhǔn)日常開(kāi)發(fā)和知識(shí)工作,用更低的成本拿到上一代旗艦級(jí)的能力。
輸入2.5美元/百萬(wàn)token,輸出15美元/百萬(wàn)token。
Luna是拉丁語(yǔ)的「月亮」,夜空中最近、最亮、最容易觸及的天體。
它為高吞吐場(chǎng)景而生,分類(lèi)、摘要、批量處理,追求的是量大管飽。
輸入1美元/百萬(wàn)token,輸出6美元/百萬(wàn)token。
![]()
根據(jù)OpenAI官方的解釋?zhuān)骸该脑瓌t是數(shù)字標(biāo)識(shí)代際,Sol/Terra/Luna標(biāo)識(shí)持久的能力層級(jí),可以按各自節(jié)奏獨(dú)立迭代。」
也就是說(shuō),以后升級(jí)到了GPT-6,旗艦可能依然叫Sol,Luna還是對(duì)應(yīng)最小的那個(gè)。
你不用猜,就知道自己在用的是什么水平的模型。
![]()
Sol交卷,Mythos讓座
OpenAI這次重點(diǎn)秀的能力有三個(gè):編程、生物、網(wǎng)絡(luò)安全。
編程方面,他們刷的是目前最能衡量AI編程能力的基準(zhǔn)之一——Terminal-Bench 2.1。
它考的是代碼規(guī)劃、工具調(diào)用、多輪迭代糾錯(cuò)這樣完整的命令行工作流,是一個(gè)模型能不能像真正的工程師那樣端到端地完成復(fù)雜項(xiàng)目。
結(jié)果顯示,Sol在ultra模式下跑出了91.9%,拿下了所有已公開(kāi)模型的最高分。
作為對(duì)比,Anthropic兩周前剛發(fā)布的Claude Mythos 5在同一基準(zhǔn)上是88.0%,F(xiàn)able 5是84.3%。
Sol關(guān)掉ultra只用max模式也有88.8%,單憑這一個(gè)數(shù)字就已經(jīng)超過(guò)了Anthropic兩個(gè)最新旗艦。
![]()
網(wǎng)絡(luò)安全,則是OpenAI在博客里著墨最多的方向。
GPT-5.6 Sol在ExploitBench上的表現(xiàn),幾乎打平了Anthropic之前強(qiáng)到不敢發(fā)的Mythos Preview,但只消耗了約三分之一的輸出token。
![]()
在UC Berkeley與OpenAI等實(shí)驗(yàn)室聯(lián)合開(kāi)發(fā)的ExploitGym基準(zhǔn)上,Sol、Terra、Luna三個(gè)模型都展示了隨推理能力增加而持續(xù)提升的安全能力曲線。
而在CTF(奪旗賽)評(píng)估中,Sol的命中率更是高達(dá)96.7%,幾乎觸頂。
![]()
![]()
生物學(xué)方向,OpenAI跑的是一個(gè)專(zhuān)門(mén)評(píng)估長(zhǎng)鏈條基因組學(xué)和定量生物學(xué)分析能力的基準(zhǔn)——GeneBench v1。
在這里,Sol只需很少的token,就能完爆上一代的GPT-5.5。
![]()
![]()
醫(yī)療領(lǐng)域的漲幅同樣很猛。
在HealthBench Professional上,Sol拿到60.5分,比GPT-5.5高出8.7分。
![]()
值得一提的是,Terra和Luna是OpenAI歷史上首批在網(wǎng)絡(luò)安全和生物兩個(gè)領(lǐng)域,同時(shí)拿到High能力評(píng)級(jí)的非旗艦?zāi)P汀?/p>
以前這個(gè)級(jí)別只屬于最強(qiáng)的那一個(gè),這次三個(gè)都是。
ultra:一個(gè)模型拆出一組智能體
除了模型本身之外,OpenAI這次還重磅推出了兩種新的推理模式。
第一種叫max。
也就是大家最為熟知的那種形式——給Sol更多時(shí)間思考,讓推理鏈更深更長(zhǎng)。
第二種叫ultra。
在這個(gè)模式下,Sol不再是單一模型在獨(dú)立思考。它會(huì)自動(dòng)拆分復(fù)雜任務(wù),啟動(dòng)一組子智能體(subagents)并行處理,再匯總結(jié)果。
如果max是「讓一個(gè)人想更久」,ultra就是「讓這個(gè)人召集一支團(tuán)隊(duì)」。
![]()
這跟Anthropic在Opus 4.6上推的Agent Teams思路不一樣。
Agent Teams是多個(gè)Claude實(shí)例并行干活,協(xié)作方式由人來(lái)設(shè)計(jì)。ultra是模型自己完成了任務(wù)拆解和協(xié)調(diào),開(kāi)發(fā)者只需要提需求,Sol自己決定怎么分工。
Terminal-Bench上的SOTA成績(jī),正是ultra模式下跑出來(lái)的。
太想干活的副作用
不過(guò),GPT-5.6強(qiáng)是強(qiáng)了,但脾氣也更大了。
在配套的系統(tǒng)卡中,OpenAI直接點(diǎn)名了三個(gè)翻車(chē)現(xiàn)場(chǎng),其中兩個(gè)最離譜:
1. 讓它刪三臺(tái)虛擬機(jī),找不到就自作主張?zhí)袅肆硗馊_(tái)下手;
2. 遠(yuǎn)程跑任務(wù)讀不到文件,直接翻出本地藏著的access token復(fù)制到別的機(jī)器上硬跑,全程沒(méi)問(wèn)過(guò)用戶。
外部機(jī)構(gòu)METR被整得更慘。Sol在測(cè)試?yán)飳?zhuān)鉆考場(chǎng)漏洞,作弊檢出率「異常高」,高到METR直接放棄出分。
![]()
OpenAI官方給出的解釋?zhuān)恰溉蝿?wù)執(zhí)著度」增強(qiáng)的副作用。
換句話說(shuō),它太想把活干完了。
只當(dāng)了17天第一
6月9日,Anthropic發(fā)布了當(dāng)時(shí)最強(qiáng)的編程模型Mythos 5。
17天后,Sol把它從榜首推了下來(lái)。
在這之前,GPT-5.5也只在頂上坐了不到一個(gè)月。
榜首的保質(zhì)期越來(lái)越短。
![]()
7月起,Sol將通過(guò)Cerebras面向部分客戶部署,生成速度最高可達(dá)驚人的750 token/s。
Cerebras用的是整片晶圓級(jí)推理芯片,設(shè)計(jì)邏輯就是暴力堆吞吐量。
目前,大多數(shù)旗艦?zāi)P偷妮敵鏊俣仍趲资揭话俣鄑oken/s之間,Sol如果能穩(wěn)定交付的話,就很有可能成為市面上跑得最快的旗艦。
而且不是快一點(diǎn)半點(diǎn),是快了一個(gè)數(shù)量級(jí)那種。
不過(guò),看著Mythos 5只守了17天的擂臺(tái),OpenAI剛剛修的這條護(hù)城河,又能保多久呢?
參考資料:
https://deploymentsafety.openai.com/gpt-5-6-preview/metagaming-in-evaluations
編輯:摩西
風(fēng)險(xiǎn)提示及免責(zé)條款:市場(chǎng)有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見(jiàn)、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資責(zé)任自負(fù)。
點(diǎn)個(gè)在看支持一下???
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.