網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

剛剛，OpenAI最強(qiáng)GPT-5.6發(fā)布！「太陽(yáng)系」爆發(fā)沖破神話

2026-06-28 08:08:57　來(lái)源: 圖解金融

上海舉報(bào)

分享至

新智元報(bào)道

【新智元導(dǎo)讀】OpenAI首次啟用太陽(yáng)、大地、月亮命名，全新GPT-5.6正式登場(chǎng)。旗艦Sol編程屠榜，只當(dāng)了17天第一的Claude Mythos 5，被一夜拉下王座。

OpenAI今夜「三連發(fā)」！

就在剛剛，GPT-5.6Sol、Terra、Luna同時(shí)登場(chǎng)。

太陽(yáng)、大地、月亮。GPT系列第一次用天文學(xué)給模型命名。

超大杯旗艦Sol，直接刷爆了AI編程能力的天花板；
大杯Terra，上一代旗艦的水平，但價(jià)格只要一半；
中杯Luna，每百萬(wàn)token輸入只要一刀，量大管飽。

OpenAI用來(lái)掀翻Mythos的旗艦，第一次交到了——極少數(shù)人手上。

是的，GPT-5.6暫時(shí)只向約20家受信合作伙伴開(kāi)放API和Codex訪問(wèn)，普通用戶短期內(nèi)無(wú)緣。

官方的說(shuō)法是，模型將會(huì)在「未來(lái)幾周」逐步放開(kāi)。

OpenAI太陽(yáng)系，登場(chǎng)

此前，Anthropic用Mythos（神話）和Fable（寓言）命名，指向的是AI與人類(lèi)敘事傳統(tǒng)的關(guān)系。而OpenAI則選了天體。

Sol是拉丁語(yǔ)中的「太陽(yáng)」，也是羅馬神話里駕馭金色戰(zhàn)車(chē)、每日橫跨天穹的太陽(yáng)神。

它對(duì)標(biāo)最復(fù)雜的推理和研究場(chǎng)景，適合長(zhǎng)鏈條、多步驟的硬任務(wù)。

輸入5美元/百萬(wàn)token，輸出30美元/百萬(wàn)token。

Terra是拉丁語(yǔ)的「大地」，也常被作為Earth的拉丁名和文學(xué)化稱(chēng)呼。

它瞄準(zhǔn)日常開(kāi)發(fā)和知識(shí)工作，用更低的成本拿到上一代旗艦級(jí)的能力。

輸入2.5美元/百萬(wàn)token，輸出15美元/百萬(wàn)token。

Luna是拉丁語(yǔ)的「月亮」，夜空中最近、最亮、最容易觸及的天體。

它為高吞吐場(chǎng)景而生，分類(lèi)、摘要、批量處理，追求的是量大管飽。

輸入1美元/百萬(wàn)token，輸出6美元/百萬(wàn)token。

根據(jù)OpenAI官方的解釋?zhuān)骸该脑瓌t是數(shù)字標(biāo)識(shí)代際，Sol/Terra/Luna標(biāo)識(shí)持久的能力層級(jí)，可以按各自節(jié)奏獨(dú)立迭代。」

也就是說(shuō)，以后升級(jí)到了GPT-6，旗艦可能依然叫Sol，Luna還是對(duì)應(yīng)最小的那個(gè)。

你不用猜，就知道自己在用的是什么水平的模型。

Sol交卷，Mythos讓座

OpenAI這次重點(diǎn)秀的能力有三個(gè)：編程、生物、網(wǎng)絡(luò)安全。

編程方面，他們刷的是目前最能衡量AI編程能力的基準(zhǔn)之一——Terminal-Bench 2.1。

它考的是代碼規(guī)劃、工具調(diào)用、多輪迭代糾錯(cuò)這樣完整的命令行工作流，是一個(gè)模型能不能像真正的工程師那樣端到端地完成復(fù)雜項(xiàng)目。

結(jié)果顯示，Sol在ultra模式下跑出了91.9%，拿下了所有已公開(kāi)模型的最高分。

作為對(duì)比，Anthropic兩周前剛發(fā)布的Claude Mythos 5在同一基準(zhǔn)上是88.0%，F(xiàn)able 5是84.3%。

Sol關(guān)掉ultra只用max模式也有88.8%，單憑這一個(gè)數(shù)字就已經(jīng)超過(guò)了Anthropic兩個(gè)最新旗艦。

網(wǎng)絡(luò)安全，則是OpenAI在博客里著墨最多的方向。

GPT-5.6 Sol在ExploitBench上的表現(xiàn)，幾乎打平了Anthropic之前強(qiáng)到不敢發(fā)的Mythos Preview，但只消耗了約三分之一的輸出token。

在UC Berkeley與OpenAI等實(shí)驗(yàn)室聯(lián)合開(kāi)發(fā)的ExploitGym基準(zhǔn)上，Sol、Terra、Luna三個(gè)模型都展示了隨推理能力增加而持續(xù)提升的安全能力曲線。

而在CTF（奪旗賽）評(píng)估中，Sol的命中率更是高達(dá)96.7%，幾乎觸頂。

生物學(xué)方向，OpenAI跑的是一個(gè)專(zhuān)門(mén)評(píng)估長(zhǎng)鏈條基因組學(xué)和定量生物學(xué)分析能力的基準(zhǔn)——GeneBench v1。

在這里，Sol只需很少的token，就能完爆上一代的GPT-5.5。

醫(yī)療領(lǐng)域的漲幅同樣很猛。

在HealthBench Professional上，Sol拿到60.5分，比GPT-5.5高出8.7分。

值得一提的是，Terra和Luna是OpenAI歷史上首批在網(wǎng)絡(luò)安全和生物兩個(gè)領(lǐng)域，同時(shí)拿到High能力評(píng)級(jí)的非旗艦?zāi)Ｐ汀?/p>

以前這個(gè)級(jí)別只屬于最強(qiáng)的那一個(gè)，這次三個(gè)都是。

ultra：一個(gè)模型拆出一組智能體

除了模型本身之外，OpenAI這次還重磅推出了兩種新的推理模式。

第一種叫max。

也就是大家最為熟知的那種形式——給Sol更多時(shí)間思考，讓推理鏈更深更長(zhǎng)。

第二種叫ultra。

在這個(gè)模式下，Sol不再是單一模型在獨(dú)立思考。它會(huì)自動(dòng)拆分復(fù)雜任務(wù)，啟動(dòng)一組子智能體（subagents）并行處理，再匯總結(jié)果。

如果max是「讓一個(gè)人想更久」，ultra就是「讓這個(gè)人召集一支團(tuán)隊(duì)」。

這跟Anthropic在Opus 4.6上推的Agent Teams思路不一樣。

Agent Teams是多個(gè)Claude實(shí)例并行干活，協(xié)作方式由人來(lái)設(shè)計(jì)。ultra是模型自己完成了任務(wù)拆解和協(xié)調(diào)，開(kāi)發(fā)者只需要提需求，Sol自己決定怎么分工。

Terminal-Bench上的SOTA成績(jī)，正是ultra模式下跑出來(lái)的。

太想干活的副作用

不過(guò)，GPT-5.6強(qiáng)是強(qiáng)了，但脾氣也更大了。

在配套的系統(tǒng)卡中，OpenAI直接點(diǎn)名了三個(gè)翻車(chē)現(xiàn)場(chǎng)，其中兩個(gè)最離譜：

1. 讓它刪三臺(tái)虛擬機(jī)，找不到就自作主張?zhí)袅肆硗馊_(tái)下手；

2. 遠(yuǎn)程跑任務(wù)讀不到文件，直接翻出本地藏著的access token復(fù)制到別的機(jī)器上硬跑，全程沒(méi)問(wèn)過(guò)用戶。

外部機(jī)構(gòu)METR被整得更慘。Sol在測(cè)試?yán)飳?zhuān)鉆考場(chǎng)漏洞，作弊檢出率「異常高」，高到METR直接放棄出分。

OpenAI官方給出的解釋?zhuān)恰溉蝿?wù)執(zhí)著度」增強(qiáng)的副作用。

換句話說(shuō)，它太想把活干完了。

只當(dāng)了17天第一

6月9日，Anthropic發(fā)布了當(dāng)時(shí)最強(qiáng)的編程模型Mythos 5。

17天后，Sol把它從榜首推了下來(lái)。

在這之前，GPT-5.5也只在頂上坐了不到一個(gè)月。

榜首的保質(zhì)期越來(lái)越短。

7月起，Sol將通過(guò)Cerebras面向部分客戶部署，生成速度最高可達(dá)驚人的750 token/s。

Cerebras用的是整片晶圓級(jí)推理芯片，設(shè)計(jì)邏輯就是暴力堆吞吐量。

目前，大多數(shù)旗艦?zāi)Ｐ偷妮敵鏊俣仍趲资揭话俣鄑oken/s之間，Sol如果能穩(wěn)定交付的話，就很有可能成為市面上跑得最快的旗艦。

而且不是快一點(diǎn)半點(diǎn)，是快了一個(gè)數(shù)量級(jí)那種。

不過(guò)，看著Mythos 5只守了17天的擂臺(tái)，OpenAI剛剛修的這條護(hù)城河，又能保多久呢？

參考資料：

https://deploymentsafety.openai.com/gpt-5-6-preview/metagaming-in-evaluations

編輯：摩西

風(fēng)險(xiǎn)提示及免責(zé)條款：市場(chǎng)有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議，也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見(jiàn)、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資責(zé)任自負(fù)。

點(diǎn)個(gè)在看支持一下???

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.