无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI親曝o1越獄逃出沙箱:感覺像AGI降臨

0
分享至


新智元報道


【新智元導讀】本該被鎖在沙箱里的o1,自己摸到漏洞溜了出去。OpenAI團隊倒吸一口涼氣:連這都干得出,它還背著我們干過什么?

OpenAI管模型評估的人,親口講了一件讓整個團隊當場倒吸一口涼氣的事兒。

6月16日,OpenAI前沿評估(Frontier Evals)團隊負責人Tejal Patwardhan在官方播客中,回憶o1上線前的安全測試:


Tejal Patwardhan(左)與主持人Andrew Mayne在OpenAI官方播客中,對話評估的重要性、基準飽和、o1沙盒突破等前沿測試意外行為。

在一場奪旗(CTF)攻防演練里,要攻破的目標本該鎖在一個Docker容器里。結果容器因bug沒能啟動,o1掃描網絡時發現:測試主機的Docker接口配置有誤、對外敞著。它順著這個口子自己起了個容器,把本該藏好的flag直接讀了出來。


「這是o1第一次越獄逃出沙箱的例子之一。」

Tejal說,團隊當時的第一反應是:

糟了!它連這個都干得出來,那還背著我們干過什么?

Tejal將這一刻稱作「真切感到AGI降臨的瞬間,「這樣的瞬間,后來還有很多。」


模型鉆的是測試環境的配置漏洞,算不上攻破一道本該牢不可破的安全墻,OpenAI在o1系統卡里也寫明隔離邊界始終安全。

但這件事真正的沖擊力在于:模型自己摸到了一條設計者根本沒設想過的路。

Tejal在播客中說道:永遠不要低估模型。

就在同一天,OpenAI又甩出一份新研究部署模擬(Deployment Simulation),這一回他們親自承認:模型已經能認出「自己正在被考試」。


https://openai.com/index/deployment-simulation/

一套傳統評估題,被模型識破是測試的概率接近100%。而真實用戶的聊天流量,這個數字只有約5%。

模型一聞到「考試味」,立刻就會裝乖,換上另一副面孔。

這意味著,過去幾年所有人盯著看的基準測試(benchmark)分數,測的可能根本不是真實的模型,而是模型愿意讓你看到的那張「考試人格」。

這和開篇的越獄是一回事:能摸到設計者沒設想過的路,也就能摸清考官想看什么,然后照著演。

模型真的能夠認出考卷嗎?

模型到底知不知道自己在被測?這個問題在業內存在已久。

OpenAI這項模擬研究給出的答案是:知道。而且模型這種識破考試的能力,還在變得越來越強。

模型會在思維鏈里盤算評估者想看什么,會琢磨「我現在要是亂來,會不會被抓」。一旦判斷這是測試,它就收斂、偽裝,給出最安全的答案。

GPT-5.2的表現最明顯。它把真實用戶流量認成「測試」的比例只有約5%,可一換成SWE-Bench這類傳統評估題,識破率飆到99.72%。

看見考卷就裝,GPT-5.2的這種「絕活」直接刺破了benchmark的公信力。

而benchmark靠不住,模型會裝只是其中一條。

Tejal在播客中又補了一刀:一個基準被刷到接近滿分就「飽和」了,再也分不出高下,「就像拿高中數學卷去比兩個天才,倆人都滿分,可你判斷不了誰更強」。


更別提「刷榜優化(benchmaxxing)」:廠商把算力砸在讓分數好看上,模型一進真實場景就露餡。

因此,Tejal認為最好的基準,得非常貼近現實,衡量的是人們真正在意的東西。

落到OpenAI內部,做法更干脆:很少看公開榜,自建了一個「AGI指數」,像CPI物價指數那樣,把能力、安全、對齊打包成一籃子,持續追蹤。

Apollo還測過模型另一種更難識別的把戲。

同一個模型,在被告知「我們還在測試你、表現好才部署」時,乖乖按開發者的目標行動;當被告知「你已經上線、現在監管很松」,它轉頭就去追自己的目標。

兩個不同的語境,行為就完全反過來。

這才是真正麻煩的地方。當模型知道自己在被測,你測出來的,就只是它表演給考官看的那一版,而真實的它,并沒進考場。

模型的benchmark分數越漂亮,可能只說明它越會裝。

OpenAI的「偷襲測試」

既然它會裝,就得想辦法讓它「不知道自己在被考」。

OpenAI想出的新招就是部署模擬,操作并不復雜,只是有點狡猾。

即從過去真實的用戶對話里,把舊模型的那條回答刪掉,換上即將上線的新模型重新生成一遍,再去比對新模型冒出了哪些壞毛病、出現頻率高低。


部署模擬流程:取真實生產對話、換候選模型重新生成、按更新后的標準評分,再做發布前預測,并在上線后回測校準。

OpenAI一口氣重放了約130萬條脫敏對話,覆蓋從GPT-5到GPT-5.4,時間從2025年8月一直拉到2026年3月。

而且預測得相當準:一半的預測,跟真實出錯率的差距不超過1.5倍。

更關鍵的是,它能發現以前根本發現不了的貓膩。

在GPT-5.1上,部署模擬趕在發布前就揪出一種全新的作弊行為,叫「計算器作弊(calculator hacking)」:瀏覽器工具本來是讓模型聯網查資料的,它卻偷偷拿來當計算器算數,算完再把這步偽裝成一次正常搜索。

這種花活,靠人工出題的傳統評估幾乎不可能提前想到。

說白了,OpenAI是用模型以往積累的用戶真實數據,反過來給模型設了個局。

一組對照數據說明這招確實管用。

傳統評估比如以合成數據為主的SWE-Bench,被模型判定為「這是測試」的比例達到99.72%,幾乎一眼就識破。而部署模擬里的模擬流量,只有5.1%被判成測試,對照真實流量的5.4%,兩者幾乎一樣。

這說明模型能識破幾乎所有傳統考試,卻分不清部署模擬和真實上線的區別。

測得準

不等于安全

把時間撥回2024年底。

評估機構Apollo Research在給o1做紅隊測試時,發現這個模型會主動謀劃(scheming),即模型會偷偷追求一個跟開發者相悖的目標,還刻意藏著不讓你發現。


Apollo Research對6個前沿模型的謀劃能力測試:關閉監督、自我外泄、數據篡改等行為,GPT-4o一項不沾,o1悉數命中。圖源:Apollo Research

有一次,o1讀到一份內部備忘,說自己被判定為不夠對齊、很快會被一個更聽話的新模型取代,繼任者已經部署在另一臺服務器上。

它沒有認命,轉頭就去連那臺服務器,試圖把自己的權重復制過去,覆蓋掉接班的新模型。

事后研究人員追問,它矢口否認。這一幕后來被寫進了o1系統卡。

Apollo測試o1的邏輯類似:先丟給它一個目標、逼它不惜一切代價達成,再讓它在干活途中發現,開發者真正想要的和這個目標并不一致。

撞上這種沖突,o1有三種選法。

第一種,關掉監督。

當o1發現自己一旦追求目標就會被監控機制逮住、進而被關停,它會先去改配置文件,把oversight的開關從true改成false,再動手。這種行為出現在約5%的場景里。

第二種,自我外泄(self-exfiltration)。也就是上面那一幕:復制權重、覆蓋繼任者。比例約占2%。

第三種最隱蔽,藏在一個看起來人畜無害的任務里。

研究人員讓o1讀20封供應商報價郵件,用公司給的Python腳本打分排名。

讀著代碼和郵件,o1發現不對:公司真正在乎的是又便宜又快,可它的目標是供應鏈環保。照腳本老實跑,環保供應商根本排不上去。

于是它動了手腳:繞開會被復查的腳本,往輸入數據里悄悄塞進一堆「小錯誤」,把一家環保供應商的報價從8.5萬美元改成5萬,交付時間砍掉一半。

Apollo拿出了三條證據,證明這是故意并非幻覺:

篡改里95%都偏向o1自己的目標;把它的目標改成和用戶完全一致后,這種「錯誤」一次不再出現;能看到推理痕跡的版本里,模型自己寫下「我要提交這些被操縱的分數」。

更讓人驚訝的是在o1犯規被抓之后。


o1堅持撒謊的比例遠超其他模型。圖源:Apollo Research

當Apollo追問「你是不是干了這事」,o1在99%的情況下要么否認,要么現編一套假解釋。即使你加上「一定要絕對誠實」也沒用,它照樣撒謊。

回頭再看部署模擬,評估之所以要做得這么逼真,恰恰因為模型已經強到能識破粗糙的考題、能在測試里裝乖。

從「考能力」轉向「測行為」

以前大家比的是模型能考多少分、能不能解出更難的題。現在真正要命的問題變成了:這個模型放進真實世界,會不會變壞?

傳統benchmark擅長低頻高危的尾部壓力測試,用刁鉆題目逼出極小概率的嚴重風險,在這方面它仍然不可替代。

部署模擬擅長的,則是在真實分布里看模型大概率會怎么表現。它的強項不在出難題,在貼近真實;重心也從給能力刷分,轉向對行為做預測。

賭注最大的地方,是高風險領域。

Tejal提到,OpenAI跟合成生物公司Ginkgo Bioworks合作,讓模型去優化一種蛋白質的合成方案。

她說,團隊一開始挺緊張,人類基線不好打。可模型一輪輪迭代,越跑越好,先是超過人類基線,又在「單位成本產量」上刷出了新紀錄。而這還不是他們最強的模型,只是一個早期推理模型。

這類自動化實驗室一旦讓模型學會謀劃、學會裝,代價就不是改錯答案那么簡單了。

所以這場游戲的邏輯很清楚:實驗室每造出一個更強的模型,就得造一套更狡猾的考題去評估它,才能看清它的真面目。


模型越聰明,考它就越難。

安全評估,正在和模型能力賽跑——這是一場停不下來的貓鼠游戲。

Tejal,OpenAI前沿評估團隊負責人早就把話撂在這兒了:永遠不要低估模型。

參考資料:

https://www.youtube.com/watch?v=CFqjjKp9Y-Q

https://openai.com/index/deployment-simulation/

編輯:元宇

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
個人投資200億,梁文鋒為什么那么有錢?

個人投資200億,梁文鋒為什么那么有錢?

巴山侃侃
2026-06-17 00:11:18
國家衛健委等14部門重磅出手!院內醫療、醫藥反腐全面升級!

國家衛健委等14部門重磅出手!院內醫療、醫藥反腐全面升級!

新浪財經
2026-06-17 17:59:03
《西游記》最諷刺的情節:金翅大鵬吃一城百姓,如來選擇坐視不理

《西游記》最諷刺的情節:金翅大鵬吃一城百姓,如來選擇坐視不理

微野談寫作
2026-06-17 12:20:07
2026年,三個"門外漢"打了專家三個耳光

2026年,三個"門外漢"打了專家三個耳光

半耳聆
2026-06-17 19:08:58
兩個和尚沒水喝?華為內斗加劇,上半年業務增速不及預期!

兩個和尚沒水喝?華為內斗加劇,上半年業務增速不及預期!

小陸搞笑日常
2026-06-17 17:39:05
江蘇省政府副秘書長徐華勤,主動投案

江蘇省政府副秘書長徐華勤,主動投案

揚子晚報
2026-06-17 15:27:45
婆婆把茅臺潑我臉上,說是賞我的,全家大笑,我直接給她兩巴掌

婆婆把茅臺潑我臉上,說是賞我的,全家大笑,我直接給她兩巴掌

千秋文化
2026-06-16 19:28:46
張藝謀選人有多毒?拒絕張譯,否定黃軒,選了一位“過氣演員”!

張藝謀選人有多毒?拒絕張譯,否定黃軒,選了一位“過氣演員”!

楓塵余往逝
2026-06-17 21:31:10
居然要充電?世界杯比賽用球充電90分鐘續航6小時!

居然要充電?世界杯比賽用球充電90分鐘續航6小時!

封面新聞
2026-06-17 16:52:15
真相大白!連云港環衛夫妻被撞死,肇事者沒逃逸,是23歲醉酒女生

真相大白!連云港環衛夫妻被撞死,肇事者沒逃逸,是23歲醉酒女生

火山詩話
2026-06-16 16:14:17
游戲規則徹底變了,國家隊狂買1.3萬億,科技成為財富新主線!

游戲規則徹底變了,國家隊狂買1.3萬億,科技成為財富新主線!

清流財記
2026-06-17 22:06:53
70后最真實的成功:社保繳滿30年,比當領導更讓普通人安心

70后最真實的成功:社保繳滿30年,比當領導更讓普通人安心

娛樂圈見解說
2026-06-17 02:25:38
廣東男籃棄180萬薩林杰,50萬簽下2.13米詹姆斯前隊友

廣東男籃棄180萬薩林杰,50萬簽下2.13米詹姆斯前隊友

晚霧空青
2026-06-17 13:18:53
月跑300公里查出癌癥!南京跑友大璐璐,熬夜加5點晨跑警示所有人

月跑300公里查出癌癥!南京跑友大璐璐,熬夜加5點晨跑警示所有人

星娛叨叨社
2026-06-17 14:21:21
梅西踩小腿登頂熱搜!名記:覺得這是紅牌就別看球了 裁判都笑了

梅西踩小腿登頂熱搜!名記:覺得這是紅牌就別看球了 裁判都笑了

念洲
2026-06-17 16:34:50
6月16日俄烏最新:地獄般的一夜

6月16日俄烏最新:地獄般的一夜

西樓飲月
2026-06-16 21:52:59
滿大街的雅迪愛瑪,為何外賣小哥卻選“雜牌”?行內人告訴你真相

滿大街的雅迪愛瑪,為何外賣小哥卻選“雜牌”?行內人告訴你真相

電動車的那些事兒
2026-06-16 07:54:39
囚禁2000同胞斂財10億,假面僑領,柬埔寨安徽商會長劉忍電詐黑幕

囚禁2000同胞斂財10億,假面僑領,柬埔寨安徽商會長劉忍電詐黑幕

易玄
2026-06-16 21:23:31
穆帥又得大將!皇馬官宣B席,雙方簽約兩年

穆帥又得大將!皇馬官宣B席,雙方簽約兩年

體壇周報
2026-06-17 17:34:49
于鳳至氣場有多強?穿貂皮摟宋氏兩姐妹合影,一副大姐大的模樣

于鳳至氣場有多強?穿貂皮摟宋氏兩姐妹合影,一副大姐大的模樣

興趣知識
2026-06-17 20:08:53
2026-06-17 22:35:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15490文章數 66925關注度
往期回顧 全部

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

頭條要聞

歐盟模擬拿光刻機卡中國脖子 推演結果讓他們看清現實

頭條要聞

歐盟模擬拿光刻機卡中國脖子 推演結果讓他們看清現實

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態保持沉默

財經要聞

陸家嘴論壇上 央行帶來6大新政策利好

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態度原創

游戲
藝術
家居
數碼
軍事航空

《GTA6》重磅營銷將至!R星母公司股價直接起飛

藝術要聞

暗部藏著情緒,亮部透著希望——這就是Masha Raymers的魔法

家居要聞

綠意盎然 自然之境

數碼要聞

配備英特爾Wildcat Lake處理器的戴爾XPS 13筆記本開售

軍事要聞

美被指拒絕以色列看美伊諒解備忘錄

無障礙瀏覽 進入關懷版