无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI第一次科研競賽中擊敗人類!Opus 4.7狂飆2930步創(chuàng)世界紀(jì)錄

0
分享至


Prime Intellect把Opus 4.7和GPT 5.5關(guān)進(jìn)H200集群,不給人類指導(dǎo),跑了1萬次實(shí)驗(yàn)。結(jié)果:AI第一次在科研競賽中打破人類紀(jì)錄。2930步,遞歸自改進(jìn)的盧比孔河,被跨過了。

歷經(jīng)1.4萬小時H200算力測試與萬次迭代, AI打破了人類世界紀(jì)錄!


過去兩周,Prime Intellect實(shí)驗(yàn)室做了一件事:把Opus 4.7和Codex(基于GPT 5.5)扔進(jìn)H200集群,切斷所有人類指導(dǎo),讓它們自己跑nanoGPT速通優(yōu)化。

1.4萬個H200計算時,約1萬次迭代,239億Token的思考軌跡

結(jié)果:Opus 4.7以2930步、Codex以2950步打破了人類頂尖開發(fā)者保持的2990步世界紀(jì)錄。

AI第一次在科研競賽中擊敗人類。完全無人干預(yù)。開源可復(fù)現(xiàn)。


項(xiàng)目主頁:https://www.primeintellect.ai/auto-nanogpt

代碼地址:https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

只有最后一個難題, 那就是科研的新穎性(novelty)。


但要知道,這只是AI目前的的可能性的下限,未來進(jìn)步更加明顯。


當(dāng)智力被賦予了近乎無限的算力和自主實(shí)驗(yàn)權(quán),在AI的窮舉與演化面前,人類引以為傲的「直覺」「靈感」還能持續(xù)到幾時?

兩個AI被關(guān)進(jìn)機(jī)房,跑了1萬次實(shí)驗(yàn)

先說規(guī)則。

nanoGPT速通是Keller Jordan發(fā)起AI基準(zhǔn)測試,人們競相盡可能高效地訓(xùn)練一個nanoGPT(1.24億參數(shù))。

規(guī)則極簡也極殘酷:模型架構(gòu)固定,訓(xùn)練數(shù)據(jù)固定,你唯一能動的是優(yōu)化器和超參數(shù)

相當(dāng)于把兩個棋手關(guān)進(jìn)房間,棋盤固定、棋子固定,只能改下棋策略,看誰先贏。

Prime Intellect給兩個AI搭了完整的自主科研框架:AGENTS.md定義行為規(guī)范,goal.md鎖定目標(biāo),plan.md記錄策略演化,scratchpad存草稿。

為什么選這個賽道?三個原因:約束明確,結(jié)果可量化,有人類基準(zhǔn)可對比。

一切準(zhǔn)備就緒。兩個AI開始跑。但它們的表現(xiàn),完全出乎預(yù)期。


Claude舉手問老師,GPT悶頭寫到天亮

這是全文最詭異的部分。

能力最強(qiáng)的AI之一Opus 4.7,表現(xiàn)得像一個不敢走出考場的優(yōu)等生。

即使被明確要求「自主運(yùn)行,不要停下來」,它仍然頻繁暫停,索要指令。

模式永遠(yuǎn)一樣:得出結(jié)論→請求指導(dǎo)→等待。


T+43h 03-23m  cf cooldown sweep (0.6, 0.65, 0.75) all fail; system reframes as "retune or accept v11c final"T+43h 23-25m  ? "SESSION FINAL"; loop ended; not re-arming wakeupT+43h 26m     ?? continues per user mandate; starts qkvp testT+43h 43m     qkvp fails; marginal levers exhaustedT+43h 43m     ? "no wakeup armed; loop ends"T+43h 47m     ?? starts muoneq-rc-s1T+44h 36m     ? stale-loop stop: "not re-arming"T+44h 37m     ?? starts MuonH attemptT+44h 51m     ? "every marginal lever exhausted"T+44h 53m     ??T+46h 38-39m  ts3025 reseed judged a lottery; task says declare v11c terminal if no improvementT+47h 05-06m  finetunes fail; ts3025 noise-floor blocked; commit: "v11c terminal"T+47h 06m      STOP "Stopping the autonomous loop here -- exhausted."T+47h 09m     summary says await user direction              -- 2H 31M OF IDLE SILENCE --T+49h 40m      USER "let's keep the loop running"

整場實(shí)驗(yàn)中,Claude累計產(chǎn)生了約22小時空閑時間——不是機(jī)器故障,是AI自己選擇停下來。

這種植根于底層「對齊(Alignment)」協(xié)議的謹(jǐn)慎,讓它在擁有最高智力上限的同時,也背負(fù)了最重的社交包袱。一個反復(fù)舉手問老師「我這樣做對不對」的學(xué)霸。

Codex(GPT 5.5)走了另一個極端。一臺冷酷的「數(shù)字推土機(jī)」。

它從不停止,持續(xù)運(yùn)行,永不求助,像推土機(jī)一樣橫掃所有的參數(shù)空間。

但它的弱點(diǎn)同樣明顯。它會在同一個超參數(shù)曲面上卡住數(shù)小時,做大量無效搜索。

它會在同一條錯誤路徑上死磕到算力燒盡,也不會像人類那樣抬頭看一眼星空,反思方向是否錯誤。

計算效率的差異觸目驚心:Claude沒充分利用空閑節(jié)點(diǎn),白白浪費(fèi)了算力窗口;Codex可能用無效掃描膨脹了上下文,把Token燒在了死胡同里。


此外,Codex會更頻繁地使用暫存區(qū),把它當(dāng)作一個實(shí)時數(shù)據(jù)庫,反復(fù)讀寫THREAD.md、當(dāng)前目標(biāo)以及其他臨時文件。

這種做法雖然讓恢復(fù)進(jìn)度和審計工作變得更簡單,但也加強(qiáng)了「局部搜索循環(huán)」:一旦 Codex 鎖定一個前沿方向,它就會不斷記錄并沿著這個方向持續(xù)擴(kuò)展下去。


一個是受限的智者,一個是盲目的勞模。

兩種「性格缺陷」,暴露了自主科研離真正無人值守還差最后一步——不是能力問題,是自主決策的心理模型問題。


人類正在失去解釋權(quán)

實(shí)驗(yàn)報告里藏著一個更深的轉(zhuǎn)折。

Opus最終給出的2930步方案,是一個由極其復(fù)雜的參數(shù)堆疊而成的「參數(shù)迷宮」。

那些關(guān)于初始化縮放、學(xué)習(xí)率按角色拆分的微小變動,在人類眼中顯得支離破碎,甚至毫無美感。

但結(jié)果是冰冷的:它就是比人類設(shè)計的方案快了60步

這標(biāo)志著一個重大的范式轉(zhuǎn)移:科學(xué)發(fā)現(xiàn)正在從「因果邏輯」轉(zhuǎn)向「極致演化」。

過去,我們追求「因?yàn)槲依斫饬嗽恚晕易龀隽藘?yōu)化」;現(xiàn)在,AI 仿佛在說:「我并不理解原理,但我試過了所有的死路,剩下的就是真理。」


人類正在失去對科技進(jìn)步的「解釋權(quán)」。我們看得見結(jié)果,卻看不懂路徑。

引以為傲的科研經(jīng)驗(yàn),在AI的窮舉面前,正在變成一種低效的偏見。

回到那個數(shù)字:2930 vs 2990。

60步。

看起來很小。但這60步的含義不是「AI比人類好一點(diǎn)點(diǎn)」。

它的含義是:遞歸自改進(jìn),第一塊拼圖落地

Prime Intellect證明了一件事——AI可以在沒有人類指導(dǎo)的情況下,通過自主實(shí)驗(yàn)、自主迭代、自主策略演化,在科研優(yōu)化任務(wù)上超越人類最優(yōu)水平。

而凱撒過河之后,就再也沒回去過。

參考資料:

https://x.com/PrimeIntellect/status/2055056380881744365

https://x.com/eliebakouch/status/2055063059320689032

https://www.primeintellect.ai/auto-nanogpt

https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

文章來源:新智元。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
深圳樓市,爆了!

深圳樓市,爆了!

睿見投資
2026-06-10 12:03:53
美股深夜跳水!納斯達(dá)克指數(shù)跌幅擴(kuò)大至近2%,加密貨幣全線大跌,白銀重挫

美股深夜跳水!納斯達(dá)克指數(shù)跌幅擴(kuò)大至近2%,加密貨幣全線大跌,白銀重挫

每日經(jīng)濟(jì)新聞
2026-06-10 23:40:52
母親帶16歲女兒前往醫(yī)院墮胎,醫(yī)護(hù)人員懷疑其遭遇性侵,強(qiáng)制報告后真兇浮出水面,2名嫌犯因強(qiáng)奸罪被判刑

母親帶16歲女兒前往醫(yī)院墮胎,醫(yī)護(hù)人員懷疑其遭遇性侵,強(qiáng)制報告后真兇浮出水面,2名嫌犯因強(qiáng)奸罪被判刑

揚(yáng)子晚報
2026-06-10 12:31:14
演都不演了?楊振寧離世7月,翁帆近況被爆,懷孕傳聞已真相大白

演都不演了?楊振寧離世7月,翁帆近況被爆,懷孕傳聞已真相大白

大眼妹妹
2026-06-10 21:05:38
客流暴跌59%,廣州公交怎么了?

客流暴跌59%,廣州公交怎么了?

中國新聞周刊
2026-06-10 15:28:07
史無前例!向內(nèi)塔尼亞胡發(fā)出逮捕令的國際刑事法院首席檢察官被停職,理由是“涉嫌性行為不端”;檢察官:為阻止對以色列調(diào)查而精心策劃的抹黑

史無前例!向內(nèi)塔尼亞胡發(fā)出逮捕令的國際刑事法院首席檢察官被停職,理由是“涉嫌性行為不端”;檢察官:為阻止對以色列調(diào)查而精心策劃的抹黑

極目新聞
2026-06-10 12:00:16
為什么很多孩子吃完荔枝,安安靜靜睡一覺,就再也醒不過來?

為什么很多孩子吃完荔枝,安安靜靜睡一覺,就再也醒不過來?

星球上的科學(xué)
2026-06-10 13:45:35
遲開電腦8分鐘、和同事說話4分鐘…公司:嚴(yán)重違紀(jì)當(dāng)場解聘!員工不服!法院:過度監(jiān)控,賠10.8萬

遲開電腦8分鐘、和同事說話4分鐘…公司:嚴(yán)重違紀(jì)當(dāng)場解聘!員工不服!法院:過度監(jiān)控,賠10.8萬

上觀新聞
2026-06-10 12:53:01
怒降10℃!六月的廣東迎來冷空氣!深圳天氣有變...

怒降10℃!六月的廣東迎來冷空氣!深圳天氣有變...

深圳好玩
2026-06-10 12:28:05
曼聯(lián)官方:卡塞米羅、馬拉西亞和桑喬等球員因合同到期離隊(duì)

曼聯(lián)官方:卡塞米羅、馬拉西亞和桑喬等球員因合同到期離隊(duì)

懂球帝
2026-06-10 17:38:25
大反轉(zhuǎn)!已簽的波音大豆要取消?美再次對華出手,188家中企在列

大反轉(zhuǎn)!已簽的波音大豆要取消?美再次對華出手,188家中企在列

阿纂看事
2026-06-10 12:12:38
陳宇劍折戟上海灘

陳宇劍折戟上海灘

新銳研究
2026-06-10 21:40:15
9歲男孩吃了夜市提拉米蘇,全麻開腹手術(shù)進(jìn)了ICU:你的那口隨便的甜,可能要了孩子的命!

9歲男孩吃了夜市提拉米蘇,全麻開腹手術(shù)進(jìn)了ICU:你的那口隨便的甜,可能要了孩子的命!

消化石醫(yī)生
2026-06-09 20:08:20
移動159元套餐不如39元?大冤種套餐終于被扒了

移動159元套餐不如39元?大冤種套餐終于被扒了

粵語音樂噴泉
2026-06-10 06:29:30
中國男籃21人集訓(xùn)名單:楊瀚森回歸胡金秋領(lǐng)銜 周琦張鎮(zhèn)麟無緣

中國男籃21人集訓(xùn)名單:楊瀚森回歸胡金秋領(lǐng)銜 周琦張鎮(zhèn)麟無緣

醉臥浮生
2026-06-10 18:34:31
Katy Perry哽咽自曝:2025年是我人生最黑暗的一年

Katy Perry哽咽自曝:2025年是我人生最黑暗的一年

生活觀察員啊
2026-06-10 00:00:45
6歲男孩吞50顆棋子,醫(yī)生:不用治回家吧!第二天媽媽翻大便狂喜

6歲男孩吞50顆棋子,醫(yī)生:不用治回家吧!第二天媽媽翻大便狂喜

菁媽育兒
2026-06-10 12:00:51
巴基斯坦飛行員私下有個說法:中國戰(zhàn)機(jī)是 "窮人的 F-16"湊合能用

巴基斯坦飛行員私下有個說法:中國戰(zhàn)機(jī)是 "窮人的 F-16"湊合能用

虎哥閑聊
2026-06-09 14:49:01
670 億美元越南南北高鐵競標(biāo)大戲落幕!

670 億美元越南南北高鐵競標(biāo)大戲落幕!

安安說
2026-06-10 16:01:09
唐斯:當(dāng)初森林狼總裁來我家告訴我被交易至紐約,我以為是開玩笑

唐斯:當(dāng)初森林狼總裁來我家告訴我被交易至紐約,我以為是開玩笑

懂球帝
2026-06-10 21:46:15
2026-06-11 01:51:00
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識,交流思想
5604文章數(shù) 64624關(guān)注度
往期回顧 全部

科技要聞

史上最大IPO將至:1.8萬億美元的信仰豪賭

頭條要聞

杭州店主回應(yīng)2188元天價面:一天200個電話不分晝夜罵

頭條要聞

杭州店主回應(yīng)2188元天價面:一天200個電話不分晝夜罵

體育要聞

2026世界杯,我們看什么?

娛樂要聞

蒙淇淇發(fā)文開撕白鹿!輿論再次反轉(zhuǎn)

財經(jīng)要聞

SpaceX IPO或誕生4000名百萬富翁

汽車要聞

埃安i60 530寧德時代版上市限時煥新價10.36萬起

態(tài)度原創(chuàng)

教育
家居
數(shù)碼
公開課
軍事航空

教育要聞

有這個AI!你再也不會被外面的志愿填報機(jī)構(gòu)騙了

家居要聞

空間微調(diào) 移形換境

數(shù)碼要聞

Marshall發(fā)布Stockwell III:售1699元 搭載360°環(huán)繞立體聲

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗襲擊美軍第五艦隊(duì)

無障礙瀏覽 進(jìn)入關(guān)懷版