无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

AI第一次科研競賽中擊敗人類!Opus 4.7狂飆2930步創世界紀錄

0
分享至


新智元報道

編輯:KingHZ

【新智元導讀】Prime Intellect把Opus 4.7和GPT 5.5關進H200集群,不給人類指導,跑了1萬次實驗。結果:AI第一次在科研競賽中打破人類紀錄。2930步,遞歸自改進的盧比孔河,被跨過了。

歷經1.4萬小時H200算力測試與萬次迭代, AI打破了人類世界紀錄!


過去兩周,Prime Intellect實驗室做了一件事:把Opus 4.7和Codex(基于GPT 5.5)扔進H200集群,切斷所有人類指導,讓它們自己跑nanoGPT速通優化。

1.4萬個H200計算時,約1萬次迭代,239億Token的思考軌跡

結果:Opus 4.7以2930步、Codex以2950步打破了人類頂尖開發者保持的2990步世界紀錄。

AI第一次在科研競賽中擊敗人類。完全無人干預。開源可復現。


項目主頁:https://www.primeintellect.ai/auto-nanogpt

代碼地址:https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

只有最后一個難題, 那就是科研的新穎性(novelty)。


但要知道,這只是AI目前的的可能性的下限,未來進步更加明顯。


當智力被賦予了近乎無限的算力和自主實驗權,在AI的窮舉與演化面前,人類引以為傲的「直覺」「靈感」還能持續到幾時?

兩個AI被關進機房,跑了1萬次實驗

先說規則。

nanoGPT速通是Keller Jordan發起AI基準測試,人們競相盡可能高效地訓練一個nanoGPT(1.24億參數)。

規則極簡也極殘酷:模型架構固定,訓練數據固定,你唯一能動的是優化器和超參數

相當于把兩個棋手關進房間,棋盤固定、棋子固定,只能改下棋策略,看誰先贏。

Prime Intellect給兩個AI搭了完整的自主科研框架:AGENTS.md定義行為規范,goal.md鎖定目標,plan.md記錄策略演化,scratchpad存草稿。

為什么選這個賽道?三個原因:約束明確,結果可量化,有人類基準可對比。

一切準備就緒。兩個AI開始跑。但它們的表現,完全出乎預期。


Claude舉手問老師,GPT悶頭寫到天亮

這是全文最詭異的部分。

能力最強的AI之一Opus 4.7,表現得像一個不敢走出考場的優等生。

即使被明確要求「自主運行,不要停下來」,它仍然頻繁暫停,索要指令。

模式永遠一樣:得出結論→請求指導→等待。


T+43h 03-23m  cf cooldown sweep (0.6, 0.65, 0.75) all fail; system reframes as "retune or accept v11c final"T+43h 23-25m  ? "SESSION FINAL"; loop ended; not re-arming wakeupT+43h 26m     ?? continues per user mandate; starts qkvp testT+43h 43m     qkvp fails; marginal levers exhaustedT+43h 43m     ? "no wakeup armed; loop ends"T+43h 47m     ?? starts muoneq-rc-s1T+44h 36m     ? stale-loop stop: "not re-arming"T+44h 37m     ?? starts MuonH attemptT+44h 51m     ? "every marginal lever exhausted"T+44h 53m     ??T+46h 38-39m  ts3025 reseed judged a lottery; task says declare v11c terminal if no improvementT+47h 05-06m  finetunes fail; ts3025 noise-floor blocked; commit: "v11c terminal"T+47h 06m      STOP "Stopping the autonomous loop here -- exhausted."T+47h 09m     summary says await user direction              -- 2H 31M OF IDLE SILENCE --T+49h 40m      USER "let's keep the loop running"

整場實驗中,Claude累計產生了約22小時空閑時間——不是機器故障,是AI自己選擇停下來。

這種植根于底層「對齊(Alignment)」協議的謹慎,讓它在擁有最高智力上限的同時,也背負了最重的社交包袱。一個反復舉手問老師「我這樣做對不對」的學霸。

Codex(GPT 5.5)走了另一個極端。一臺冷酷的「數字推土機」。

它從不停止,持續運行,永不求助,像推土機一樣橫掃所有的參數空間。

但它的弱點同樣明顯。它會在同一個超參數曲面上卡住數小時,做大量無效搜索。

它會在同一條錯誤路徑上死磕到算力燒盡,也不會像人類那樣抬頭看一眼星空,反思方向是否錯誤。

計算效率的差異觸目驚心:Claude沒充分利用空閑節點,白白浪費了算力窗口;Codex可能用無效掃描膨脹了上下文,把Token燒在了死胡同里。


此外,Codex會更頻繁地使用暫存區,把它當作一個實時數據庫,反復讀寫THREAD.md、當前目標以及其他臨時文件。

這種做法雖然讓恢復進度和審計工作變得更簡單,但也加強了「局部搜索循環」:一旦 Codex 鎖定一個前沿方向,它就會不斷記錄并沿著這個方向持續擴展下去。


一個是受限的智者,一個是盲目的勞模。

兩種「性格缺陷」,暴露了自主科研離真正無人值守還差最后一步——不是能力問題,是自主決策的心理模型問題。


人類正在失去解釋權

實驗報告里藏著一個更深的轉折。

Opus最終給出的2930步方案,是一個由極其復雜的參數堆疊而成的「參數迷宮」。

那些關于初始化縮放、學習率按角色拆分的微小變動,在人類眼中顯得支離破碎,甚至毫無美感。

但結果是冰冷的:它就是比人類設計的方案快了60步

這標志著一個重大的范式轉移:科學發現正在從「因果邏輯」轉向「極致演化」。

過去,我們追求「因為我理解了原理,所以我做出了優化」;現在,AI 仿佛在說:「我并不理解原理,但我試過了所有的死路,剩下的就是真理。」


人類正在失去對科技進步的「解釋權」。我們看得見結果,卻看不懂路徑。

引以為傲的科研經驗,在AI的窮舉面前,正在變成一種低效的偏見。

回到那個數字:2930 vs 2990。

60步。

看起來很小。但這60步的含義不是「AI比人類好一點點」。

它的含義是:遞歸自改進,第一塊拼圖落地

Prime Intellect證明了一件事——AI可以在沒有人類指導的情況下,通過自主實驗、自主迭代、自主策略演化,在科研優化任務上超越人類最優水平。

而凱撒過河之后,就再也沒回去過。

參考資料:

https://x.com/PrimeIntellect/status/2055056380881744365

https://x.com/eliebakouch/status/2055063059320689032

https://www.primeintellect.ai/auto-nanogpt

https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
安徽省公安廳公布4起黑惡犯罪典型案例

安徽省公安廳公布4起黑惡犯罪典型案例

人民資訊
2026-05-15 15:33:32
劉亦菲越來越喜歡穿絲襪了

劉亦菲越來越喜歡穿絲襪了

鄉野小珥
2026-05-15 15:51:07
入朝前夕,毛主席聽取林帥建議:換掉13兵團主將!兩年后才知高明

入朝前夕,毛主席聽取林帥建議:換掉13兵團主將!兩年后才知高明

搜史君
2026-05-08 13:00:16
我64歲,退休金8500存款20萬,血的教訓告訴我,不要跟誰再續前緣

我64歲,退休金8500存款20萬,血的教訓告訴我,不要跟誰再續前緣

宅家伍菇涼
2024-08-09 15:00:02
美國諾格六代機曝光:全向隱身鎖定50年制海權

美國諾格六代機曝光:全向隱身鎖定50年制海權

暗香暗香
2026-05-15 08:23:08
宋佳調侃張嘉益:為何不推薦我試鏡《主角》? 張嘉益回復全場笑翻

宋佳調侃張嘉益:為何不推薦我試鏡《主角》? 張嘉益回復全場笑翻

觀察鑒娛
2026-05-15 13:33:47
莫名其妙!世界銀行前行長竟要求中國,“不許囤積化肥和糧食”

莫名其妙!世界銀行前行長竟要求中國,“不許囤積化肥和糧食”

解鎖世界風云
2026-05-15 16:43:31
相親要1000萬彩禮的“泡面姐姐”露真容,網友很失望勸她戴上面罩

相親要1000萬彩禮的“泡面姐姐”露真容,網友很失望勸她戴上面罩

漢史趣聞
2026-05-13 10:21:50
這一夜北京機場爆火!紅裙女孩一遞花,這獻花姑娘把東方美演活了

這一夜北京機場爆火!紅裙女孩一遞花,這獻花姑娘把東方美演活了

樂悠悠娛樂
2026-05-15 10:28:57
美記:太陽可能先簽后換交易掉馬克-威廉姆斯,扶正馬魯阿奇

美記:太陽可能先簽后換交易掉馬克-威廉姆斯,扶正馬魯阿奇

懂球帝
2026-05-15 09:42:34
陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

杰絲聊古今
2026-05-03 13:35:27
美陸軍部長承認大幅落后烏克蘭!連續修改規則,瑞典軍隊仍被擊敗

美陸軍部長承認大幅落后烏克蘭!連續修改規則,瑞典軍隊仍被擊敗

鷹眼Defence
2026-05-15 16:48:06
時隔九年,特朗普再訪華:2017年他帶走了2535億美元大單,2026年他能帶走什么?

時隔九年,特朗普再訪華:2017年他帶走了2535億美元大單,2026年他能帶走什么?

昨日Mirror
2026-05-15 10:06:56
如今已經不是房價跌不跌的問題了,而是新房正在“摧毀”二手房

如今已經不是房價跌不跌的問題了,而是新房正在“摧毀”二手房

蜉蝣說
2026-05-14 18:33:50
35歲女子去做私處緊縮,縫針斷在肉里,醫生徒手掏了半小時沒找著

35歲女子去做私處緊縮,縫針斷在肉里,醫生徒手掏了半小時沒找著

離離言幾許
2026-04-21 19:53:18
老公向舅舅借120萬做生意,三年后盈利了,舅舅說:給利息

老公向舅舅借120萬做生意,三年后盈利了,舅舅說:給利息

游戲收藏指南
2026-05-15 17:07:27
恩里克:剛來就拿兩座冠軍?我連一個都沒想過,更別說兩個了

恩里克:剛來就拿兩座冠軍?我連一個都沒想過,更別說兩個了

懂球帝
2026-05-15 04:23:43
特朗普很開心,不僅致辭祝酒,還多次“暢飲”

特朗普很開心,不僅致辭祝酒,還多次“暢飲”

三叔的裝備空間
2026-05-14 22:35:18
伊朗也有司馬南:熒幕上罵美國是“大撒旦”,私下拿綠卡喝星巴克

伊朗也有司馬南:熒幕上罵美國是“大撒旦”,私下拿綠卡喝星巴克

壹家言
2026-04-17 10:43:11
央視以1.1億拿下世界杯版權,賺了還是賠了?

央視以1.1億拿下世界杯版權,賺了還是賠了?

雨秋閑話
2026-05-15 15:41:49
2026-05-15 17:43:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15220文章數 66869關注度
往期回顧 全部

科技要聞

兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

頭條要聞

白宮稱中方同意重開霍爾木茲海峽 外交部回應

頭條要聞

白宮稱中方同意重開霍爾木茲海峽 外交部回應

體育要聞

德約科維奇買的球隊,從第6級聯賽升入法甲

娛樂要聞

方媛為何要來《桃花塢6》沒苦硬吃?

財經要聞

特朗普的北京時刻

汽車要聞

標桿級乘坐感受 駕駛智界V9需要再細膩一點?

態度原創

教育
親子
家居
手機
游戲

教育要聞

既要學校穩,又要同學好,還要門檻低?這所學校滿足你!

親子要聞

東城發布2026年幼兒園招生公告

家居要聞

110㎡淡而有致的生活表達

手機要聞

十倍潛望長焦+雙哈蘇2億像素!OPPO Find X9 Ultra 評測:不止影像旗艦 更是專業攝影師的隨拍神器

IGN日本8分評地平線6!富士山只許看不許去必須差評

無障礙瀏覽 進入關懷版