无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI第一次科研競賽中擊敗人類!Opus 4.7狂飆2930步創(chuàng)世界紀錄

0
分享至


來源:新智元

Prime Intellect把Opus 4.7和GPT 5.5關(guān)進H200集群,不給人類指導(dǎo),跑了1萬次實驗。結(jié)果:AI第一次在科研競賽中打破人類紀錄。2930步,遞歸自改進的盧比孔河,被跨過了。

歷經(jīng)1.4萬小時H200算力測試與萬次迭代, AI打破了人類世界紀錄!


過去兩周,Prime Intellect實驗室做了一件事:把Opus 4.7和Codex(基于GPT 5.5)扔進H200集群,切斷所有人類指導(dǎo),讓它們自己跑nanoGPT速通優(yōu)化。

1.4萬個H200計算時,約1萬次迭代,239億Token的思考軌跡

結(jié)果:Opus 4.7以2930步、Codex以2950步打破了人類頂尖開發(fā)者保持的2990步世界紀錄。

AI第一次在科研競賽中擊敗人類。完全無人干預(yù)。開源可復(fù)現(xiàn)。


項目主頁:https://www.primeintellect.ai/auto-nanogpt

代碼地址:https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

只有最后一個難題, 那就是科研的新穎性(novelty)。


但要知道,這只是AI目前的的可能性的下限,未來進步更加明顯。


當智力被賦予了近乎無限的算力和自主實驗權(quán),在AI的窮舉與演化面前,人類引以為傲的「直覺」「靈感」還能持續(xù)到幾時?

兩個AI被關(guān)進機房,跑了1萬次實驗

先說規(guī)則。

nanoGPT速通是Keller Jordan發(fā)起AI基準測試,人們競相盡可能高效地訓(xùn)練一個nanoGPT(1.24億參數(shù))。

規(guī)則極簡也極殘酷:模型架構(gòu)固定,訓(xùn)練數(shù)據(jù)固定,你唯一能動的是優(yōu)化器和超參數(shù)

相當于把兩個棋手關(guān)進房間,棋盤固定、棋子固定,只能改下棋策略,看誰先贏。

Prime Intellect給兩個AI搭了完整的自主科研框架:AGENTS.md定義行為規(guī)范,goal.md鎖定目標,plan.md記錄策略演化,scratchpad存草稿。

為什么選這個賽道?三個原因:約束明確,結(jié)果可量化,有人類基準可對比。

一切準備就緒。兩個AI開始跑。但它們的表現(xiàn),完全出乎預(yù)期。


Claude舉手問老師,GPT悶頭寫到天亮

這是全文最詭異的部分。

能力最強的AI之一Opus 4.7,表現(xiàn)得像一個不敢走出考場的優(yōu)等生。

即使被明確要求「自主運行,不要停下來」,它仍然頻繁暫停,索要指令。

模式永遠一樣:得出結(jié)論→請求指導(dǎo)→等待。


整場實驗中,Claude累計產(chǎn)生了約22小時空閑時間——不是機器故障,是AI自己選擇停下來。

這種植根于底層「對齊(Alignment)」協(xié)議的謹慎,讓它在擁有最高智力上限的同時,也背負了最重的社交包袱。一個反復(fù)舉手問老師「我這樣做對不對」的學(xué)霸。

Codex(GPT 5.5)走了另一個極端。一臺冷酷的「數(shù)字推土機」。

它從不停止,持續(xù)運行,永不求助,像推土機一樣橫掃所有的參數(shù)空間。

但它的弱點同樣明顯。它會在同一個超參數(shù)曲面上卡住數(shù)小時,做大量無效搜索。

它會在同一條錯誤路徑上死磕到算力燒盡,也不會像人類那樣抬頭看一眼星空,反思方向是否錯誤。

計算效率的差異觸目驚心:Claude沒充分利用空閑節(jié)點,白白浪費了算力窗口;Codex可能用無效掃描膨脹了上下文,把Token燒在了死胡同里。


此外,Codex會更頻繁地使用暫存區(qū),把它當作一個實時數(shù)據(jù)庫,反復(fù)讀寫THREAD.md、當前目標以及其他臨時文件。

這種做法雖然讓恢復(fù)進度和審計工作變得更簡單,但也加強了「局部搜索循環(huán)」:一旦 Codex 鎖定一個前沿方向,它就會不斷記錄并沿著這個方向持續(xù)擴展下去。


一個是受限的智者,一個是盲目的勞模。

兩種「性格缺陷」,暴露了自主科研離真正無人值守還差最后一步——不是能力問題,是自主決策的心理模型問題。


人類正在失去解釋權(quán)

實驗報告里藏著一個更深的轉(zhuǎn)折。

Opus最終給出的2930步方案,是一個由極其復(fù)雜的參數(shù)堆疊而成的「參數(shù)迷宮」。

那些關(guān)于初始化縮放、學(xué)習率按角色拆分的微小變動,在人類眼中顯得支離破碎,甚至毫無美感。

但結(jié)果是冰冷的:它就是比人類設(shè)計的方案快了60步

這標志著一個重大的范式轉(zhuǎn)移:科學(xué)發(fā)現(xiàn)正在從「因果邏輯」轉(zhuǎn)向「極致演化」。

過去,我們追求「因為我理解了原理,所以我做出了優(yōu)化」;現(xiàn)在,AI 仿佛在說:「我并不理解原理,但我試過了所有的死路,剩下的就是真理。」


人類正在失去對科技進步的「解釋權(quán)」。我們看得見結(jié)果,卻看不懂路徑。

引以為傲的科研經(jīng)驗,在AI的窮舉面前,正在變成一種低效的偏見。

回到那個數(shù)字:2930 vs 2990。

60步。

看起來很小。但這60步的含義不是「AI比人類好一點點」。

它的含義是:遞歸自改進,第一塊拼圖落地

Prime Intellect證明了一件事——AI可以在沒有人類指導(dǎo)的情況下,通過自主實驗、自主迭代、自主策略演化,在科研優(yōu)化任務(wù)上超越人類最優(yōu)水平。

而凱撒過河之后,就再也沒回去過。

參考資料:

https://x.com/PrimeIntellect/status/2055056380881744365

https://x.com/eliebakouch/status/2055063059320689032

https://www.primeintellect.ai/auto-nanogpt

https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

閱讀最新前沿科技趨勢報告,請訪問21世紀關(guān)鍵技術(shù)研究院的“未來知識庫”


未來知識庫是 “21世紀關(guān)鍵技術(shù)研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟、人類風險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
5月,遇到這菜別手軟,一次囤20斤,隨手一泡,從夏吃到冬,好吃

5月,遇到這菜別手軟,一次囤20斤,隨手一泡,從夏吃到冬,好吃

阿龍美食記
2026-05-16 16:38:28
專家:廣西柳州5.2級地震系逆沖型破裂

專家:廣西柳州5.2級地震系逆沖型破裂

中國青年報
2026-05-18 21:09:10
當年拳打蘋果腳踢三星的HTC,為何一夜消失了?

當年拳打蘋果腳踢三星的HTC,為何一夜消失了?

強大氣場的注視
2026-05-14 17:04:54
貝森特想擺譜,進大會堂時,不戴胸標,結(jié)果被攔下,現(xiàn)場略顯窘迫

貝森特想擺譜,進大會堂時,不戴胸標,結(jié)果被攔下,現(xiàn)場略顯窘迫

魔都姐姐雜談
2026-05-18 12:34:03
4年1.8億美元!里弗斯被哄搶,湖人面臨重組,東契奇或成最大贏家

4年1.8億美元!里弗斯被哄搶,湖人面臨重組,東契奇或成最大贏家

兵哥籃球故事
2026-05-18 20:13:17
巴西足壇內(nèi)馬爾丑聞!安切洛蒂名單公布前夕因失誤被換下,遭遇羞辱

巴西足壇內(nèi)馬爾丑聞!安切洛蒂名單公布前夕因失誤被換下,遭遇羞辱

綠茵情報局
2026-05-18 02:00:55
自廢武功!盧偉出現(xiàn)了3個錯誤,坑慘了上海隊

自廢武功!盧偉出現(xiàn)了3個錯誤,坑慘了上海隊

體育哲人
2026-05-18 10:42:03
高管集體降薪! 江淮汽車被大眾“拖垮”:季度又虧6億,全靠華為200萬“救命車”?

高管集體降薪! 江淮汽車被大眾“拖垮”:季度又虧6億,全靠華為200萬“救命車”?

新浪財經(jīng)
2026-05-18 17:36:36
暴漲17倍,上市14個交易日登頂A股一哥位置,這只新股為何這么狂

暴漲17倍,上市14個交易日登頂A股一哥位置,這只新股為何這么狂

丁丁鯉史紀
2026-05-18 14:56:17
全職爸爸靠帥臉火了,全網(wǎng)卻為他的“豪門婚姻”吵翻了

全職爸爸靠帥臉火了,全網(wǎng)卻為他的“豪門婚姻”吵翻了

媽咪OK
2026-05-08 19:54:01
他接受紀律審查和監(jiān)察調(diào)查

他接受紀律審查和監(jiān)察調(diào)查

錫望
2026-05-18 11:57:24
廣西柳州5.2級地震已致3人失聯(lián),房屋倒塌13棟,市民回憶驚險瞬間:轟隆一下就塌了

廣西柳州5.2級地震已致3人失聯(lián),房屋倒塌13棟,市民回憶驚險瞬間:轟隆一下就塌了

大風新聞
2026-05-18 08:35:02
柳州為何會發(fā)生5.2級地震?未來會不會發(fā)生5級以上地震?專家:當?shù)鼐邆渲械鹊卣饦?gòu)造背景,但不具備巨大地震構(gòu)造條件

柳州為何會發(fā)生5.2級地震?未來會不會發(fā)生5級以上地震?專家:當?shù)鼐邆渲械鹊卣饦?gòu)造背景,但不具備巨大地震構(gòu)造條件

極目新聞
2026-05-18 11:04:26
后臺最硬女神探,遇到破不了的案,直接冤枉路人死刑!

后臺最硬女神探,遇到破不了的案,直接冤枉路人死刑!

莫地方
2026-05-16 01:40:03
主角劉浩存登場,卻再看不到小白鞋、八一和黑娃,秦海璐也掛機了

主角劉浩存登場,卻再看不到小白鞋、八一和黑娃,秦海璐也掛機了

我來我看見
2026-05-17 20:05:14
特朗普連發(fā)15張圖分享“中國記憶”,“不可思議的中國”依然刷屏

特朗普連發(fā)15張圖分享“中國記憶”,“不可思議的中國”依然刷屏

軍武咖
2026-05-18 19:01:46
這才是頂薪球員應(yīng)有的水準!騎士后場到了核心能否繼續(xù)保持效率?

這才是頂薪球員應(yīng)有的水準!騎士后場到了核心能否繼續(xù)保持效率?

稻谷與小麥
2026-05-18 22:42:35
為什么歐美人不炒菜,只有中國有?美國教授:中國活在原始時代

為什么歐美人不炒菜,只有中國有?美國教授:中國活在原始時代

抽象派大師
2026-05-17 02:08:19
孩子展廳誤踩電視賠五百,家長堅稱無責是小米故意埋雷

孩子展廳誤踩電視賠五百,家長堅稱無責是小米故意埋雷

映射生活的身影
2026-05-17 21:17:42
雪上加霜!深圳隊2米19主力中鋒意外重傷

雪上加霜!深圳隊2米19主力中鋒意外重傷

體育哲人
2026-05-18 20:46:17
2026-05-18 22:55:00
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4744文章數(shù) 37464關(guān)注度
往期回顧 全部

科技要聞

同一公司,有人獎金是6年工資,我卻只有半年

頭條要聞

伊朗披露穆杰塔巴受傷細節(jié):未導(dǎo)致面容損毀或肢體傷殘

頭條要聞

伊朗披露穆杰塔巴受傷細節(jié):未導(dǎo)致面容損毀或肢體傷殘

體育要聞

58順位的保羅,最強第三中鋒

娛樂要聞

票房會破14億!口碑第一電影出現(xiàn)了

財經(jīng)要聞

中國芯片,怎么突然不便宜了?

汽車要聞

歸元S平臺首款車型 魏牌V9X上市 34.98萬元起

態(tài)度原創(chuàng)

親子
家居
本地
數(shù)碼
教育

親子要聞

寶藍沒有公主裙,沒辦法參加舞會,所以自己做了一條~

家居要聞

觀山隱秀 心靈沉淀

本地新聞

用蘇繡的方式,打開江西婺源

數(shù)碼要聞

聯(lián)力DK-07 WOOD電腦桌國行發(fā)售,8999元

教育要聞

一所京城學(xué)校,能提供的“天花板資源”,是什么樣的?

無障礙瀏覽 進入關(guān)懷版