![]()
新智元報道
![]()
【新智元導讀】年度最危險論文發了!英偉達打破20年封印,讓AI親手造出更狠的「考官」淘汰自己。無休止的自我進化一旦開啟,2028年ASI降臨真不是玩笑。
Anthropic徹底「RSI上頭」了!
聯合創始人Jack Clark拋出驚人預測,到2028年底,一個高度自主進化的AI就會誕生。
這個概率,是60%!
![]()
在人們還在為「2028 RSI能否實現」爭論不休時,劍橋大學、英偉達等機構聯手,丟出了一篇重磅論文——
「紅皇后哥德爾機器」(Red Queen G?del Machine)
它的運作,宛如一場殘酷的AI生存游戲:
AI自己編寫新的學習算法,并將其投入沙盒進行試煉。失敗的直接抹殺,成功的保留下來。
接著,幸存者們開啟下一輪的自我進化與繁衍。
![]()
論文地址:https://arxiv.org/pdf/2606.26294
但真正令人毛骨悚然的,是AI隨后展現出的「頓悟」:它意識到,想要不斷變強,就必須面對更加苛刻的試煉。
于是,AI開始主動「進化」自己的考官。
它親手打造出更嚴苛的裁判,來評判自己寫出的更高級的代碼。
這套機制,將AI死死鎖定在一個無休止的、瘋狂自我迭代的RSI里。
看完這37頁論文,許多人倒吸一口涼氣,「這絕對是年度最危險的AI論文」!
![]()
![]()
2028年RSI自進化
把預言寫成代碼
2003年,德國科學家Jürgen Schmidhuber曾構想過一種機器, 名為「哥德爾機」(G?del Machine)。
它的設定堪稱完美:一臺能證明自己的改進有益、然后改寫自身代碼的機器。
一旦造出來,它就能不斷自我升級,越變越強,沒有上限。
不過,「哥德爾機」有一個致命的「門檻」——
在執行任何一行自我修改的代碼前,它必須先從數學上嚴格證明:這次改動一定是有益的。
![]()
但在現實中,這幾乎是個不可能完成的任務,所需的算力堪稱「黑洞」。
于是,在之后整整20年里,哥德爾機只能躺在論文里,當一個理論上的天花板,一個誰都夠不著的思想實驗。
近兩年,學界繞開了證明這道坎。
達爾文哥德爾機(DGM) 、赫胥黎哥德爾機(HGM)干脆拋棄數學證明,改用進化——
讓AI「繁殖」出大量帶突變的代碼變體,扔進沙盒里跑分,失敗的淘汰,成功的保留,幸存者繼續繁衍。
![]()
AI跨越了最后一步,開始字面意義上「進化」自己。
但這些方法都還有一個共同的盲點——它們的考官是死的。
不管AI怎么進化,給它打分的那個評判標準、那個benchmark、那個驗證器,始終被釘死在循環之外,一動不動。
這恰恰違背了進化最核心的一條規律:
物種從不是在一個靜止的環境里優化自己,而是和不斷變化的環境一起改變。
紅皇后哥德爾機(RQGM),要破的就是這道盲點。
「紅皇后」真正殺招:讓AI造出考官
「紅皇后」這個名字,來自生物學家Van Valen 1973年提出的「紅皇后假說」——
你必須拼命奔跑,才能停在原地,因為你的對手也在進化。
RQGM干的事,正是把這句話寫成了算法:讓考官(評估器)和選手(任務智能體)一起進化。
這是整篇論文,最讓人頭皮發麻的地方。
![]()
這套精巧的機制叫「受控效用進化」(controlled utility evolution):
整個搜索被切成一個個epoch;
在每個epoch內,評估器(考官)是凍結的,給所有考生打分,保證信號穩定;
只有在epoch的邊界,才允許換考官,且新考官必須在一份留出的「基準真相」錨點數據上,統計意義上打贏老考官,才能上位;
一旦換人,系統立刻執行「選擇性擦除」:只丟掉那些由被換掉的考官打過的分,其余證據全部保留。
換句話說,它既要狂奔進化,又要每一步都站得住腳。
真的奏效了,AI自己改代碼
光說機制太抽象,不如直接看戰績。
第一戰,寫代碼(Polyglot)。
RQGM給寫代碼的Agent配了一個"代碼評審員"當陪練。
結果,在留出測試集上,通過率從此前SOTA的69.9%提到了71.7%。
更狠的是,它達到這個成績,比對手少燒了1.35到1.72倍的token。因為那個評審員只需要查一次,比反復多輪跑測試便宜太多了。
![]()
第二戰,寫論文。
這是個沒有標準答案的領域,論文好不好,沒法機器自動判分。
RQGM讓寫手和它的評審一起進化,結果論文在一個固定評審小組里的接收率,從前SOTA的21.8%,直接飆到40.5%。
![]()
第三戰,奧賽級數學證明。
它進化出的「評分官」(grader),比靜態基線更準、搜索成本還低了3倍;
進化出的「證明選手」,拿到了最高的平均分。
但全篇最封神的一筆,是它把AI的一個老毛病給治好了。LLM當裁判,有個出了名的毛病:偏愛AI生成的內容。
論文里那個最強的基線審稿人,接受AI寫的論文的概率,是接受人類論文的最高1.91倍。
RQGM怎么治?它在epoch邊界上,把固定評審之前放過的AI論文撈出來,組成一個「對抗樣本池」,然后專門獎勵那些能把這些AI論文揪出來打回去的新評審。
進化幾輪之后,最終的評審對AI和人類一視同仁,還保住了80%的真值準確率。
![]()
當AI學會評判自己
就在同一個夏天,Anthropic聯創Jack Clark押下重注:60%的概率,2028年底前,AI將能親手締造出更強大的自己。
曾將「哥德爾機」死死困住20年的那道高墻,名為「證明」。
而「紅皇后機」將其喚醒,只用了最殘酷的一招:無休止的繁衍、淘汰、再繁衍。
![]()
當一個AI開始親自為自己設計最嚴苛的考官,在瘋狂的遞歸中將自己逼向極限,我們所面對的,將是一個開始自行定義「何為智慧」的全新物種。
當那一天到來,ASI絕不會敲門預告。
它只會默默造出那個唯一有資格評判它的裁判,然后,從容地走入考場。
預言只負責指明終點,代碼才負責抵達。
而現在,這段令人窒息的距離,正被 AI 自己,以幾何級數縮短。
參考資料:
https://x.com/HowToPrompt__/status/2070824205663273175?s=20
https://x.com/kimmonismus/status/2070968241548120168
編輯:桃子
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.