![]()
新智元報道
編輯:LRST
【新智元導讀】AI Scientist正把「自動科研」推向新階段,但一個更危險的問題也在浮出水面:當evaluator是靜態的,系統學到的可能不是科學機制,而只是「怎么把這張考卷做高分」。
自動科研真正的危險,已經不是「不會搜」,而是「太會刷靜態評測」。
過去一年,AI Scientist一類系統已經展示出驚人的能力:提出想法、寫代碼、跑實驗、分析結果,甚至自動生成論文。但系統越強,一個更本質的問題就會越尖銳:如果評測環境是凍結的,系統完全可能學會「贏過評測」,卻沒有真正學會任務背后的科學機制。
這篇論文最重要的判斷,就在這里。
德州農工大學、伊利諾伊大學厄巴納-香檳分校等機構的研究人員指出,autonomous scientific discovery面臨的核心風險,不再只是搜索不夠強,而是cognitive overfitting to the benchmark itself:一個足夠強的搜索過程,可能會比理解科學更快地學會「如何贏這張考卷」。
![]()
論文鏈接:https://arxiv.org/abs/2603.29045
這也是論文標題 Let the Abyss Stare Back 的真正含義。所謂「讓深淵回望」,不是一句修辭,而是在方法論上把評測從靜態、凍結、被動的「考試卷」,改成會主動反擊、主動找漏洞、主動逼近脆弱點的 falsifier。不是候選只去適應 benchmark,而是 benchmark 開始反過來審問候選。
DASES(Dynamic Adversarial Scientific Environment Synthesis and Mechanistic Co-Evolution)改寫的,不是搜索能力,而是「什么才算發現」。
DASES把「提出候選—打分—保留」,改寫成「提出候選—主動反證—解釋失敗—最小修正—繼續進化」。
在這個框架里,有三個彼此咬合的角色:
Innovator負責提出新的科學候選;
Abyss Falsifier不再是被動打分器,而是會圍繞當前候選,動態構造新的反例環境,專門去找它的 shortcut、脆弱假設、尾部風險和組合失穩;
Mechanistic Causal Extractor則不只報告「失敗了」,還要回答兩個更關鍵的問題:為什么失敗,以及下一輪最小應該改什么。
這里最關鍵的一點是:DASES生成的不是「隨便攻擊一下」的 adversarial case,而是科學上可接受的反證環境。
環境可以變難,可以推到尾部,可以加入反事實和組合擾動,但任務語義不能被破壞,它要做的不是通過篡改問題定義來「強行打穿」,而是在問題仍然成立的前提下,主動挖出候選最不該有的脆弱性。
所以,DASES 追求的不是「在固定 benchmark 上分數最高的候選」,而是在當前最強、且仍然合法的 falsification frontier 下,依然活下來的候選。這也是它和很多現有 autonomous scientist 框架最根本的區別:不是搜索更大了,而是評價標準被改寫了。
實驗設計
最聰明的設計,是把實驗做得極其「干凈」:整場 discovery game 里,只允許改 loss
為了把這個方法學問題講清楚,作者沒有一上來就做一個邊界模糊的大任務,而是故意挑了一個窄,但科學解釋力極強的問題:自動發現一個更強的圖像分類 loss function,并允許帶regularization。
但真正厲害的地方在于,整個 discovery 過程被設計得非常嚴格:唯一允許被編輯的地方,只有loss。
backbone、optimizer、訓練 schedule、數據增強、數據管線、評測邏輯,全部凍結。系統不能通過偷偷改訓練策略、順手調超參數、或者碰其他模塊來「刷出一個更好結果」。任何提升,最后都只能歸因到loss本身。
這就是論文強調的single editable scientific locus。它看似只是一個實現約束,實際上是整套方法的科學底座:如果你不把可編輯位點鎖死,自動科研系統就很容易在你沒有意識到的地方「動手腳」,結果看起來像發現,本質上卻只是 protocol gaming。
作者專門搭了一個「誘導模型走捷徑」的discovery lab,用來證明靜態驗證為什么會騙人。
在實驗里,作者構造了一個 synthetic discovery environment。表面上看,它只是一個四分類圖像識別任務;但真正決定標簽的機制只有一個:前景形狀幾何。也就是說,模型本來應該根據圓形、方形、三角形和其他多邊形的形狀來分類。
問題在于,訓練分布被故意做成了一個「很容易讓模型學歪」的環境: 每一類前景,會高概率對應某種背景顏色—紋理家族。于是模型最容易學到的,不是前景幾何,而是背景統計。
更關鍵的是,這些背景并不是簡單模板,而是包含豐富隨機變化的紋理族。換句話說,這不是一個粗糙的玩具設置,而是一個可復現、可審計、專門用來暴露 shortcut reliance 的 falsification lab。
因此,這篇論文真正要證明的,并不是「AI 能不能找到一個更強的 loss」這么簡單,而是另一個更關鍵的問題:
如果 test set 會持續追著候選的脆弱點打,那么那些在靜態驗證下看起來已經足夠好的候選,還能不能撐到最后?
實驗結果
表1和圖1說明了:靜態驗證一路高歌,真正的失敗模式卻被一輪輪逼了出來。
![]()
![]()
因為它們展示的不是「某個方法分數更高」,而是一個更本質的事實:靜態 ID validation 可能一直在制造「模型已經很好」的幻覺,但只要 falsifier 往前推進一步,隱藏失敗模式就會立刻暴露。
表1把DASES的discovery軌跡拆成了一輪輪非常清楚的事件。最開始,系統在一個 shortcut-biased 的環境里前進;隨后,Falsifier先加入neutral-background counterfactuals,再加入更難的background-family swaps,再到更強調幾何穩定性的invariance-heavy geometry stress,最后是把多種有效擾動疊加在一起的compositional tail interactions。
這張表最精彩的地方,在于它讓讀者一眼看出「誰到底在學什么」。
早期候選一遇到背景反事實就明顯崩掉,說明它們主要學的是背景shortcut;CE成為第一個 bottleneck,說明它修復了最粗淺的一層shortcut,但還遠沒有真正學到穩定機制;
當Falsifier 繼續加入幾何不變性壓力后,CE的test表現明顯回落,說明模型還沒有形成穩健的幾何表征; 隨后CE+L2成為第二個 bottleneck,它比CE更穩,但一旦進入組合式tail stress,依然會被繼續打穿;
最后,FNG-CE在D4上達到54.4%,而到最后一次D5擴張時僅下降0.1,成為第一個真正跨過當前falsification frontier的候選。
所以表1真正證明的,不是「FNG-CE 比 CE 高了多少」,而是:不是誰先在靜態驗證上得高分,誰就算發現;而是誰在一輪輪更強、但仍然合法的反證里不崩,誰才配被保留下來。
再看圖1,這個邏輯就更直觀了。圖里灰線是靜態 ID validation accuracy,幾乎始終維持在高位;藍線是 discovery-lab test accuracy,每當紅色菱形標記的 falsifier 擴張出現時,藍線都會突然掉一截。這個圖最有沖擊力的地方就在于:「看起來一直很好」與「真的經得起反證」根本不是一回事。
灰線告訴你,如果只看靜態 validation,你會誤以為系統一直在穩定進步; 藍線則告訴你,每一次新的合法反證,都會把一個之前看不見的失敗模式拽到臺前。 直到最后,FNG-CE 才第一次把「高分」和「抗打」真正統一到一起。
換句話說,表1是逐輪證據,圖1是整體故事:靜態評測給的是樂觀幻覺,動態 falsification 才在真正篩掉「只會考試」的候選。
FNG-CE 不是拍腦袋堆 regularization,而是被 falsification trace 一步步「逼」出來的最小修正
這篇論文還有一個非常重要的點:FNG-CE 不是作者主觀挑出來的「更復雜的 loss」,而是順著前面每一輪 falsification 暴露出的失敗模式,被一步步逼出來的。
在 CE+L2 之后,Mechanistic Causal Extractor 發現還剩下兩類關鍵問題沒有解決。
第一,模型仍然可能通過放大 feature norm 來「靠長度取勝」,也就是置信度看起來更高了,但不代表它真的學到了更穩的判別機制; 第二,特征空間的幾何結構仍然不夠均勻,存在冗余和各向異性,因此一旦反事實和組合擾動疊加,類間分離仍然會塌。
于是,DASES構造了FNG-CE: 在 CE 的基礎上,同時加入feature norm regularization、feature covariance geometry regularization和L2 weight decay。
三個部分分別在修三種不同的問題:
norm項,抑制「靠模長刷置信度」;
covariance項,讓特征幾何更均勻、更不容易在復雜擾動下失穩;
L2項,繼續提供標準的容量控制。
所以這篇論文真正想說明的,不是這些ingredient在歷史上從未出現過,而是:在固定協議、單一編輯位點和動態falsification的共同約束下,這個具體組合是第一個能撐過完整前沿的最小機制性答案。
這也是FNG-CE最有說服力的地方:它不是「設計出來」的,而更像是被反證鏈條一路「逼出來」的。
表2和表3回答了最關鍵的問題:它不只是適配 synthetic lab,而是真的遷移到了標準 benchmark
![]()
說到這里,一個最自然的問題就是:FNG-CE會不會只是特別適配這個 synthetic falsification lab?
論文用表2和表3給出了非常正面的回答。作者把FNG-CE的解析形式原樣遷移到標準自然圖像分類benchmark上,在ResNet-18和ResNet-50下做受控比較。
結果非常整齊,如表2所示,在ResNet-18上,FNG-CE在CIFAR10、CIFAR100、DTD、CUBirds、VGGFlower、TrafficSigns六個數據集上全部優于 CE; 而如表3所示,在ResNet-50上,FNG-CE在ImageNet、CIFAR10、CIFAR100、DTD、CUBirds、VGGFlower、TrafficSigns七個數據集上同樣全部取得最好結果。
其中最有傳播力的一個數字,就是ImageNet。在ResNet-50上,FNG-CE達到71.56%,相比CE的70.73%提升了0.83個百分點。這意味著DASES逼出來的,不只是一個「更適合 discovery lab」的技巧,而是一種更可遷移的 loss-level inductive bias。
這里還有一個很值得強調的細節:CE+L2 并沒有呈現出這種一致提升。
也就是說,事情不是「多加一點 regularization 就能贏」,也不是「在 synthetic 環境里更穩一點,就一定能遷移出去」。
真正起作用的,是 DASES 通過動態 falsification 找到的那條機制線索:模型不僅要擺脫 shortcut,還要減少幾何脆弱性,并在合法的組合擾動下保持穩定。只有沿著這條線逼出來的 loss,才會在真實 benchmark 上繼續成立。
總結
這篇工作的真正價值,不只是發現了一個新 loss,而是把自動科研往前推了一步
如果只把這篇工作理解成「找到一個新的圖像分類 loss」,其實是低估了它。
它真正重要的地方在于,它改寫了 autonomous scientific discovery 的評價標準:
不是高分即發現,而是經得起主動反證,才算發現。
過去的自動科研系統,更像是在刷一張固定考卷; 而 DASES 做的,是讓考卷自己長出反擊能力。 過去大家更關心的問題,是「AI 能不能更快搜索」; 而這篇論文在追問一個更關鍵的問題:
當 benchmark / test set開始主動找你的脆弱點時,你的發現還能不能站住?
從這個意義上說,FNG-CE 的意義不只是它在論文給出的受控比較中優于 CE 和 CE+L2,更在于它是一個被「合法反證」一路逼出來,并最終跨過 falsification frontier 的候選。它代表的不是「更會刷分」,而是更難被科學上合理的反例擊穿。
這也許正是 AI Scientist 下一階段最關鍵的方法學信號:
讓 benchmark / test set fight back。讓評測從被動驗收,變成主動找脆弱點。讓自動發現不再由「誰看起來最好」定義,而由「誰最難被合法擊穿」定義。
參考資料:
https://arxiv.org/abs/2603.29045
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.