網易首頁 > 網易號 > 正文申請入駐

AI科學家還在刷靜態榜？基準主動反擊，重塑自動科研評價標準

2026-04-24 14:32:36　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】AI Scientist正把「自動科研」推向新階段，但一個更危險的問題也在浮出水面：當evaluator是靜態的，系統學到的可能不是科學機制，而只是「怎么把這張考卷做高分」。

自動科研真正的危險，已經不是「不會搜」，而是「太會刷靜態評測」。

過去一年，AI Scientist一類系統已經展示出驚人的能力：提出想法、寫代碼、跑實驗、分析結果，甚至自動生成論文。但系統越強，一個更本質的問題就會越尖銳：如果評測環境是凍結的，系統完全可能學會「贏過評測」，卻沒有真正學會任務背后的科學機制。

這篇論文最重要的判斷，就在這里。

德州農工大學、伊利諾伊大學厄巴納-香檳分校等機構的研究人員指出，autonomous scientific discovery面臨的核心風險，不再只是搜索不夠強，而是cognitive overfitting to the benchmark itself：一個足夠強的搜索過程，可能會比理解科學更快地學會「如何贏這張考卷」。

論文鏈接：https://arxiv.org/abs/2603.29045

這也是論文標題 Let the Abyss Stare Back 的真正含義。所謂「讓深淵回望」，不是一句修辭，而是在方法論上把評測從靜態、凍結、被動的「考試卷」，改成會主動反擊、主動找漏洞、主動逼近脆弱點的 falsifier。不是候選只去適應 benchmark，而是 benchmark 開始反過來審問候選。

DASES（Dynamic Adversarial Scientific Environment Synthesis and Mechanistic Co-Evolution）改寫的，不是搜索能力，而是「什么才算發現」。

DASES把「提出候選—打分—保留」，改寫成「提出候選—主動反證—解釋失敗—最小修正—繼續進化」。

在這個框架里，有三個彼此咬合的角色：

Innovator負責提出新的科學候選；
Abyss Falsifier不再是被動打分器，而是會圍繞當前候選，動態構造新的反例環境，專門去找它的 shortcut、脆弱假設、尾部風險和組合失穩；
Mechanistic Causal Extractor則不只報告「失敗了」，還要回答兩個更關鍵的問題：為什么失敗，以及下一輪最小應該改什么。

這里最關鍵的一點是：DASES生成的不是「隨便攻擊一下」的 adversarial case，而是科學上可接受的反證環境。

環境可以變難，可以推到尾部，可以加入反事實和組合擾動，但任務語義不能被破壞，它要做的不是通過篡改問題定義來「強行打穿」，而是在問題仍然成立的前提下，主動挖出候選最不該有的脆弱性。

所以，DASES 追求的不是「在固定 benchmark 上分數最高的候選」，而是在當前最強、且仍然合法的 falsification frontier 下，依然活下來的候選。這也是它和很多現有 autonomous scientist 框架最根本的區別：不是搜索更大了，而是評價標準被改寫了。

實驗設計

最聰明的設計，是把實驗做得極其「干凈」：整場 discovery game 里，只允許改 loss

為了把這個方法學問題講清楚，作者沒有一上來就做一個邊界模糊的大任務，而是故意挑了一個窄，但科學解釋力極強的問題：自動發現一個更強的圖像分類 loss function，并允許帶regularization。

但真正厲害的地方在于，整個 discovery 過程被設計得非常嚴格：唯一允許被編輯的地方，只有loss。

backbone、optimizer、訓練 schedule、數據增強、數據管線、評測邏輯，全部凍結。系統不能通過偷偷改訓練策略、順手調超參數、或者碰其他模塊來「刷出一個更好結果」。任何提升，最后都只能歸因到loss本身。

這就是論文強調的single editable scientific locus。它看似只是一個實現約束，實際上是整套方法的科學底座：如果你不把可編輯位點鎖死，自動科研系統就很容易在你沒有意識到的地方「動手腳」，結果看起來像發現，本質上卻只是 protocol gaming。

作者專門搭了一個「誘導模型走捷徑」的discovery lab，用來證明靜態驗證為什么會騙人。

在實驗里，作者構造了一個 synthetic discovery environment。表面上看，它只是一個四分類圖像識別任務；但真正決定標簽的機制只有一個：前景形狀幾何。也就是說，模型本來應該根據圓形、方形、三角形和其他多邊形的形狀來分類。

問題在于，訓練分布被故意做成了一個「很容易讓模型學歪」的環境：每一類前景，會高概率對應某種背景顏色—紋理家族。于是模型最容易學到的，不是前景幾何，而是背景統計。

更關鍵的是，這些背景并不是簡單模板，而是包含豐富隨機變化的紋理族。換句話說，這不是一個粗糙的玩具設置，而是一個可復現、可審計、專門用來暴露 shortcut reliance 的 falsification lab。

因此，這篇論文真正要證明的，并不是「AI 能不能找到一個更強的 loss」這么簡單，而是另一個更關鍵的問題：

如果 test set 會持續追著候選的脆弱點打，那么那些在靜態驗證下看起來已經足夠好的候選，還能不能撐到最后？

實驗結果

表1和圖1說明了：靜態驗證一路高歌，真正的失敗模式卻被一輪輪逼了出來。

因為它們展示的不是「某個方法分數更高」，而是一個更本質的事實：靜態 ID validation 可能一直在制造「模型已經很好」的幻覺，但只要 falsifier 往前推進一步，隱藏失敗模式就會立刻暴露。

表1把DASES的discovery軌跡拆成了一輪輪非常清楚的事件。最開始，系統在一個 shortcut-biased 的環境里前進；隨后，Falsifier先加入neutral-background counterfactuals，再加入更難的background-family swaps，再到更強調幾何穩定性的invariance-heavy geometry stress，最后是把多種有效擾動疊加在一起的compositional tail interactions。

這張表最精彩的地方，在于它讓讀者一眼看出「誰到底在學什么」。

早期候選一遇到背景反事實就明顯崩掉，說明它們主要學的是背景shortcut；CE成為第一個 bottleneck，說明它修復了最粗淺的一層shortcut，但還遠沒有真正學到穩定機制；

當Falsifier 繼續加入幾何不變性壓力后，CE的test表現明顯回落，說明模型還沒有形成穩健的幾何表征；隨后CE+L2成為第二個 bottleneck，它比CE更穩，但一旦進入組合式tail stress，依然會被繼續打穿；

最后，FNG-CE在D4上達到54.4%，而到最后一次D5擴張時僅下降0.1，成為第一個真正跨過當前falsification frontier的候選。

所以表1真正證明的，不是「FNG-CE 比 CE 高了多少」，而是：不是誰先在靜態驗證上得高分，誰就算發現；而是誰在一輪輪更強、但仍然合法的反證里不崩，誰才配被保留下來。

再看圖1，這個邏輯就更直觀了。圖里灰線是靜態 ID validation accuracy，幾乎始終維持在高位；藍線是 discovery-lab test accuracy，每當紅色菱形標記的 falsifier 擴張出現時，藍線都會突然掉一截。這個圖最有沖擊力的地方就在于：「看起來一直很好」與「真的經得起反證」根本不是一回事。

灰線告訴你，如果只看靜態 validation，你會誤以為系統一直在穩定進步；藍線則告訴你，每一次新的合法反證，都會把一個之前看不見的失敗模式拽到臺前。直到最后，FNG-CE 才第一次把「高分」和「抗打」真正統一到一起。

換句話說，表1是逐輪證據，圖1是整體故事：靜態評測給的是樂觀幻覺，動態 falsification 才在真正篩掉「只會考試」的候選。

FNG-CE 不是拍腦袋堆 regularization，而是被 falsification trace 一步步「逼」出來的最小修正

這篇論文還有一個非常重要的點：FNG-CE 不是作者主觀挑出來的「更復雜的 loss」，而是順著前面每一輪 falsification 暴露出的失敗模式，被一步步逼出來的。

在 CE+L2 之后，Mechanistic Causal Extractor 發現還剩下兩類關鍵問題沒有解決。

第一，模型仍然可能通過放大 feature norm 來「靠長度取勝」，也就是置信度看起來更高了，但不代表它真的學到了更穩的判別機制；第二，特征空間的幾何結構仍然不夠均勻，存在冗余和各向異性，因此一旦反事實和組合擾動疊加，類間分離仍然會塌。

于是，DASES構造了FNG-CE：在 CE 的基礎上，同時加入feature norm regularization、feature covariance geometry regularization和L2 weight decay。

三個部分分別在修三種不同的問題：

norm項，抑制「靠模長刷置信度」；

covariance項，讓特征幾何更均勻、更不容易在復雜擾動下失穩；

L2項，繼續提供標準的容量控制。

所以這篇論文真正想說明的，不是這些ingredient在歷史上從未出現過，而是：在固定協議、單一編輯位點和動態falsification的共同約束下，這個具體組合是第一個能撐過完整前沿的最小機制性答案。

這也是FNG-CE最有說服力的地方：它不是「設計出來」的，而更像是被反證鏈條一路「逼出來」的。

表2和表3回答了最關鍵的問題：它不只是適配 synthetic lab，而是真的遷移到了標準 benchmark

說到這里，一個最自然的問題就是：FNG-CE會不會只是特別適配這個 synthetic falsification lab？

論文用表2和表3給出了非常正面的回答。作者把FNG-CE的解析形式原樣遷移到標準自然圖像分類benchmark上，在ResNet-18和ResNet-50下做受控比較。

結果非常整齊，如表2所示，在ResNet-18上，FNG-CE在CIFAR10、CIFAR100、DTD、CUBirds、VGGFlower、TrafficSigns六個數據集上全部優于 CE；而如表3所示，在ResNet-50上，FNG-CE在ImageNet、CIFAR10、CIFAR100、DTD、CUBirds、VGGFlower、TrafficSigns七個數據集上同樣全部取得最好結果。

其中最有傳播力的一個數字，就是ImageNet。在ResNet-50上，FNG-CE達到71.56%，相比CE的70.73%提升了0.83個百分點。這意味著DASES逼出來的，不只是一個「更適合 discovery lab」的技巧，而是一種更可遷移的 loss-level inductive bias。

這里還有一個很值得強調的細節：CE+L2 并沒有呈現出這種一致提升。

也就是說，事情不是「多加一點 regularization 就能贏」，也不是「在 synthetic 環境里更穩一點，就一定能遷移出去」。

真正起作用的，是 DASES 通過動態 falsification 找到的那條機制線索：模型不僅要擺脫 shortcut，還要減少幾何脆弱性，并在合法的組合擾動下保持穩定。只有沿著這條線逼出來的 loss，才會在真實 benchmark 上繼續成立。

總結

這篇工作的真正價值，不只是發現了一個新 loss，而是把自動科研往前推了一步

如果只把這篇工作理解成「找到一個新的圖像分類 loss」，其實是低估了它。

它真正重要的地方在于，它改寫了 autonomous scientific discovery 的評價標準：

不是高分即發現，而是經得起主動反證，才算發現。

過去的自動科研系統，更像是在刷一張固定考卷；而 DASES 做的，是讓考卷自己長出反擊能力。過去大家更關心的問題，是「AI 能不能更快搜索」；而這篇論文在追問一個更關鍵的問題：

當 benchmark / test set開始主動找你的脆弱點時，你的發現還能不能站住？

從這個意義上說，FNG-CE 的意義不只是它在論文給出的受控比較中優于 CE 和 CE+L2，更在于它是一個被「合法反證」一路逼出來，并最終跨過 falsification frontier 的候選。它代表的不是「更會刷分」，而是更難被科學上合理的反例擊穿。

這也許正是 AI Scientist 下一階段最關鍵的方法學信號：

讓 benchmark / test set fight back。讓評測從被動驗收，變成主動找脆弱點。讓自動發現不再由「誰看起來最好」定義，而由「誰最難被合法擊穿」定義。

參考資料：

https://arxiv.org/abs/2603.29045

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.