網易首頁 > 網易號 > 正文申請入駐

清華、中關村學院團隊如何構建能自主完成從代碼到新SOTA閉環系統

2026-04-10 14:31:26　來源: ScienceAI

河北舉報

分享至

編輯丨ScienceAI

對于每一位在實驗室徹夜調參的研究者來說，最繁瑣的部分往往不是靈光一現，而是其后的環境配置、Bug 修復與實驗迭代。現在的 AI 科研就像是一場追求極致性能的漫漫征途。

看看近年 AI 頂會的投稿數據就知道了：NeurIPS 投稿量高達 21575 篇，其中口頭報告（Oral）僅占 0.4% ；ICML 投稿 12107篇，Oral 占比 0.9% ；ICLR 投稿 11603 篇，Oral 也不過 1.8%。

在這樣千軍萬馬過獨木橋的競爭中，SOTA（當前最佳水平）成為了衡量研究價值的唯一金標準。但攀登這座高峰需要巨量的研究力量投入，一個好的 Idea 可能只占研究過程的一小部分，剩下的全是漫長而痛苦的打磨優化。

近期，清華大學電子工程系助理教授、北京中關村學院兼職導師徐豐力課題組與北京中關村學院聯合發布了AutoSOTA 項目，為這一難題提供了一套工業級的解決方案。目前，AutoSOTA 項目已發布預印本論文。

論文地址：https://arxiv.org/abs/2604.05550

AutoSOTA 致力于實現端到端的 AI 科研自動化，其核心理念是將 AI 智能體的賦能邊界延伸到實驗的每一個底層細節。不同于那些局部加速的工具，AutoSOTA 構建了一個完整的閉環流程，涵蓋了從原始論文輸入到最終優化方法產出的全生命周期。

一支永不疲倦的超級研究團隊

圖 1：AutoSOTA 流程。

在架構層面，AutoSOTA 采用了精密的“多智能體協作”邏輯。整個系統由一個強大的認知架構驅動，具備規劃、推理、記憶和工作流管理能力。我們可以把它想象成一個分工明確的超級研究團隊，具體分工如下：

第一步：資源準備與目標設置

這一環節由AgentResource和 AgentObjective 負責。它們會從海量的 AI 頂會研究（如 ICML、KDD、The Web Conf、AAAI 等）中提取原始論文和代碼庫。

AgentResource 負責管理 PDF 文檔和模型參數，而 AgentObjective 則根據論文目標構建評價指標體系（Rubric Construction），確立優化方向。簡單來說，它們負責搞清楚要研究什么，以及怎么才算研究得好。

第二步：實驗評估閉環

這可能是最讓研究者頭疼的環節，但在AutoSOTA 里，一切都是全自動的。AgentInit 負責底層的環境初始化，AgentMonitor 實時追蹤實驗狀態，而 AgentFix 則負責接收反饋并執行修復指令（Repair Command），直至代碼通過各種復雜的測試與調試。這個過程就像是有個永不疲倦的師兄在幫你改 Bug、配環境，不僅高效而且零出錯。

第三步：代碼優化引擎

AutoSOTA 利用程序數據庫（Program Database）與提示詞采樣（Prompt Sampler），結合大模型集成（LLMs Ensemble）和評估器池（Evaluators pool），實現算法實現的持續精煉。通過不斷地反饋（Feedback）與執行（Execution），模型性能在一次次迭代中穩步提升。

第四步：反思構思引擎

這是AutoSOTA 最像“人類科學家”的地方。AgentScheduler 會協調 AgentIdeator 進行文獻檢索與創新構思（Ideation），并由 AgentSupervisor 進行監督驗證（Supervision & Validation），確保方案的創新性與合規性。這套受人類研究啟發的創新構思引擎，使得系統不再是盲目地調參，而是具備了頂層設計的思考能力。

為了支撐這一復雜的協作模式，AutoSOTA 配備了完善的工具庫（Toolkit）與技能集（Skill Set），這使得智能體能夠獨立完成原本需要人類干預的繁重任務。

圖 2：AutoSOTA多智能體架構。

5小時 vs 數月

在一周的密集實驗中，這套系統交出了一份驚人的成績單。在消耗了約220 億 Token、約 10 萬元人民幣成本的前提下，系統基于前一年的頂會論文成功發現了 105 個性能顯著提升的模型。

最令人興奮的是，這些發現中超過 60% 具備新穎的 AI 模型結構設計，平均性能提升接近 10%。這證明了 AutoSOTA 并非只是在既有路徑上機械搜索，而是展現出了真正的算法創新能力。

更具沖擊力的數據在于研發周期的縮減。在傳統路徑下，一名博士生要閱讀論文、準備資源、配置環境、修正評測、調研構思再到迭代優化，通常需要數月時間才能完成一個SOTA 模型的迭代優化。然而，AutoSOTA 將這一閉環流程的時間壓縮到了 5 小時以內。這意味著系統可以在同一時間內開展數百個并行的研究任務，實現科研產出的爆發式增長。

圖 3：AutoSOTA實驗結果。

項目網站：https://tsinghua-fib-lab.github.io/AutoSOTA/

AutoSOTA 的價值不僅在于刷新了性能數據，更在于它為科研范式提供了全新的可能。它證明，通過多智能體系統的賦能，可以將繁瑣的科研流程從“手工打磨”升級為“智能制造”。正如徐豐力課題組所強調的，AutoSOTA 更像是一個“創造力放大器”。它通過接管那“1到100”的高強度迭代過程，讓人類研究者能夠將最寶貴的注意力重新投入到“0到1”的顛覆式創新中。

這一項目的發布，不僅展示了科研智能體在端到端優化中的巨大潛力，也標志著人類進入了人智協同科學研究的新階段。

未來，當AI 可以大規模自動發現 SOTA 模型時，我們或許該重新思考：科學突破的本質到底是什么？答案可能就藏在那些大膽的問題和未知的方向中。

如果你覺得每天調參、配環境太辛苦，不妨讓 AutoSOTA 這位“超級研究員”來幫你。與我們一起讓科研回歸創新本質！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.