網易首頁 > 網易號 > 正文 申請入駐

刷榜只是體力活!清華消費10萬塊,一周「肝」出105個SOTA

0
分享至


新智元報道

編輯:LRST

【新智元導讀】AutoSOTA通過多智能體協作,將AI研究中繁瑣的性能優化過程自動化,使科研從「手工藝」轉向「工業流水線」。只需5小時即可完成人類需數月的工作,極大釋放科學家的創造力,推動更多原創性探索。

在當今的人工智能研究領域,實驗室的燈火往往見證了無數次為了提升1%性能而進行的徹夜調參。這種被戲稱為「煉丹」的過程,雖然最終產出了當前的最佳水平(State-of-the-Art,簡稱SOTA),但也將人類科學家最寶貴的直覺與創造力,困在了無止境的「增量式優化」勞動中。

面對這種高強度的競爭壓力,清華大學徐豐力助理教授團隊與北京中關村學院推出了AutoSOTA項目。這不僅是一個技術工具的發布,更是試圖改寫AI研究領域的「工業節拍」,將AI科研從低效的「手工藝模式」推向高效的「工業流水線模式」。


論文網址:https://arxiv.org/abs/2604.05550

項目網站:https://tsinghua-fib-lab.github.io/AutoSOTA/

研究背景

要理解AutoSOTA的必要性,首先要看當前AI科研的殘酷現狀。

以頂級AI學術會議為例,頂會論文海量的投稿和最終能夠脫穎而出的口頭報告(Oral)極低的比率使得SOTA性能指標成為了衡量研究價值的「金標準」。

然而,攀登這一高峰需要投入巨量的研究力量。一個頂尖成果或許始于少數幾個大膽的直覺,但后續往往涉及數千次的持續打磨。

以著名的Transformer架構為例,自2017年問世以來,全球科研人員投入了海量算力與人力,歷經數年的變體研究與打磨,才將其在通用語言理解評測集(GLUE)上的性能從約75%提升至90%以上。

這種迭代優化雖然必要,卻占用了人類科學家本可用于原創性探索的大量精力。


圖1 Transformer架構在GLUE評測集上的性能爬升

全自動刷榜

不同于現有只能在沙盒里做局部代碼優化的框架,AutoSOTA 并不是對單一實驗環節的局部加速。

它將智能體的作用范圍大幅拓寬,向下延伸至環境準備、代碼運行等基礎瑣碎任務,向上則觸達研究靈感激發等核心構想步驟,旨在實現「從舊SOTA到新SOTA」、「從舊代碼庫到新代碼庫」的全面科研自動化。


圖2 AutoSOTA研究問題框架

借鑒人類算法研究中的分工流程與協作邏輯,使不同科研智能體能夠圍繞同一目標推進方案設計、實驗操作、數據分析與優化迭代,研究團隊設計了8個各司其職的Agent:


圖3 AutoSOTA端到端AI科研自動化系統

在資源準備與目標設定階段,AgentResource負責物理落地,從PDF提取官方代碼庫,并自動搞定海量外部數據集和權重的下載,AgentObjective負責識別目標,通過樹狀結構分解將論文宏觀目標轉化為密集的評估標準,精準鎖定要超越的目標。

構建環境和實驗評估階段,AgentInit負責初始化環境,根據論文概念補全代碼庫中缺失的腳本,AgentMonitor作為外部監控者,實時追蹤執行軌跡 。一旦發現agent陷入了死循環調試,會立刻介入打斷并提供高級指導,AgentFix專治各種報錯。它帶著失敗記憶庫來修復CUDA不匹配、缺包等環境問題。

深度反思與突破創新階段,AgentIdeator是核心創新大腦,它結合外部文獻先驗知識,提出架構重組的優化假設 ,AgentScheduler作為系統調度中樞,管理實驗的GPU資源和節點狀態,并在每次改代碼前自動打好Git快照以便隨時回滾,AgentSupervisor作為監督者,嚴格執行由禁止修改評估腳本、禁止更改數據集劃分等規則組成的紅線系統,所有生成的Idea必須經過它的嚴格審計。

與此同時,AutoSOTA 配備了完善的工具庫(Toolkit)與技能集(Skill Set),既能處理實驗運行中的突發狀況,又能勝任查閱文獻、頭腦風暴和方案謀劃等高級工作,真正打通了從頂層規劃到底層執行的閉環。

這意味著,AutoSOTA的野心不僅是「跑實驗快一點」,更是引領AI科研自動化從單一環節的輔助工具,蛻變為一套系統化、常態化且高度智能的科研協作生態。

一周斬獲105個SOTA

在最近進行的一場為期一周的真實壓力測試中,AutoSOTA展示了令人震撼的工業產出能力。該實驗以前一年的AI頂會論文成果為基礎,在完全無人干預的條件下持續運行。

一周(168小時)內累計消耗約220億Token(約10.4萬美元,75萬元人民幣),最終成功發現了105個性能顯著提升的SOTA模型。這意味著系統在這周內,平均每隔約1.6小時就能完成一次性能飛躍。這105個新模型平均實現了近10%的性能提升。

更令人驚訝的是,這些成果并非簡單的超參數微調,其中超過60%的模型涉及新穎的結構設計,展現了系統在復雜設計空間中的挖掘能力。AutoSOTA并非機械搜索,它能在已有研究的基礎上進行一定程度的結構創新。


圖4 AutoSOTA實驗結果

AutoSOTA的吞吐量與人類科研路徑形成了極其鮮明的代差。對于一名經驗豐富的人類研究者或人類博士而言,完成一個SOTA模型的完整迭代優化——包括精讀文獻、準備算力資源、安裝工具搭建平臺、模型訓練評估、深入調研創新構思以及持續調優——通常需要數個月的時間。

相比之下,AutoSOTA走完從閱讀論文到迭代優化的全流程,平均耗時僅為5小時。

這種百倍速的提升,不僅是效率的飛躍,更是科研范式維度的「降維打擊」。系統通過「算力換智能」,在相對穩定的條件下,持續產出具備學術競爭力的工作。它具備完善的工具庫與技能集,能夠獨立處理那些讓研究者頭疼的底層繁瑣任務。

總結

AutoSOTA帶給我們的震撼,不僅是產出了一批嶄新的SOTA指標,更深層的意義在于它促使學界反思科研創新的初衷:單純刷高SOTA分數,真的等同于實現了重大的科學突破嗎?

它為我們拋出了一個極具啟發性的命題:如何才能把人類科學家最稀缺的注意力,從機械的實驗試錯中釋放出來,重新聚焦到更具原創價值、更考驗長遠判斷的研究課題上?

未來理想的「人機協作」圖景或許是這樣的:由科研智能體系統去死磕那些重復度高、勞動密集的漫長優化流程;而人類科學家則專職負責提出好問題、錨定大方向、敏銳捕捉機遇并構思底層機制。

從這個角度來看,AutoSOTA更像是一個加持在科研流程上的「創造力放大器」 。

它的初衷決不是為了取代學者的原創智慧,而是要把這種原創性從低效繁雜的苦力活里徹底解放出來。


圖5 AutoSOTA啟發的人智協同科研范式

歸根結底,真正關乎科研未來的,絕非讓學者們陷入「把舊模型分數再推高一點」的循環,而是賦予他們探索那些未被定義、未被解釋且未被系統深挖之難題的機會。

在這條探索之路上,AutoSOTA已經邁出了極具標志性的一步 。它不僅論證了智能體在AI科研自動化領域的磅礴潛力,更為我們描繪了一個充滿希望的明天:當繁重的「性能優化」被智能體接管,科學研究終將回歸其最純粹、最珍貴的起點——大膽地提出問題,勇敢地駛向未知,去追尋真正無可替代的原始創新突破。

AutoSOTA的意義在于它重新定義了SOTA的價值。

當性能優化可以被大規模自動化發現時,我們必須反思:SOTA性能的刷新是否等同于重大的科學突破?

AutoSOTA給出的答案是:它應當成為人類科學家的「創造力放大器」。

通過將工程實現與科學發現解耦,AutoSOTA讓研究者能夠面對那些尚未被解釋、尚未被系統探索的科學無人區。

參考資料:

https://arxiv.org/abs/2604.05550

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
1987年鄧力群堅持左傾,落選中央委員,鄧小平:承認選舉,不變動

1987年鄧力群堅持左傾,落選中央委員,鄧小平:承認選舉,不變動

帝哥說史
2026-04-13 06:30:03
無限期休戰!季后賽次輪報銷!湖人遭遇沉重打擊

無限期休戰!季后賽次輪報銷!湖人遭遇沉重打擊

籃球教學論壇
2026-04-29 18:11:02
中國16艘055大驅有多厲害?要是一起出動,能對抗幾個航母編隊呢

中國16艘055大驅有多厲害?要是一起出動,能對抗幾個航母編隊呢

荷蘭豆愛健康
2026-04-21 01:03:26
笑瘋!怡寶天選代言“接水小貓”被瑞幸截胡,網友:怎么不早點拿出這份PPT?

笑瘋!怡寶天選代言“接水小貓”被瑞幸截胡,網友:怎么不早點拿出這份PPT?

秋葉PPT
2026-04-29 08:23:21
吳敬平談樊振東國際影響力,德國乒協來中國基地當晚就要求訓練

吳敬平談樊振東國際影響力,德國乒協來中國基地當晚就要求訓練

現代快報
2026-04-29 22:29:34
抗美援朝,志愿軍6個兵團司令員都有誰?都是什么軍銜?

抗美援朝,志愿軍6個兵團司令員都有誰?都是什么軍銜?

幽州校尉
2026-04-28 07:20:34
初中的幾個潛規則:初一成績就中下,甚至倒數的,基本跟高中無緣

初中的幾個潛規則:初一成績就中下,甚至倒數的,基本跟高中無緣

好爸育兒
2026-04-20 15:00:49
美司令狂言:中國武統將遭500倍打擊!殊不知中國手握王牌

美司令狂言:中國武統將遭500倍打擊!殊不知中國手握王牌

隔壁董小姐
2026-04-28 18:10:53
把人生濃縮成5句話,越讀越清醒,建議收藏

把人生濃縮成5句話,越讀越清醒,建議收藏

金沛的國學筆記
2026-04-02 11:43:58
廣東4名騎手因遵守交規獲價值9999元純金金牌,6人獲800元頭盔

廣東4名騎手因遵守交規獲價值9999元純金金牌,6人獲800元頭盔

新浪財經
2026-04-29 22:27:17
跑鞋毀了職業生涯!美國短跑世界冠軍,起訴彪馬索賠超百萬美元

跑鞋毀了職業生涯!美國短跑世界冠軍,起訴彪馬索賠超百萬美元

全景體育V
2026-04-29 08:14:27
被港媒騙了20多年!那張泳池照,藏著張柏芝最冤的黑歷史

被港媒騙了20多年!那張泳池照,藏著張柏芝最冤的黑歷史

有品設計
2026-04-28 16:50:06
我想躺平,可以嗎?可能嗎?現實嗎?

我想躺平,可以嗎?可能嗎?現實嗎?

雨秋閑話
2026-04-29 15:29:24
最后的瘋狂:許家印被抓捕的失控三秒鐘

最后的瘋狂:許家印被抓捕的失控三秒鐘

財經保探長
2026-04-09 22:30:38
這下麻煩大了!不到24小時,白冰再迎3大噩耗,個個戳他心窩

這下麻煩大了!不到24小時,白冰再迎3大噩耗,個個戳他心窩

八斗小先生
2026-04-29 16:16:19
社保高官佟達寧淪陷臺灣女特務!15年泄密800份紅頭文件

社保高官佟達寧淪陷臺灣女特務!15年泄密800份紅頭文件

霹靂炮
2026-04-29 22:44:54
一條地鐵線上:多少安檢員和設備  不計成本的虧損

一條地鐵線上:多少安檢員和設備 不計成本的虧損

原某報記者
2026-04-29 12:27:19
菀菀類卿?蔡卓妍官宣結婚,丈夫長相引爆全網熱議

菀菀類卿?蔡卓妍官宣結婚,丈夫長相引爆全網熱議

喜歡歷史的阿繁
2026-04-29 19:10:35
朝鮮庫爾斯克紀念館正式落地,暴露其在庫爾斯克陣亡的真實人數!

朝鮮庫爾斯克紀念館正式落地,暴露其在庫爾斯克陣亡的真實人數!

阿龍聊軍事
2026-04-29 06:20:12
輸球不可怕,瞎指揮才致命!邱彪這波操作,毀了山東男籃的季后賽

輸球不可怕,瞎指揮才致命!邱彪這波操作,毀了山東男籃的季后賽

臻體育
2026-04-29 23:06:09
2026-04-29 23:32:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15095文章數 66819關注度
往期回顧 全部

科技要聞

今晨庭審紀實|馬斯克當庭講述OpenAI被偷走

頭條要聞

院長兒子被指"吃空餉"涉百萬獎金 醫院調查稱其拿2萬

頭條要聞

院長兒子被指"吃空餉"涉百萬獎金 醫院調查稱其拿2萬

體育要聞

一場九球狂歡,各路神仙批量下凡

娛樂要聞

馬頔一句話,孫楊媽媽怒罵節目組2小時

財經要聞

蘇州,率先進入牛市

汽車要聞

技術天花板再摸高 全能型的奕境X9首秀

態度原創

教育
時尚
健康
本地
數碼

教育要聞

還得是青羊區?。赡旯傩?所新高中,個個來頭不小

除了“薄底鞋”,今年最流行這5雙鞋,怎么搭都好看!

干細胞治燒燙傷能用了么?

本地新聞

用青花瓷的方式,打開西溪濕地

數碼要聞

追覓推出空氣炸鍋F20:6L容量、1700W上下雙熱源,299元

無障礙瀏覽 進入關懷版