亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大變天?Nature 報(bào)道科研邁向AI自動(dòng)化:從研究構(gòu)思到通過(guò)盲審

0
分享至


認(rèn)知神經(jīng)科學(xué)前沿文獻(xiàn)分享


基本信息

Title:Towards end-to-end automation of AI research

發(fā)表時(shí)間:2026-03-25

發(fā)表期刊:Nature

影響因子:48.5

獲取原文:

1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本



研究背景

過(guò)去幾年,AI在科研中的角色不斷擴(kuò)張,但多數(shù)停留在查文獻(xiàn)、寫代碼、提假設(shè)等單點(diǎn)輔助上。真正困難的問(wèn)題是:模型能否將一個(gè)研究想法推進(jìn)成完整實(shí)驗(yàn),再把實(shí)驗(yàn)結(jié)果整理成論文,并最終通過(guò)同行評(píng)議的檢驗(yàn)?

這篇《Nature》論文探討的正是這一關(guān)鍵缺口:是否可以構(gòu)建一個(gè)基于基礎(chǔ)模型(foundation models)的代理式系統(tǒng)(agentic system),端到端自動(dòng)完成機(jī)器學(xué)習(xí)科研流程。作者提出了The AI Scientist系統(tǒng),其目標(biāo)不是簡(jiǎn)單生成文本,而是覆蓋構(gòu)思、查重、實(shí)驗(yàn)、畫(huà)圖、寫作乃至AI審稿的完整鏈條。同時(shí),評(píng)估這類系統(tǒng)本身也極具挑戰(zhàn)。若每次都依賴人類專家逐篇審稿,成本極高且難以規(guī)模化比較。因此,作者構(gòu)建了配套的自動(dòng)審稿器 The Automated Reviewer,用以近似人類評(píng)審群體的判斷。

這項(xiàng)工作最引人注目的結(jié)果在于其真實(shí)的外部驗(yàn)證:經(jīng)批準(zhǔn)后,3篇全AI生成的論文被匿名投至ICLR 2025的一個(gè)workshop,其中1篇在真實(shí)盲審中超過(guò)了平均接收閾值。這表明AI自動(dòng)化科研開(kāi)始觸碰真實(shí)學(xué)術(shù)評(píng)審體系,但作者也極其謹(jǐn)慎地指出,這距離頂級(jí)主會(huì)標(biāo)準(zhǔn)仍有明顯差距,且系統(tǒng)的穩(wěn)定性與方法正確性仍有待解決。


實(shí)驗(yàn)設(shè)計(jì)與方法邏輯

論文的論證為三個(gè)層次:系統(tǒng)構(gòu)建、評(píng)估器驗(yàn)證與能力檢驗(yàn)。

第一層是系統(tǒng)構(gòu)建。The AI Scientist包含兩種形態(tài):基于模板(template-based)的系統(tǒng)從人類提供的初始代碼出發(fā),在特定子領(lǐng)域上迭代推進(jìn);無(wú)模板(template-free)系統(tǒng)則在更開(kāi)放的空間中,通過(guò)代理式樹(shù)搜索(agentic tree search)生成代碼、調(diào)試并推進(jìn)研究議程,更接近從零開(kāi)始的開(kāi)放式科研。

第二層是評(píng)估器驗(yàn)證。作者構(gòu)建了The Automated Reviewer,采用5個(gè)獨(dú)立AI審稿加1個(gè)元審稿(meta-review)的集成流程。在OpenReview的ICLR歷史決策數(shù)據(jù)上,該審稿器的平衡準(zhǔn)確率(balanced accuracy)達(dá)到0.66至0.69,與已知的人類評(píng)審一致性水平相當(dāng)。這使其具備了作為大規(guī)模比較系統(tǒng)輸出質(zhì)量的近似標(biāo)尺的資格。

第三層是能力檢驗(yàn)。作者首先在內(nèi)部比較了不同底層模型和測(cè)試時(shí)計(jì)算(test-time compute)對(duì)生成論文質(zhì)量的影響。隨后進(jìn)行了最關(guān)鍵的外部驗(yàn)證:經(jīng)ICLR 2025 workshop組織方和IRB批準(zhǔn),作者將3篇未經(jīng)人工修改正文的AI生成論文提交至ICBINB workshop盲審。此設(shè)計(jì)的目的并非證明AI已達(dá)頂會(huì)水平,而是檢驗(yàn)其能否在真實(shí)同行評(píng)審場(chǎng)景下跨過(guò)最低可接受門檻。


核心發(fā)現(xiàn)

發(fā)現(xiàn)一:AI首次閉環(huán)完成科研流程,并在真實(shí)workshop盲審中達(dá)到接收門檻

The AI Scientist將提出想法、新穎性檢查、修改代碼、運(yùn)行實(shí)驗(yàn)、繪制圖表、撰寫論文及AI審稿等環(huán)節(jié)串聯(lián)為完整閉環(huán)。在經(jīng)批準(zhǔn)的外部驗(yàn)證中,3篇全AI生成的論文被提交至ICLR 2025的ICBINB workshop。其中1篇獲得6、7、6的評(píng)分,超過(guò)該workshop的平均接收閾值。這證明全AI生成的論文已能在真實(shí)的同行評(píng)審環(huán)境中跨過(guò)初步門檻,但作者強(qiáng)調(diào),這僅是workshop級(jí)別,且3篇中僅1篇過(guò)線,尚未達(dá)到頂級(jí)主會(huì)標(biāo)準(zhǔn)。



Fig. 1a 中,作者展示了 The AI Scientist 覆蓋構(gòu)思、實(shí)驗(yàn)、寫作與審稿的完整流程;Fig. 2 則展示了在真實(shí)盲審中達(dá)到接收門檻的 AI 生成論文片段。
發(fā)現(xiàn)二:底層模型升級(jí)與測(cè)試時(shí)計(jì)算增加,能顯著提升AI生成的論文質(zhì)量

借助與人類評(píng)審一致性相當(dāng)?shù)淖詣?dòng)審稿器,作者量化評(píng)估了不同配置下的系統(tǒng)產(chǎn)出。結(jié)果顯示,驅(qū)動(dòng)系統(tǒng)的底層基礎(chǔ)模型發(fā)布時(shí)間越新,生成的論文得分越高。此外,在無(wú)模板的開(kāi)放式探索中,增加測(cè)試時(shí)計(jì)算,尤其是增加樹(shù)搜索中的實(shí)驗(yàn)節(jié)點(diǎn)預(yù)算,能讓系統(tǒng)嘗試更多路徑并修復(fù)錯(cuò)誤,從而進(jìn)一步提高最終論文的質(zhì)量評(píng)分。


Fig. 1b 中,作者展示了不同發(fā)布時(shí)間的底層模型驅(qū)動(dòng)系統(tǒng)時(shí),論文評(píng)分整體上升的趨勢(shì);Fig. 3c 則表明隨著實(shí)驗(yàn)節(jié)點(diǎn)數(shù)量增加,自動(dòng)審稿器給出的論文分?jǐn)?shù)也隨之上升。
發(fā)現(xiàn)三:當(dāng)前系統(tǒng)仍存在方法錯(cuò)誤與幻覺(jué)等短板,尚未能穩(wěn)定替代人類科研

文中 Limitations 段落與討論中,作者認(rèn)為:盡管實(shí)現(xiàn)了流程閉環(huán),但當(dāng)前系統(tǒng)在科學(xué)嚴(yán)謹(jǐn)性上仍存在明顯瓶頸。作者坦誠(chéng)列舉了常見(jiàn)的失敗模式,包括研究想法不成熟、核心方法實(shí)現(xiàn)錯(cuò)誤、實(shí)驗(yàn)不夠嚴(yán)謹(jǐn)、圖表重復(fù)以及引用幻覺(jué)(hallucination)等。這些問(wèn)題直接觸及科學(xué)研究的正確性與可信度。因此,當(dāng)前的系統(tǒng)更像是一個(gè)能跑通流程的研究代理原型,若無(wú)監(jiān)督地大規(guī)模使用,可能帶來(lái)制造文獻(xiàn)噪聲、擠占評(píng)審資源等倫理與社會(huì)風(fēng)險(xiǎn)。


省流總結(jié)

本研究提出The AI Scientist系統(tǒng),實(shí)現(xiàn)了機(jī)器學(xué)習(xí)科研從構(gòu)思到審稿的端到端自動(dòng)化。在真實(shí)workshop盲審中,1篇AI生成論文達(dá)到接收門檻。盡管模型升級(jí)能提升質(zhì)量,但系統(tǒng)仍存在實(shí)驗(yàn)錯(cuò)誤與幻覺(jué)等短板,距離頂會(huì)標(biāo)準(zhǔn)仍有差距。


請(qǐng)打分

這篇?jiǎng)倓偟巧?strong>Nature的研究,是否實(shí)至名歸?我們邀請(qǐng)您作為“云審稿人”,一同品鑒。精讀全文后,歡迎在匿名投票中打分,并在評(píng)論區(qū)分享您的深度見(jiàn)解。

分享人:天天

審核:PsyBrain 腦心前沿編輯部

你好,這里是「PsyBrain 腦心前沿

專注追蹤全球認(rèn)知神經(jīng)科學(xué)的最尖端突破

視野直擊 Nature, Science, Cell 正刊 及核心子刊與頂級(jí)大刊

每日速遞「深度解讀」與「前沿快訊

科研是一場(chǎng)探索未知的長(zhǎng)跑,但你無(wú)需獨(dú)行。歡迎加入PsyBrain 學(xué)術(shù)社群,和一群懂你的同行,共同丈量腦與心智的無(wú)垠前沿。

點(diǎn)擊卡片進(jìn)群,歡迎你的到來(lái)

一鍵關(guān)注,點(diǎn)亮星標(biāo) ? 前沿不走丟!


一鍵分享,讓更多人了解前沿

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
向余望:面對(duì)魔鬼賽程,我們把自己放在挑戰(zhàn)者的位置

向余望:面對(duì)魔鬼賽程,我們把自己放在挑戰(zhàn)者的位置

懂球帝
2026-04-17 21:53:29
吳邦國(guó)的狂草技藝,讓書(shū)壇驚嘆不已!

吳邦國(guó)的狂草技藝,讓書(shū)壇驚嘆不已!

書(shū)畫(huà)相約
2026-04-07 07:08:05
淪為共享單車的女色虎

淪為共享單車的女色虎

深度報(bào)
2026-03-05 22:39:27
當(dāng)年造價(jià)7000萬(wàn)被罵浪費(fèi)的“巨型銅河豚”,如今價(jià)值2.1億了?

當(dāng)年造價(jià)7000萬(wàn)被罵浪費(fèi)的“巨型銅河豚”,如今價(jià)值2.1億了?

麥杰遜
2026-03-18 14:11:33
繼德國(guó)之后,英國(guó)也開(kāi)始貼出“中文標(biāo)語(yǔ)”?中國(guó)游客:不能夠接受

繼德國(guó)之后,英國(guó)也開(kāi)始貼出“中文標(biāo)語(yǔ)”?中國(guó)游客:不能夠接受

潮鹿逐夢(mèng)
2026-04-02 12:31:48
別被果汁名字騙了!宋柚“塌房”,三得利、味全也這么玩

別被果汁名字騙了!宋柚“塌房”,三得利、味全也這么玩

界面新聞
2026-04-16 21:04:28
西方承認(rèn),經(jīng)過(guò)中東這一仗才發(fā)現(xiàn),中國(guó)手里3張王牌,別人玩不來(lái)

西方承認(rèn),經(jīng)過(guò)中東這一仗才發(fā)現(xiàn),中國(guó)手里3張王牌,別人玩不來(lái)

聞識(shí)
2026-04-06 03:08:50
女生主動(dòng)起來(lái)有多黏人?網(wǎng)友:這些女的太開(kāi)放了

女生主動(dòng)起來(lái)有多黏人?網(wǎng)友:這些女的太開(kāi)放了

帶你感受人間冷暖
2026-01-27 00:20:06
國(guó)家出手!“京圈富少”被判入獄,和童瑤關(guān)系被扒,真實(shí)身份曝光

國(guó)家出手!“京圈富少”被判入獄,和童瑤關(guān)系被扒,真實(shí)身份曝光

林輕吟
2026-03-25 07:23:12
長(zhǎng)期不住的房子,物業(yè)費(fèi)能少交嗎?民法典早說(shuō)了,別再交冤枉錢!

長(zhǎng)期不住的房子,物業(yè)費(fèi)能少交嗎?民法典早說(shuō)了,別再交冤枉錢!

老特有話說(shuō)
2026-03-11 14:47:30
沈富雄稱鄭麗文已放棄“一中各表”,陳鳳馨當(dāng)場(chǎng)發(fā)飆:你講太多了

沈富雄稱鄭麗文已放棄“一中各表”,陳鳳馨當(dāng)場(chǎng)發(fā)飆:你講太多了

遁走的兩輪
2026-04-17 07:00:40
國(guó)防部話音剛落,東部戰(zhàn)區(qū)就來(lái)真的了!臺(tái)海方向,有些人該失眠了

國(guó)防部話音剛落,東部戰(zhàn)區(qū)就來(lái)真的了!臺(tái)海方向,有些人該失眠了

閆樹(shù)軍論評(píng)
2026-04-14 18:35:59
中國(guó)突然放出話來(lái):以后再也不當(dāng)那個(gè)任勞任怨的冤大頭了

中國(guó)突然放出話來(lái):以后再也不當(dāng)那個(gè)任勞任怨的冤大頭了

阿七說(shuō)史
2026-03-29 05:30:03
國(guó)民黨政要被安裝追蹤器監(jiān)聽(tīng),“現(xiàn)在不只有東廠、西廠,還有錦衣衛(wèi)。”

國(guó)民黨政要被安裝追蹤器監(jiān)聽(tīng),“現(xiàn)在不只有東廠、西廠,還有錦衣衛(wèi)。”

樞密院十號(hào)
2026-04-16 22:13:44
零跑D19賣22萬(wàn):誰(shuí)給它的勇氣?

零跑D19賣22萬(wàn):誰(shuí)給它的勇氣?

摸魚(yú)算法
2026-04-16 20:52:14
油盡燈枯,菲律賓第一個(gè)倒下!

油盡燈枯,菲律賓第一個(gè)倒下!

李榮茂
2026-04-17 19:05:55
廣東“莫氏雞煲大公主”爆火前后反差大,晚上干到凌晨2點(diǎn)才收工,發(fā)文吐槽:這個(gè)雞你們是非吃不可嗎

廣東“莫氏雞煲大公主”爆火前后反差大,晚上干到凌晨2點(diǎn)才收工,發(fā)文吐槽:這個(gè)雞你們是非吃不可嗎

大象新聞
2026-04-15 12:57:04
降脂針300元進(jìn)醫(yī)保!半年僅需一針,醫(yī)生提醒:這4類人不建議使用

降脂針300元進(jìn)醫(yī)保!半年僅需一針,醫(yī)生提醒:這4類人不建議使用

思思夜話
2026-04-17 17:01:25
第一集就得打碼!這部黃暴美劇,終于開(kāi)播了

第一集就得打碼!這部黃暴美劇,終于開(kāi)播了

來(lái)看美劇
2026-04-08 17:02:19
勸退!這幾種“愛(ài)貓”行為,正在把貓逼成“應(yīng)激體質(zhì)”!

勸退!這幾種“愛(ài)貓”行為,正在把貓逼成“應(yīng)激體質(zhì)”!

貓研所
2026-04-16 16:34:17
2026-04-18 02:36:49
PsyBrain腦心前沿
PsyBrain腦心前沿
追蹤腦科學(xué)新動(dòng)態(tài),聚焦認(rèn)知與神經(jīng)新研究
322文章數(shù) 15關(guān)注度
往期回顧 全部

科技要聞

7家頭部平臺(tái)被罰沒(méi)35.97億元

頭條要聞

特朗普:感謝伊朗開(kāi)放霍爾木茲海峽

頭條要聞

特朗普:感謝伊朗開(kāi)放霍爾木茲海峽

體育要聞

中超-泰山1-1海港 楊希處子球克雷桑任意球扳平

娛樂(lè)要聞

劉德華摯友潘宏彬離世 曾一起租房住

財(cái)經(jīng)要聞

"影子萬(wàn)科"2.0:管理層如何吸血萬(wàn)物云?

汽車要聞

又快又穩(wěn)的開(kāi)掛動(dòng)力! 阿維塔06T全系搭分布式電驅(qū)

態(tài)度原創(chuàng)

藝術(shù)
時(shí)尚
手機(jī)
旅游
軍事航空

藝術(shù)要聞

你絕對(duì)想不到!文森特的色粉作品竟如此驚艷!

今日熱點(diǎn):許光漢否認(rèn)和周子瑜戀情;郝熠然與誠(chéng)實(shí)一口終止合作……

手機(jī)要聞

vivo萬(wàn)級(jí)電池新機(jī)曝光:10200mAh電池+90W快充,友商接得住嗎!

旅游要聞

三月三登泰山!蟠桃會(huì)+古風(fēng)巡游驚艷出圈

軍事要聞

美宣布黎以停火10天 以方稱不會(huì)撤軍

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版