![]()
越來越多企業、研究所開始展示其利用人工智能取得的優秀科研成果。但此類“AI科學家”系統能成為真正的創新者、探索者嗎?如果它們的確足夠強大,人類科學家又該如何調整自己在實驗室里的位置、在論文稿上的地位?
為論文而生,到實驗中去
那是2025年4月,有一場人工智能大會即將召開。科學家卡爾(Carl)則早已將自己撰寫的4份論文呈遞至大會的同行評審專家組處,希望作品最終被公開展示。經歷了雙盲同行評審后,4篇文章里的3篇順利入圍。
評審專家確信卡爾的成果水平高、亮點足,而他們不知道的是,這3篇論文其實是AI寫的,從一眾人類投稿者中脫穎而出的卡爾是AI系統。(當然,撰文過程有不同程度的人類參與。)研發出卡爾系統的科技企業名為Autoscience Institute,該機構表示,這款模型能加速人工智能領域的研究進程。
時間過去短短一年,像卡爾這樣的“AI科學家”越來越多。比如,美國的非營利性研究所FutureHouse開發了科研智能體羅賓(Robin)、科斯莫斯(Kosmos);更早些時候,日本AI初創公司Sakana AI也推出過全自動科學發現系統——產品名就叫“AI科學家”。
AI科學家由多個大型語言模型(LLM)整合而成。Autoscience Institute聯合創始人埃利奧特·考恩(Eliot Cowan)表示:不同于聊天機器人,以卡爾為代表的AI科學家被設計用于生成、驗證研究思路并產出科研成果。此類系統能在不同程度上自主梳理文獻、提出假設、開展實驗、分析數據,最終取得創新性的科研發現;而開發者的目標是借助人工智能提高科研效率、擴大科研產出。
至于AI科學家會不會取代人類科學家——企業普遍覺得可能性很小。
不過無論如何,科學研究攜手人工智能的自動化發展趨勢已經引發某些復雜情緒。正如知名學者朱利安·托格利烏斯(Julian Togelius)所言:“你很難不感到不安,因為像提假說、整文獻這些工作,本該是我們做的。”
托格利烏斯既是計算機科學家又是AI研究專家。實際上,有許多像托格利烏斯這樣的AI領域研究者都心懷憂慮,認為AI科學家可能擠占下一代科研人員的發展空間,將大量低質量、不可靠的數據引入科研系統,削弱人們對科學發現的信任度。
英國艾倫·圖靈研究所的學者大衛·萊斯利(David Leslie)則感慨:“科研是一項已經高度成熟且充滿社會性、由人類主導的事業。傳統上的科研實踐與計算系統的運作存在本質區別——人工智能在其中該如何定位?”
“為科學研究帶來無限可能”
過去5年間,AI驅動的自動化系統已助力取得多項重大科研突破。
例如,谷歌DeepMind公司推出的AlphaFold能以高分辨率預測蛋白質三維結構,其運算速度遠非科研人員得實驗速度可比。作為AlphaFold的主要開發者德米斯·哈薩比斯(Demis Hassabis)和約翰·江珀(John Jumper),也憑借在蛋白質結構預測方面的卓越貢獻而收獲2024年諾貝爾化學獎。(詳見:)
萊斯利曾提出所謂“計算弗蘭肯斯坦拼接體”(computational Frankensteins)的概念:對各類生成式AI基礎設施、算法及其他組件做融合,再利用融合后的技術開發應用,嘗試模擬那些復雜、本需人類親身參與的社會實踐,其中包括科學發現過程。
僅2025年一年,就至少有Sakana AI、Autoscience Institute、FutureHouse三家單位高調公布其首批由人工智能生成的科研成果。部分受雇于美國政府的科研人員也開始接納AI:在阿貢國家實驗室、橡樹嶺國家實驗室和勞倫斯伯克利國家實驗室,科學家成功開發出由AI驅動的全自動材料實驗室。
這些人工智能系統和大語言模型一樣,有望被用于整合文獻、挖掘海量數據,進而發現潛在規律。在材料科學領域,AI系統能設計、發現新型材料;在亞原子粒子物理學領域,它們也能幫助人類取得深刻的見解。
萊斯利表示,人工智能系統能以人類不可企及的方式,在數百萬、數十億乃至數萬億個變量間建立關聯。“單是這項能力,就為科研帶來了無限可能。”
舉例來說,FutureHouse開發的羅賓通過對文獻資料的挖掘,發現一種有望治療致盲性病變的候選藥物,還提出了驗證該藥物療效的實驗方案,并完成相關數據分析。
編造風險大,創新力不足
在創造無限可能的對面,是生產科研糟粕的風險。
正如卡內基梅隆大學計算機科學家尼哈爾·沙阿(Nihar Shah)所擔憂的,未來或將有大量質量低下、缺乏創新的AI生成研究充斥學術文獻。當然,沙阿對人工智能助力新發現的前景“總體上更為樂觀”。
值得一提的是,沙阿團隊還測試過兩款輔助科研的AI模型,試圖找出系統的缺陷和不足。一款是Sakana AI的“AI科學家2.0”,另一款是半導體企業AMD與約翰霍普金斯大學合作打造的“智能體實驗室”(Agent Laboratory)系統,其任務是充當科研助理。
在測試中,AI科學家2.0開展某一特定任務時報告了達到95%乃至100%準確率;鑒于研究人員事先向數據集內引入了噪聲,如此準確率顯然不合理。智能體實驗室也存在類似問題,即有時會編造合成數據集用于分析,卻在最終報告里聲稱分析基于原始數據集。
為此,沙阿與同事創建了新算法用以標記這類方法學誤區,比如“分析時只挑選對研究有利的數據集”“選擇性公布陽性結果”等。
另一方面,生成式AI系統存在創新能力不足的問題。
例如,曾有專家判斷聊天機器人GPT-4僅能實現漸進式的科學發現;又如,《科學-免疫學》(Science Immunology)雜志2025年發文稱:盡管AI聊天機器人能準確整合文獻,但至少在疫苗學領域,它們提不出富有洞見的研究假設或實驗方案。
該如何審查、驗證AI產出的成果?
沙阿認為,AI科學家的持續應用并不會導致實驗室中的人類被邊緣化。
“就算機器強大到無與倫比,人類仍有施展才華的天地;當然,目前還難以明確未來人類的角色定位,能參與科研的哪些環節。”
用萊斯利的話說,科學研究一直都是充滿“人性”的事業,由人類的詮釋、構建、探討和探索組成,常常受到科研人員自身的價值觀和偏好的影響。為預測最優答案而生的計算系統則與之截然不同。預測模型本身只負責從博大精深的科學實踐中截取冰山一角。
“要知道,科研實踐的復雜性常常來自制度層面、方法論層面和歷史層面,科研甚至還受限于不公正、歧視等問題——這些問題往往決定誰能從事科研、誰被拒之門外、科學為誰服務、哪些領域長期徘徊不前……”
有些專家認為,AI科學家不會成為替代者,而是科研人員的輔助工具,幫助人類收獲洞見,就像顯微鏡、望遠鏡一樣。
Sakana AI推出初代AI科學家時曾發文稱:“我們認為,人類科學家的作用不會被削弱,反倒會跟隨技術新趨勢而調整角色定位,向科研價值鏈的更高處邁進。”
實際上,如今有許多科研人員都已開始思考自己未來會如何與AI攜手相伴。不過,其中有一項關鍵話題一直被關注,即“如何審查與驗證人工智能產出的研究成果”。
沙阿提議,未來的學術期刊和會議應核查科研過程的日志記錄以及生成的代碼,以此審查AI成果,驗證其真實性,并找出其中的方法學漏洞。
考恩表示,Autoscience Institute等機構正嘗試設計嚴守倫理準則的AI系統,希望人工智能遵循“學術機構的科研人員開展實驗時所需遵循的標準”。
值得一提的是,前文介紹的卡爾被設計者置入了多項準則,包括杜絕虛假署名和剽竊、保證結果的可復現性、不涉及人類受試者或采用敏感數據等。
資料來源:
![]()
文章轉載自“世界科學”公眾號
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.