撰文丨王聰
編輯丨王多魚
排版丨水成文
在計(jì)算生物學(xué)這一融合了生命科學(xué)與數(shù)據(jù)科學(xué)的前沿領(lǐng)域,科學(xué)家們長(zhǎng)期面臨一個(gè)巨大挑戰(zhàn):如何設(shè)計(jì)出能精準(zhǔn)預(yù)測(cè)細(xì)胞在藥物、基因編輯等干預(yù)下如何反應(yīng)的數(shù)學(xué)模型(即虛擬細(xì)胞模型)。這個(gè)過程需要同時(shí)精通機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)和深厚的生物學(xué)知識(shí),以同時(shí)解決生物學(xué)復(fù)雜性、多模態(tài)數(shù)據(jù)異質(zhì)性以及跨學(xué)科專業(yè)知識(shí),堪稱“跨學(xué)科煉金術(shù)”。
近日,耶魯大學(xué)博士生唐相儒等人聯(lián)合賓夕法尼亞大學(xué)、亥姆霍茲慕尼黑中心、斯坦福大學(xué)、谷歌 DeepMind 及哈佛大學(xué)等機(jī)構(gòu)的研究人員,在預(yù)印本平臺(tái)arXiv上發(fā)表了題為:CellForge: Agentic Design of Virtual Cell Models 的研究論文。
該研究推出了CellForge( 細(xì)胞鍛造廠 ),這是一個(gè)多智能體框架,其作為 AI 科研總指揮,能夠 根據(jù)不同的生物醫(yī)學(xué)研究任務(wù), 自主設(shè)計(jì)、優(yōu)化并實(shí)現(xiàn)一套完整的虛擬細(xì)胞模型,其表現(xiàn)甚至能與人類專家設(shè)計(jì)的頂尖虛擬細(xì)胞模型一較高下。
CellForge突顯了多智能體框架的科學(xué)價(jià)值:多個(gè)專業(yè)智能體之間的協(xié)作能夠?qū)崿F(xiàn)真正的方法創(chuàng)新以及單個(gè)智能體或人類專家無法實(shí)現(xiàn)的可執(zhí)行解決方案。這標(biāo)志著計(jì)算生物學(xué)中自主科學(xué)方法開發(fā)范式的轉(zhuǎn)變。
![]()
虛擬細(xì)胞:數(shù)字世界里的生命模擬
要理解CellForge做了什么,首先要了解“虛擬細(xì)胞建模”(Virtual Cell Modeling)這個(gè)領(lǐng)域。簡(jiǎn)單來說,它的目標(biāo)是在計(jì)算機(jī)中模擬一個(gè)細(xì)胞,并預(yù)測(cè)當(dāng)這個(gè)細(xì)胞遭遇“擾動(dòng)”時(shí)會(huì)發(fā)生什么。
這些“擾動(dòng)”可以是一次基因敲除、一種新藥的刺激,或是細(xì)胞因子的作用。通過單細(xì)胞 RNA 測(cè)序(scRNA-seq)等技術(shù),科學(xué)家能獲取細(xì)胞在擾動(dòng)前后數(shù)萬(wàn)個(gè)基因的表達(dá)數(shù)據(jù),海量而復(fù)雜。
傳統(tǒng)上,針對(duì)每一個(gè)新數(shù)據(jù)集、新擾動(dòng)類型,研究人員都需要結(jié)合領(lǐng)域知識(shí),手動(dòng)設(shè)計(jì)或挑選合適的機(jī)器學(xué)習(xí)模型架構(gòu),過程繁瑣且高度依賴專家經(jīng)驗(yàn)。這就像為每一位病人量身定制一套完全不同的診斷算法,效率低下且難以推廣。
從“單打獨(dú)斗”到“團(tuán)隊(duì)作戰(zhàn)”:AI 智能體的科研革命
CellForge的核心創(chuàng)新,在于它采用了“多智能體”(Multi-Agent)協(xié)作框架。可以理解為這是一個(gè)高度專業(yè)化的 AI 科研團(tuán)隊(duì),而不是一個(gè)單一的、試圖解決所有問題的“超級(jí) AI”。
這個(gè)團(tuán)隊(duì)分工明確,配合默契——
1、任務(wù)分析模塊:相當(dāng)于團(tuán)隊(duì)的“情報(bào)官”和“文獻(xiàn)調(diào)研員”。它首先自動(dòng)解析用戶給的單細(xì)胞數(shù)據(jù)集,理解其中包含的細(xì)胞類型、擾動(dòng)信息、數(shù)據(jù)特征等。接著,它會(huì)自動(dòng)檢索相關(guān)的科學(xué)文獻(xiàn),從中汲取設(shè)計(jì)模型的靈感和原則。
2、設(shè)計(jì)模塊:這是團(tuán)隊(duì)的“智囊團(tuán)”和“辯論會(huì)”。系統(tǒng)會(huì)動(dòng)態(tài)組建一個(gè)專家小組,成員可能包括“數(shù)據(jù)專家”、“單細(xì)胞生物學(xué)專家”、“深度學(xué)習(xí)架構(gòu)師”等。它們以“角色扮演”的方式,圍繞任務(wù)展開基于圖結(jié)構(gòu)的討論。
每位專家提出自己的模型設(shè)計(jì)方案。
一位“評(píng)審專家”負(fù)責(zé)點(diǎn)評(píng)每個(gè)方案的優(yōu)缺點(diǎn)并打分。
專家們也會(huì)互相評(píng)價(jià)同行的方案。
通過多輪辯論,方案不斷融合、改進(jìn),直到所有專家對(duì)某個(gè)設(shè)計(jì)達(dá)成高度共識(shí)。這個(gè)過程能催生出人類專家可能想不到的創(chuàng)新架構(gòu),例如論文中提到的、用于處理時(shí)間動(dòng)態(tài)數(shù)據(jù)的“軌跡感知編碼器”。
3、實(shí)驗(yàn)執(zhí)行模塊:這是團(tuán)隊(duì)的“工程師”和“實(shí)驗(yàn)員”。一旦設(shè)計(jì)方案確定,該模塊會(huì)自動(dòng)將其轉(zhuǎn)化為可運(yùn)行的代碼,并管理整個(gè)訓(xùn)練過程。它具備“自我調(diào)試”能力,遇到代碼錯(cuò)誤時(shí)會(huì)分析問題、自動(dòng)修補(bǔ)并重新嘗試。訓(xùn)練中還能進(jìn)行輕量的超參數(shù)調(diào)優(yōu),并在完成后自動(dòng)驗(yàn)證模型性能。
![]()
![]()
這個(gè)框架的魅力在于,它不是從一堆預(yù)設(shè)的模板中做選擇,而是通過智能體之間基于知識(shí)的辯論與協(xié)作,真正從零開始“創(chuàng)造”出一個(gè)新的、針對(duì)特定任務(wù)優(yōu)化的模型。這超越了簡(jiǎn)單的超參數(shù)調(diào)優(yōu),實(shí)現(xiàn)了方法論層面的創(chuàng)新。
實(shí)戰(zhàn)檢驗(yàn):媲美頂尖專家,探索未知領(lǐng)域
研究團(tuán)隊(duì)在六個(gè)公開的單細(xì)胞擾動(dòng)數(shù)據(jù)集上對(duì)CellForge進(jìn)行了全面測(cè)試,任務(wù)涵蓋基因敲除、藥物處理、細(xì)胞因子刺激等多種類型,數(shù)據(jù)模態(tài)也包括了 scRNA-seq(用于檢測(cè)基因表達(dá)情況)、scATAC-seq(用于分析染色質(zhì)可及性)、CITE-seq(同時(shí)檢測(cè) RNA 和蛋白質(zhì))等。
在已知方法較多的領(lǐng)域(例如基因敲除的 scRNA-seq 數(shù)據(jù)),CellForge自動(dòng)設(shè)計(jì)的模型表現(xiàn)出了強(qiáng)大的競(jìng)爭(zhēng)力。在 Adamson 和 Norman 這兩個(gè)經(jīng)典數(shù)據(jù)集上,其模型在預(yù)測(cè)擾動(dòng)后基因表達(dá)的關(guān)鍵指標(biāo)(例如 MSE、PCC、R2)上,與 CPA、scGPT、Biolord 等人類設(shè)計(jì)的頂尖模型不相上下,甚至在部分指標(biāo)上實(shí)現(xiàn)超越。
在缺乏成熟方法的“無人區(qū)”,CellForge的價(jià)值更加凸顯。例如,在預(yù)測(cè)染色質(zhì)可及性變化(scATAC-seq 數(shù)據(jù))或蛋白質(zhì)表達(dá)變化(CITE-seq 數(shù)據(jù))的任務(wù)上,由于沒有現(xiàn)成的專用模型,傳統(tǒng)的基線方法(例如線性回歸、隨機(jī)森林)表現(xiàn)平平。而CellForge能夠自主設(shè)計(jì)出適應(yīng)這些獨(dú)特?cái)?shù)據(jù)模態(tài)的定制化架構(gòu),取得了顯著的性能提升。這證明了其方法具備強(qiáng)大的泛化能力和探索性。
![]()
不止于預(yù)測(cè):理解生命的“黑匣子”
一個(gè)好的模型不僅要預(yù)測(cè)得準(zhǔn),還要讓人類理解其決策。CellForge的設(shè)計(jì)也考慮到了生物學(xué)的可解釋性。
評(píng)估顯示,其模型能有效識(shí)別出在擾動(dòng)中真正發(fā)生關(guān)鍵變化的基因(差異表達(dá)基因),并且預(yù)測(cè)的細(xì)胞狀態(tài)在整體結(jié)構(gòu)上與真實(shí)生物學(xué)圖譜保持一致。通路富集分析也證實(shí),模型捕捉到的信號(hào)與已知的生物學(xué)通路(例如 NF-κB、p53 信號(hào)通路)相符。
未來與挑戰(zhàn):邁向自主科學(xué)發(fā)現(xiàn)
CellForge代表了一種科研范式的轉(zhuǎn)變:從人類指導(dǎo) AI 執(zhí)行單一任務(wù),轉(zhuǎn)向 AI 自主管理從問題分析到方法實(shí)現(xiàn)的全流程。它為計(jì)算生物學(xué),乃至更廣泛的科學(xué)領(lǐng)域,提供了一條自動(dòng)化方法開發(fā)的新路徑。
當(dāng)然,這條路并非一片坦途。論文也誠(chéng)實(shí)地指出了當(dāng)前局限:
結(jié)果可變性:由于自動(dòng)設(shè)計(jì)過程的隨機(jī)性,不同次運(yùn)行產(chǎn)生的模型性能會(huì)有波動(dòng),需要多次運(yùn)行以確保獲得穩(wěn)健的好模型。
計(jì)算成本:多智能體的討論、代碼生成與調(diào)試、模型訓(xùn)練會(huì)消耗可觀的算力和 API 調(diào)用成本。但相比耗費(fèi)頂尖科學(xué)家數(shù)月的人工設(shè)計(jì)時(shí)間,這種成本或許是可以接受的效率交換。
研究團(tuán)隊(duì)在論文中分享了一個(gè)鼓舞人心的試點(diǎn)案例:兩位完全不了解該框架的濕實(shí)驗(yàn)室研究人員,僅憑入門教程,就在大約一小時(shí)內(nèi),成功使用CellForge為他們的實(shí)際研究問題(免疫治療和心血管疾病建模)自動(dòng)設(shè)計(jì)并訓(xùn)練出了有效的預(yù)測(cè)模型。
這預(yù)示著,此類工具有望極大地降低先進(jìn)計(jì)算建模的門檻,讓更多生物學(xué)家能將精力聚焦于科學(xué)問題本身,而非復(fù)雜的編程與算法設(shè)計(jì)。
CellForge就像一座剛剛點(diǎn)燃爐火的“鍛造廠”,只是,它鍛造的不是鋼鐵,而是探索生命奧秘的智能工具。它的出現(xiàn)告訴我們,AI 在科研中的角色,正從得力的“助手”,向富有創(chuàng)造力的“合作者”悄然演進(jìn)。
論文鏈接:
https://arxiv.org/pdf/2508.02276
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.