網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

虛擬細(xì)胞研究進(jìn)入Next Level：中國(guó)學(xué)者推出“細(xì)胞鍛造廠”，讓AI智能體自主設(shè)計(jì)優(yōu)化虛擬細(xì)胞模型

2026-04-13 12:28:35　來源: 生物世界

上海舉報(bào)

分享至

撰文丨王聰

編輯丨王多魚

排版丨水成文

在計(jì)算生物學(xué)這一融合了生命科學(xué)與數(shù)據(jù)科學(xué)的前沿領(lǐng)域，科學(xué)家們長(zhǎng)期面臨一個(gè)巨大挑戰(zhàn)：如何設(shè)計(jì)出能精準(zhǔn)預(yù)測(cè)細(xì)胞在藥物、基因編輯等干預(yù)下如何反應(yīng)的數(shù)學(xué)模型（即虛擬細(xì)胞模型）。這個(gè)過程需要同時(shí)精通機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)和深厚的生物學(xué)知識(shí)，以同時(shí)解決生物學(xué)復(fù)雜性、多模態(tài)數(shù)據(jù)異質(zhì)性以及跨學(xué)科專業(yè)知識(shí)，堪稱“跨學(xué)科煉金術(shù)”。

近日，耶魯大學(xué)博士生唐相儒等人聯(lián)合賓夕法尼亞大學(xué)、亥姆霍茲慕尼黑中心、斯坦福大學(xué)、谷歌 DeepMind 及哈佛大學(xué)等機(jī)構(gòu)的研究人員，在預(yù)印本平臺(tái)arXiv上發(fā)表了題為：CellForge: Agentic Design of Virtual Cell Models 的研究論文。

該研究推出了CellForge（細(xì)胞鍛造廠），這是一個(gè)多智能體框架，其作為 AI 科研總指揮，能夠根據(jù)不同的生物醫(yī)學(xué)研究任務(wù)，自主設(shè)計(jì)、優(yōu)化并實(shí)現(xiàn)一套完整的虛擬細(xì)胞模型，其表現(xiàn)甚至能與人類專家設(shè)計(jì)的頂尖虛擬細(xì)胞模型一較高下。

CellForge突顯了多智能體框架的科學(xué)價(jià)值：多個(gè)專業(yè)智能體之間的協(xié)作能夠?qū)崿F(xiàn)真正的方法創(chuàng)新以及單個(gè)智能體或人類專家無法實(shí)現(xiàn)的可執(zhí)行解決方案。這標(biāo)志著計(jì)算生物學(xué)中自主科學(xué)方法開發(fā)范式的轉(zhuǎn)變。

虛擬細(xì)胞：數(shù)字世界里的生命模擬

要理解CellForge做了什么，首先要了解“虛擬細(xì)胞建模”（Virtual Cell Modeling）這個(gè)領(lǐng)域。簡(jiǎn)單來說，它的目標(biāo)是在計(jì)算機(jī)中模擬一個(gè)細(xì)胞，并預(yù)測(cè)當(dāng)這個(gè)細(xì)胞遭遇“擾動(dòng)”時(shí)會(huì)發(fā)生什么。

這些“擾動(dòng)”可以是一次基因敲除、一種新藥的刺激，或是細(xì)胞因子的作用。通過單細(xì)胞 RNA 測(cè)序（scRNA-seq）等技術(shù)，科學(xué)家能獲取細(xì)胞在擾動(dòng)前后數(shù)萬(wàn)個(gè)基因的表達(dá)數(shù)據(jù)，海量而復(fù)雜。

傳統(tǒng)上，針對(duì)每一個(gè)新數(shù)據(jù)集、新擾動(dòng)類型，研究人員都需要結(jié)合領(lǐng)域知識(shí)，手動(dòng)設(shè)計(jì)或挑選合適的機(jī)器學(xué)習(xí)模型架構(gòu)，過程繁瑣且高度依賴專家經(jīng)驗(yàn)。這就像為每一位病人量身定制一套完全不同的診斷算法，效率低下且難以推廣。

從“單打獨(dú)斗”到“團(tuán)隊(duì)作戰(zhàn)”：AI 智能體的科研革命

CellForge的核心創(chuàng)新，在于它采用了“多智能體”（Multi-Agent）協(xié)作框架。可以理解為這是一個(gè)高度專業(yè)化的 AI 科研團(tuán)隊(duì)，而不是一個(gè)單一的、試圖解決所有問題的“超級(jí) AI”。

這個(gè)團(tuán)隊(duì)分工明確，配合默契——

1、任務(wù)分析模塊：相當(dāng)于團(tuán)隊(duì)的“情報(bào)官”和“文獻(xiàn)調(diào)研員”。它首先自動(dòng)解析用戶給的單細(xì)胞數(shù)據(jù)集，理解其中包含的細(xì)胞類型、擾動(dòng)信息、數(shù)據(jù)特征等。接著，它會(huì)自動(dòng)檢索相關(guān)的科學(xué)文獻(xiàn)，從中汲取設(shè)計(jì)模型的靈感和原則。

2、設(shè)計(jì)模塊：這是團(tuán)隊(duì)的“智囊團(tuán)”和“辯論會(huì)”。系統(tǒng)會(huì)動(dòng)態(tài)組建一個(gè)專家小組，成員可能包括“數(shù)據(jù)專家”、“單細(xì)胞生物學(xué)專家”、“深度學(xué)習(xí)架構(gòu)師”等。它們以“角色扮演”的方式，圍繞任務(wù)展開基于圖結(jié)構(gòu)的討論。

每位專家提出自己的模型設(shè)計(jì)方案。
一位“評(píng)審專家”負(fù)責(zé)點(diǎn)評(píng)每個(gè)方案的優(yōu)缺點(diǎn)并打分。
專家們也會(huì)互相評(píng)價(jià)同行的方案。
通過多輪辯論，方案不斷融合、改進(jìn)，直到所有專家對(duì)某個(gè)設(shè)計(jì)達(dá)成高度共識(shí)。這個(gè)過程能催生出人類專家可能想不到的創(chuàng)新架構(gòu)，例如論文中提到的、用于處理時(shí)間動(dòng)態(tài)數(shù)據(jù)的“軌跡感知編碼器”。

3、實(shí)驗(yàn)執(zhí)行模塊：這是團(tuán)隊(duì)的“工程師”和“實(shí)驗(yàn)員”。一旦設(shè)計(jì)方案確定，該模塊會(huì)自動(dòng)將其轉(zhuǎn)化為可運(yùn)行的代碼，并管理整個(gè)訓(xùn)練過程。它具備“自我調(diào)試”能力，遇到代碼錯(cuò)誤時(shí)會(huì)分析問題、自動(dòng)修補(bǔ)并重新嘗試。訓(xùn)練中還能進(jìn)行輕量的超參數(shù)調(diào)優(yōu)，并在完成后自動(dòng)驗(yàn)證模型性能。

這個(gè)框架的魅力在于，它不是從一堆預(yù)設(shè)的模板中做選擇，而是通過智能體之間基于知識(shí)的辯論與協(xié)作，真正從零開始“創(chuàng)造”出一個(gè)新的、針對(duì)特定任務(wù)優(yōu)化的模型。這超越了簡(jiǎn)單的超參數(shù)調(diào)優(yōu)，實(shí)現(xiàn)了方法論層面的創(chuàng)新。

實(shí)戰(zhàn)檢驗(yàn)：媲美頂尖專家，探索未知領(lǐng)域

研究團(tuán)隊(duì)在六個(gè)公開的單細(xì)胞擾動(dòng)數(shù)據(jù)集上對(duì)CellForge進(jìn)行了全面測(cè)試，任務(wù)涵蓋基因敲除、藥物處理、細(xì)胞因子刺激等多種類型，數(shù)據(jù)模態(tài)也包括了 scRNA-seq（用于檢測(cè)基因表達(dá)情況）、scATAC-seq（用于分析染色質(zhì)可及性）、CITE-seq（同時(shí)檢測(cè) RNA 和蛋白質(zhì)）等。

在已知方法較多的領(lǐng)域（例如基因敲除的 scRNA-seq 數(shù)據(jù)），CellForge自動(dòng)設(shè)計(jì)的模型表現(xiàn)出了強(qiáng)大的競(jìng)爭(zhēng)力。在 Adamson 和 Norman 這兩個(gè)經(jīng)典數(shù)據(jù)集上，其模型在預(yù)測(cè)擾動(dòng)后基因表達(dá)的關(guān)鍵指標(biāo)（例如 MSE、PCC、R2）上，與 CPA、scGPT、Biolord 等人類設(shè)計(jì)的頂尖模型不相上下，甚至在部分指標(biāo)上實(shí)現(xiàn)超越。

在缺乏成熟方法的“無人區(qū)”，CellForge的價(jià)值更加凸顯。例如，在預(yù)測(cè)染色質(zhì)可及性變化（scATAC-seq 數(shù)據(jù)）或蛋白質(zhì)表達(dá)變化（CITE-seq 數(shù)據(jù)）的任務(wù)上，由于沒有現(xiàn)成的專用模型，傳統(tǒng)的基線方法（例如線性回歸、隨機(jī)森林）表現(xiàn)平平。而CellForge能夠自主設(shè)計(jì)出適應(yīng)這些獨(dú)特?cái)?shù)據(jù)模態(tài)的定制化架構(gòu)，取得了顯著的性能提升。這證明了其方法具備強(qiáng)大的泛化能力和探索性。

不止于預(yù)測(cè)：理解生命的“黑匣子”

一個(gè)好的模型不僅要預(yù)測(cè)得準(zhǔn)，還要讓人類理解其決策。CellForge的設(shè)計(jì)也考慮到了生物學(xué)的可解釋性。

評(píng)估顯示，其模型能有效識(shí)別出在擾動(dòng)中真正發(fā)生關(guān)鍵變化的基因（差異表達(dá)基因），并且預(yù)測(cè)的細(xì)胞狀態(tài)在整體結(jié)構(gòu)上與真實(shí)生物學(xué)圖譜保持一致。通路富集分析也證實(shí)，模型捕捉到的信號(hào)與已知的生物學(xué)通路（例如 NF-κB、p53 信號(hào)通路）相符。

未來與挑戰(zhàn)：邁向自主科學(xué)發(fā)現(xiàn)

CellForge代表了一種科研范式的轉(zhuǎn)變：從人類指導(dǎo) AI 執(zhí)行單一任務(wù)，轉(zhuǎn)向 AI 自主管理從問題分析到方法實(shí)現(xiàn)的全流程。它為計(jì)算生物學(xué)，乃至更廣泛的科學(xué)領(lǐng)域，提供了一條自動(dòng)化方法開發(fā)的新路徑。

當(dāng)然，這條路并非一片坦途。論文也誠(chéng)實(shí)地指出了當(dāng)前局限：

結(jié)果可變性：由于自動(dòng)設(shè)計(jì)過程的隨機(jī)性，不同次運(yùn)行產(chǎn)生的模型性能會(huì)有波動(dòng)，需要多次運(yùn)行以確保獲得穩(wěn)健的好模型。
計(jì)算成本：多智能體的討論、代碼生成與調(diào)試、模型訓(xùn)練會(huì)消耗可觀的算力和 API 調(diào)用成本。但相比耗費(fèi)頂尖科學(xué)家數(shù)月的人工設(shè)計(jì)時(shí)間，這種成本或許是可以接受的效率交換。

研究團(tuán)隊(duì)在論文中分享了一個(gè)鼓舞人心的試點(diǎn)案例：兩位完全不了解該框架的濕實(shí)驗(yàn)室研究人員，僅憑入門教程，就在大約一小時(shí)內(nèi)，成功使用CellForge為他們的實(shí)際研究問題（免疫治療和心血管疾病建模）自動(dòng)設(shè)計(jì)并訓(xùn)練出了有效的預(yù)測(cè)模型。

這預(yù)示著，此類工具有望極大地降低先進(jìn)計(jì)算建模的門檻，讓更多生物學(xué)家能將精力聚焦于科學(xué)問題本身，而非復(fù)雜的編程與算法設(shè)計(jì)。

CellForge就像一座剛剛點(diǎn)燃爐火的“鍛造廠”，只是，它鍛造的不是鋼鐵，而是探索生命奧秘的智能工具。它的出現(xiàn)告訴我們，AI 在科研中的角色，正從得力的“助手”，向富有創(chuàng)造力的“合作者”悄然演進(jìn)。

論文鏈接：

https://arxiv.org/pdf/2508.02276

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.