過去二十多年,基因組學最重要的任務之一,是把生命序列“讀出來”。從人類基因組計劃,到長讀長測序,再到T2T完整基因組組裝,研究者已經(jīng)越來越接近完整讀取30億堿基對組成的生命之書。
但現(xiàn)階段真正的難題,并不是讀出,而是讀懂。基因突變是否會改變基因表達?為什么非編碼變異可能導致疾病?同一段DNA為什么會在特定細胞中呈現(xiàn)不同的轉(zhuǎn)錄活性?能否僅通過染色質(zhì)開放狀態(tài)捕捉到細胞狀態(tài)的改變?這些問題,正是基因組智能分析從“序列識別”走向“功能理解”的關(guān)鍵一步。
2025年,華大生命科學研究院與之江實驗室聯(lián)合發(fā)布了基因組基礎模型Genos。近日,研究團隊在此基礎上深入探索真實生命科學問題,成功構(gòu)建并發(fā)布了兩個下游模型應用——Genos-Mutation與Genos-Reg。二者分別從“突變效應”和“表觀狀態(tài)”兩個方向切入,共同推動Genos從“讀懂基因組序列”的基礎模型,走向“預測表達、解釋調(diào)控、模擬生命狀態(tài)”的應用框架。目前,兩大模型應用已入駐華大DCS Cloud云平臺,面向全部科研人員開放體驗。
https://www.dcs.cloud/models/#/genos
![]()
Genos新主頁截圖,包含Genos-Mutation與Genos-Reg兩大應用
Genos-Mutation:
讓突變對基因表達的影響可計算
在遺傳病診斷、腫瘤突變解讀和非編碼變異功能分析中,判斷基因突變是否影響基因表達這一核心問題始終存在。傳統(tǒng)變異解讀多依賴群體頻率、保守性、蛋白結(jié)構(gòu)、剪接預測和文獻證據(jù)等信息,面對非編碼區(qū)、調(diào)控區(qū)、UTR區(qū)域與非經(jīng)典剪接區(qū)域的變異,通常難以判斷其真實生物學后果。
針對這一難題,Genos-Mutation應運而生。該模型面向個體基因組變異,以32kb長度的基因組序列窗口為輸入,直接同時預測多種特定細胞或組織背景下的RNA-seq表達軌跡,并模擬突變前后的個人基因組狀態(tài)、對比可能造成的表達差異,多用于突變效應解釋、非編碼變異功能分析和候選致病變異優(yōu)先級排序。該模型不只是簡單判斷一個突變“是否有害”,而是進一步嘗試回答:這個突變可能影響哪個細胞類型、基因、區(qū)域的表達與調(diào)控功能?是否會造成異常剪接?
此外,為了適配不同研究目標,Genos-Mutation設計了兩種能力路徑。
1.精準突變效應預測:基于數(shù)百例高質(zhì)量個人基因組與配對轉(zhuǎn)錄組數(shù)據(jù),該模式在統(tǒng)一細胞背景下學習序列變異與表達輸出的對應關(guān)系。在更接近真實個體基因組背景的數(shù)據(jù)中,模型能捕捉序列變異對轉(zhuǎn)錄活性的影響,還能更充分考慮人群遺傳差異、個體特異性變異、局部單倍型背景以及突變之間的組合效應。通過真實個體配對數(shù)據(jù)的泛化性測試,該模型預測準確性(皮爾森相關(guān)性)能達到0.9+,遠高于AlphaGenome模型在該個體預測的約0.5準確性。
2.多組織/細胞類型同步預測:該模式面向多種細胞或組織背景下的表達軌跡建模,可同步預測同一突變在不同生物學環(huán)境中的表達效應,適用于分析在免疫細胞或特定轉(zhuǎn)錄因子活躍、染色質(zhì)開放、增強子被激活的細胞狀態(tài)下表現(xiàn)出功能效應的突變。
當下,該模型能在傳統(tǒng)ACMG 證據(jù)不足、RNA實驗樣本稀缺、臨床解釋存疑等場景中,為編碼區(qū)與非編碼變異的功能分析提供新的計算證據(jù)層。
![]()
Genos-Mutation示例:通過比較參考狀態(tài)與突變狀態(tài)下的RNA-seq預測軌跡,輔助識別突變可能導致的表達差異與可變剪接信號。
Genos-Reg:
讓細胞狀態(tài)的表觀調(diào)控差異可模擬
如果說Genos-Mutation關(guān)注的是遺傳突變造成的影響,那么Genos-Reg則聚焦于更復雜的問題:當DNA序列不變時,表觀遺傳狀態(tài)的細微改變會如何影響基因表達?
人體幾乎所有細胞都擁有相同的基因組序列,但神經(jīng)元、肝細胞、免疫細胞和上皮細胞卻功能迥異。其原因并非DNA序列改變,而是染色質(zhì)開放狀態(tài)、轉(zhuǎn)錄因子結(jié)合、增強子活性和表觀調(diào)控網(wǎng)絡存在差異。也就是說,DNA決定基因表達潛能,而表觀遺傳狀態(tài)則決定哪些潛能被真正激活。
基于這一原理構(gòu)建的Genos-Reg,以大規(guī)模預訓練的Genos-10B為基礎,同時在DNA序列之外引入ATAC-seq作為染色質(zhì)開放程度的動態(tài)調(diào)節(jié)信號,通過整合基因組序列信息與表觀遺傳特征,實現(xiàn)單堿基分辨率、細胞類型特異性的基因表達預測。
ATAC-seq這一關(guān)鍵信號就如同“熒光標記筆”,重點標記出更容易被轉(zhuǎn)錄因子或調(diào)控蛋白訪問、更可能參與基因表達調(diào)控的區(qū)域。由此,Genos-Reg便可以在相同DNA序列基礎上,根據(jù)不同細胞的染色質(zhì)開放狀態(tài),預測RNA-seq表達結(jié)果。
研究團隊從構(gòu)建面向衰老隊列的NK細胞狀態(tài)的虛擬細胞模型示例中完成驗證:模型輸入DNA序列與不同NK細胞狀態(tài)下的ATAC-seq信號,最終預測的RNA-seq表達軌跡與真實scRNA-seq數(shù)據(jù)結(jié)論保持一致。
這說明Genos-Reg不僅能解析DNA序列中的靜態(tài)調(diào)控潛力,還能根據(jù)表觀開放狀態(tài)模擬細胞狀態(tài)改變帶來的轉(zhuǎn)錄輸出變化。模型正在從“預測一段序列能不能表達”,走向“預測這段序列會如何表達”——這正是虛擬細胞建模的重要雛形。
![]()
Genos-Reg示例:模型以DNA序列和ATAC-seq表觀信號為輸入,預測不同NK細胞狀態(tài)下的RNA表達軌跡差異。
Genos下游模型創(chuàng)新構(gòu)建研究模式,
探索生命調(diào)控奧秘
基于Genos研發(fā)出的Genos-Mutation與Genos-Reg,分工明確、互為補充:前者側(cè)重突變效應,對比序列突變前后的RNA表達差異;后者聚焦表觀調(diào)控狀態(tài),重點解析相同DNA序列在不同細胞狀態(tài)下的表達差異。
在傳統(tǒng)研究中,想驗證突變造成的影響、對比分析細胞調(diào)控差異,需要構(gòu)建實驗體系、獲取組學數(shù)據(jù)、復雜生信分析等一系列流程,不僅成本高、周期長、依賴樣本,還難以覆蓋大量候選位點和細胞狀態(tài)。
而Genos兩大下游模型打造出“AI大規(guī)模篩選+實驗重點驗證”的全新研究模式,并不是用AI取代實驗,是讓實驗更具方向性與高效性。
面向具體的實際應用,Genos-Mutation可幫助解讀難以判斷的非編碼變異、評估腫瘤突變對轉(zhuǎn)錄調(diào)控網(wǎng)絡的影響、賦能個人基因組解讀;Genos-Reg 則深耕免疫細胞研究、虛擬細胞構(gòu)建,致力于模擬不同細胞狀態(tài)之間的表達差異,成為連接基因組、表觀組和轉(zhuǎn)錄組的重要橋梁。
更長遠來看,生命調(diào)控的維度遠不止DNA序列和染色質(zhì)開放狀態(tài)。DNA甲基化、組蛋白修飾、三維基因組結(jié)構(gòu)、單細胞多組學、空間組學以及各類擾動實驗數(shù)據(jù),都可能從不同層面記錄細胞如何讀取、調(diào)節(jié)和執(zhí)行基因組信息。未來,Genos下游模型也將嘗試納入更多模態(tài)數(shù)據(jù),在更完整的生命數(shù)據(jù)坐標系中解析基因調(diào)控的底層邏輯。
對生命科學基礎模型而言,模型能力的提升,離不開高質(zhì)量、標準化的多模態(tài)數(shù)據(jù)支撐。我們期待與擁有專業(yè)數(shù)據(jù)、真實科研場景和明確科學問題的團隊開展合作,共同探索更多生命調(diào)控規(guī)律。從DNA到RNA,從突變解析到功能驗證,從表觀狀態(tài)模擬到細胞命運調(diào)控,Genos下游模型正一步步將“讀懂生命”的愿景,轉(zhuǎn)化為可落地、可拓展、可持續(xù)的科研實踐。
讓我知道你“在看”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.