*僅供醫(yī)學(xué)專業(yè)人士閱讀參考
2025年 6 月 25 日,谷歌DeepMind 團(tuán)隊推出了開創(chuàng)性的人工智能模型 AlphaGenome,并在預(yù)印本平臺同步發(fā)布了題為
AlphaGenome: advancing regulatory variant effect prediction with a unified DNA sequence model的論文。
AlphaGenome 是新一代基因組 AI 模型,可以從最長可達(dá) 100 萬個堿基的 DNA 序列出發(fā),預(yù)測上千種與基因調(diào)控相關(guān)的分子屬性,并快速評估單點變異的功能影響。得益于這種“長距離+高精度”組合,再配上秒級的對照推理,模型可在瞬間給出任何單點突變對所有調(diào)控層面的功能分?jǐn)?shù)!
在 22 項序列-功能與 26 項變異-效應(yīng)基準(zhǔn)測試?yán)飵缀跞骖I(lǐng)先,被認(rèn)為可將非編碼突變解析、靶點挖掘和基因調(diào)控療法研發(fā)從“實驗瓶頸”推進(jìn)到“計算先行”的新階段!
紀(jì)念斯隆-凱特琳癌癥中心基因組學(xué)家 Caleb Lareau 評價稱這項工作“是該領(lǐng)域的里程碑:首次把長程上下文、單堿基精度和跨任務(wù)最佳表現(xiàn)融于一體”。
《自然》雜志發(fā)表的評論文章稱,AlphaGenome是破解基因組 98% 非編碼“暗物質(zhì)”的一把新鑰匙。
在人類基因組草圖問世近 25 年后,這部長達(dá) 31 億“字母”的巨著仍有大片內(nèi)容難以讀懂,尤以占 98% 的非編碼區(qū)最為棘手。這些基因暗區(qū)雖然不編碼蛋白質(zhì),但卻可以通過極為復(fù)雜的機(jī)制調(diào)控蛋白質(zhì)編碼進(jìn)程。
非編碼區(qū)域包含編碼基因的啟動子、增強(qiáng)子、剪接信號、三維折疊“拉鏈”等調(diào)控元件,大量全基因組關(guān)聯(lián)研究(GWAS)發(fā)現(xiàn),超過九成與復(fù)雜疾病相關(guān)的遺傳信號都落在這些區(qū)域。非編碼區(qū)域好比隱藏的調(diào)音臺:微小突變可能就會改變基因何時、何地、以多大力度表達(dá),牽動發(fā)育、免疫、代謝乃至腫瘤發(fā)生的整體網(wǎng)絡(luò)。
因此,深入解析非編碼區(qū)域不僅能解釋傳統(tǒng)“蛋白序列無異常卻患病”的謎團(tuán),還為靶點發(fā)現(xiàn)、基因調(diào)控療法(如 ASO、CRISPR-a/i)打開新通道,是精準(zhǔn)醫(yī)學(xué)不可或缺的突破口。
在 AlphaGenome 出現(xiàn)之前,研究者想要弄清非編碼 DNA 對疾病的影響往往受限于“三大瓶頸”。
一是實驗通量低:要驗證一個遠(yuǎn)程增強(qiáng)子或剪接信號是否真能調(diào)節(jié)基因,需要逐級進(jìn)行多項實驗,動輒幾個月,成本巨大。
第二,傳統(tǒng)算法無法兼顧長度和精度。早期模型要么聚焦幾百個堿基的小窗口卻看不見長距離環(huán)路;要么增大到幾十萬堿基卻丟失單堿基分辨率,無法同時捕捉微小突變和百萬級上下文。
三是信息割裂,基因表達(dá)、染色質(zhì)開放、轉(zhuǎn)錄因子結(jié)合和 3D 結(jié)構(gòu)等調(diào)控讀數(shù)被分散在不同數(shù)據(jù)庫和獨立工具里,缺乏“一站式”整合,給科研工作帶來很多不便。
而AlphaGenome可以一次閱讀最長 100 萬個堿基的 DNA 片段,并且在單堿基分辨率上同時輸出上千項讀數(shù):從轉(zhuǎn)錄起止位點、RNA 剪接量,到染色質(zhì)開放度、3D 環(huán)路、蛋白結(jié)合位點等十多個調(diào)控模態(tài)。
得益于這種“長距離+高精度”組合,再配上秒級的對照推理,模型可在瞬間給出任何單點突變對所有調(diào)控層面的功能分?jǐn)?shù)。在 DeepMind 的演示中,AlphaGenome 準(zhǔn)確預(yù)判了與白血病相關(guān)的某些非編碼突變會間接激活鄰近致癌基因。
當(dāng)然,目前的 AlphaGenome 還處于「嬰兒」階段。目前該模型僅使用人類與小鼠數(shù)據(jù)訓(xùn)練,尚未針對其他物種或個人基因組做全面驗證;對跨越十萬堿基以上的遠(yuǎn)程調(diào)控預(yù)測也仍待改進(jìn)。
冷泉港實驗室計算生物學(xué)家 Peter Koo 指出,AlphaGenome 還未納入細(xì)胞動態(tài)變化因素,例如蛋白質(zhì)水平和 DNA 化學(xué)修飾的時空波動。Koo 預(yù)計,未來研究人員將借助 AlphaGenome 設(shè)計精準(zhǔn)調(diào)控 DNA 序列,或通過虛擬實驗?zāi)M細(xì)胞對遺傳變動的反應(yīng)。目前,非商業(yè)研究者已可通過編程接口訪問模型,更完整的開放版本也在規(guī)劃中。
DeepMind 也呼吁學(xué)術(shù)界通過新開放的 AlphaGenome API 共同驗證與擴(kuò)展模型,期望“與全球研究者一道,將對 DNA 指令的理解推向新的深度”,并明確指出未來還將把模型能力延伸到更多物種、更多組織類型和更多調(diào)控模態(tài),以支撐精準(zhǔn)醫(yī)學(xué)和合成生物學(xué)的下一波突破。
總之,奇點已近!
參考文獻(xiàn):
https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.