扎爾伯格重金押注的AI蛋白質團隊,拿出了最新成果。
近日,非營利學術機構Biohub發布了全球首個開源蛋白質世界模型,這套系統由蛋白質結構預測、設計和生物發現引擎組成,能幫助研究人員更快地設計出全新的蛋白質結合劑。
![]()
模型基于包含68億蛋白質和11億個結構的全球最大蛋白質結構與功能圖譜ESMAtlas搭建,包含了該團隊最新的蛋白質折疊模型ESMFold2,并在實測中戰勝了AlphaFold3。
論文中,研究人員利用該系統對癌癥和免疫學中五個重要靶點(EGFR、PDGFRβ、PD-L1、CTLA-4和CD45)進行了測試,蛋白命中率為36-88%,抗體模式為15-29%。
![]()
值得一提的是,該模型堅持完全開源,目前已通過Biohub平臺免費向全球科學界開放。
![]()
全球最大蛋白質圖譜 擊敗Alphabfold3
雖然 Biohub是一家相當年輕的企業,但其核心研究團隊卻算得上是AI蛋白質領域的先驅之一。
早在2022 年,還叫 Meta-FAIR的蛋白質小組 推出了轟動一時的ESMFold, 擁有150億參數,速度比AlphaFold2快一個數量級。
而如今,該團隊已經不滿足于單純地升級ESMFold,而是構建了一個完整的模型和資源系統,也就是世界模型。
這個系統里包含了:最先進的蛋白質折疊模型、一種通過探索模型潛在空間設計蛋白質-蛋白質相互作用的設計方案、可用于理解未被表征蛋白的可解釋性工具,以及全球最大的蛋白質結構與功能圖譜。
Biohub副總裁Sal Candido在媒體采訪中表示,這是一張前所未有的蛋白質生物學地圖。
Biohub為這個世界模型系統發布了長達106的論文預印本, 主要圍繞著 ESMC、ESMFold2和ESM Atlas這三大部件 組成。
![]()
蛋白質語言模型ESMC是這套系統的基礎,擁有 3億、6 億和60億三個參數規模,對比前一代 ESMC2納入了宏基因組數據,將訓練數據集的規模從約5000萬序列擴展至約28億序列。
ESMFold2則直接挑戰最先進的蛋白質折疊模型這一位置,在實測中速度明顯快于其他折疊模型,且保持了業內領先的準確性。
![]()
而ESM Atlas是全球最大的蛋白質結構與功能圖譜,包含68億個蛋白質和11億個預測結構,使得系統能夠在生命尺度上實現蛋白質分析和發現。
總的來看,ESM世界模型在數據量上比AlphaFold數據庫多8億條目,在蛋白質復合物上略勝AlphaFold3,包括抗體-抗原結合。
![]()
砸下5億美元 啟動生物版「登月計劃」
Biohub作為一家非營利機構,背靠著Meta CEO扎克伯格與妻子普莉希拉·陳成立的“陳-扎克伯格倡議”(CZI),目標是在本世紀結束之時治愈人類所有疾病。
![]()
圖:扎克伯格和妻子普莉希拉·陳
在今年四月,該組織還宣布了一項長達5年、投入5億美元的里程碑計劃——聯手全球頂尖機構,共同打造構建生命預測模型所需的技術和多模態數據集。
在推出蛋白質世界模型之前,該公司最為人所的熟知的成果都集中在虛擬細胞領域,聯合10x Genomics、Ultima Genomics等啟動了“十億細胞項目”(Billion Cells Project)
![]()
圖:rib細胞推理模型
還推出了全球首個能推理細胞生物學的人工智能模型rBio虛擬細胞推理模型,有望減少昂貴的生物實驗,極大地加速生物醫學研究和藥物發現。
—The End—
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.