![]()
近日, 浙江大學侯廷軍、康玉教授團隊聯合澳門理工大學劉煥香教授團隊發表在 Nature Communications 的研究論文,題為 LaMGen: LLM-Based 3D Molecular Generation for Multi-Target Drug Design ,該研究提出了基于大語言模型的多靶點藥物設計通用3D分子生成框架LaMGen,打破了現有方法泛化性不足、精度與效率難以兼顧的核心瓶頸,僅通過輸入靶蛋白氨基酸序列即可直接生成量子化學精度的3D活性分子,在雙靶點、三靶點藥物設計場景中均展現出優越性能,為復雜疾病的多靶點藥物研發提供了全新的基礎計算工具。
![]()
研究背景
靶向藥設計是現代藥物研發的核心任務,而單靶點 藥物設計 策略在復雜多因素疾病治療中始終面臨耐藥性、副作用大、療效有限等核心問題。與之相對,多靶點藥物設計可通過同時調控疾病多個相關靶點產生 明確的選擇或 協同藥理效應,是攻克癌癥、神經退行性疾病等復雜疾病的關鍵方向。但多靶點藥物設計要求候選分子同時滿足多個結合口袋的結構約束,還要保持優異的類藥與成藥性質,對計算方法提出了極高的要求。近年來,深度學習分子生成模型在單靶點藥物設計中取得了長足進步,但向多靶點場景拓展時仍面臨三大核心局限:絕大多數方法為 基于 配體 的方法 , 高度依賴特定靶點對的活性數據,對缺乏已知參考分子的靶點組合泛化性極差;部分方法通過強化學習引入靶點信息,卻難以平衡靶點特異性獎勵與化學多樣性,過度優化極易導致骨架利用狹窄;基于擴散架構的通用框架計算密集、生成效率極低, 在復雜場景下的 生成質量與可控性顯著下降 , 難以拓展至三靶點 等 更復雜的多靶點場景。 近期 ,大語言模型( LLM )在計算藥物研發領域展現出巨大潛力,但現有相關模型普遍缺乏對分子 3D 信息的理解,在多靶點藥物生成領域的應用幾乎處于空白 。 應對 上述行業痛點 ,研究團隊開發了 LaMGen 框架,首次實現了基于 LLM 的通用型多靶點 3D 分子生成。
方法概述
為打破多靶點分子生成中精度、泛化性與效率的三重壁壘,研究團隊構建了全流程的 LaMGen 框架,核心創新分為數據集構建、模型架構設計與訓練策略三大模塊。
1. 大規模多靶點專屬數據集 MTD2025 構建
針對多靶點藥物設計領域高質量數據匱乏的核心問題,研究團隊基于 Papyrus 生物活性數據庫,整合 ChEMBL 、 ExCAPE -DB 等權威來源的實驗活性數據,經過系統過濾、配對與重構,構建了 MTD2025 數據集。該數據集包含 4011 個唯一蛋白、 123024 個唯一小分子,配套超 60 萬個量子 力學 精度 的 3D 分子構象,以及 44.6 萬條雙靶點、 28.3 萬條三靶點關聯數據。所有分子均通過 CREST 完成構象搜索,再經量子 力學 精度的 LiTEN-FF 力場優化得到局域最低能量構象,確保了數據集的結構質量與物理合理性,為模型訓練提供了高質量的數據基礎。
2. LaMGen 核心架構設計
LaMGen 基于 Transformer 解碼器架構構建,整體分為配體預訓練、多靶點微調、序列驅動分子生成三大核心階段,核心創新點如下: 3D 旋轉感知離散 token 編碼:將配體扭轉角等內部自由度編碼為離散的 3D 旋轉感知 token ,相比原始笛卡爾坐標,大幅縮短了序列長度,保證了旋轉不變性,同時顯著降低了計算復雜度,讓 LLM 可直接學習 分子 SMILES 序列 與 3D 構象空間的精準映射。 ESM-C 蛋白序列編碼:摒棄對蛋白 3D 結構的依賴,僅以氨基酸序列為輸入,通過預訓練蛋白大模型 ESM-C 進行編碼,得到能有效捕捉蛋白結構與功能特征的嵌入表示,大幅降低了模型對結構數據的依賴,同時借助大規模序列數據庫提升了模型 的泛化能力。 TriCoupleAttention 模塊:創新性地在統一的自注意力框架內,聯合建模靶點 - 靶點、配體 - 靶點、配體 - 配體間的自注意力與交叉注意力,通過加權融合機制自適應平衡雙靶點對配體的影響,實現了對多靶點結合模式的細粒度、全維度建模,完美適配多靶點場景的復雜相互作用捕捉。
3. 兩階段訓練策略
模型先在 GEOM 數據集的 800 萬 + 高質量分子構象上完成預訓練,學習分子 SMILES 與扭轉構象的基礎映射關系;再在 MTD2025 數據集上完成多靶點適配微調,讓模型具備基于蛋白序列生成多靶點活性分子的能力。同時,訓練過程中引入隨機因果掩碼策略,顯著提升了模型的魯棒性與泛化性。
![]()
圖 1. LaMG en 框架示意圖
結果與討論
研究團隊通過多維度、多場景的系統實驗,全面驗證了 LaMGen 的性能優勢與實際應用價值。
1. 跨序列相似度靶點的零樣本高親和力分子生成
研究團隊構建了兩組獨立測試集,分別對應全低序列相似度( <0.4 )的完全分布外靶點對,以及 “ 低 + 高 ” 序列相似度的混合靶點對,全面評估模型的泛化能力。在外部測試集上, LaMGen 在 17/20 個靶點對上的結合親和力優于主流開 源雙靶點生成模型 DualDiff ,同時在類藥性( QED )、合成可及性( SAScore )上展現出更優異的表現;單分子生成平均僅需 0.44 秒,較 DualDiff ( 12.3 秒 / 分子)提速超 30 倍, 可 適配高通量篩選場景。在混合測試集上, LaMGen 生成分子的有效率達 95% ,內部結構多樣性達 0.89 ,與訓練集平均相似度僅 0.11 ,在保證結構創新性的同時,關鍵類藥性質均完全符合成藥區間,雙靶點平均結合親和力達 - 9.0 與 - 8.7 kcal/mol ,展現出 優越 的分布外泛化能力。
2. 量子 化學 精度構象的直接生成能力
針對分子構象生成這一下游應用的核心環節,研究團隊開展了系統的構象保真度驗證。結果顯示, LaMGen 生成的構象與 LiTEN-FF 優化結構的平均 RMSD 僅為 0.5 ? ,超 98% 的構象 RMSD 低于 2 ? ,構象質量全面優于 DualDiff ;其生成構象的對接得分與 LiTEN-FF 優化構象高度一致,顯著優于 MMFF94 力場優化構象, PoseBusters 綜合通過率達 92% ,遠超 DualDiff 的 68% 。這意味著 LaMGen 可直接生成無需額外 力場 優化、即可用于下游對接與性質預測的物理合理 3D 結構, 有效 簡化了藥物研發的計算流程,降低了計算開銷。
3. JNK3/GSK3β 雙靶點設計的零樣本泛化與微調潛力
研究團隊以神經退行性疾病領域經典的 JNK3/GSK3β 雙靶點設計為案例,驗證模型的實際應用能力。在零樣本場景下,僅輸入兩個靶點的氨基酸序列, LaMGen 生成的分子有效率達 94.2% ,多樣性達 0.863 , 45% 以上的分子對接得分超過已知 活性分子 的平均水平,綜合性能與 AIxFuse 等 SOTA 模型相當甚至更優。經過少量樣本微調后, LaMGen-FT 的雙靶點對接達標率提升至 33.01% ,超越 AIxFuse ( 31.80% ),多性質綜合成藥成功率同樣顯著優于 AIxFuse ( 8.46% vs 5.40% ),同時保持了更高的分子多樣性,展現出 優秀 的遷移學習能力與靶點適配性。
4. 真實 場景雙 / 三靶點任務的 回溯 性驗證
研究團隊進一步在癌癥治療相關的 3 組經典雙靶點體系( EGFR/HER2 、 PI3K/mTOR 、 LSD1/HDAC6 ),以及 EGFR/HER2/VEGFR 三靶點體系中開展回顧性驗證。結果顯示:在雙靶點體系中, LaMGen 可精準復現與已知活性分子結構完全一致的化合物,同時能自主生成保留核心藥效團、結合親和力更優的骨架類似物,實現了藥效團重構與骨架躍遷的雙重能力;在三靶點體系中, LaMGen 依然保持了優異的生成性能,生成分子在三個靶點上均集中于高親和力區間,可自適應調整分子復雜度以滿足第三個靶點的結合約束,同時保持核心類藥性質穩定,首次實現了基于 LLM 的三靶點 3D 分子生成。
總結
LaMGen為多靶點3D分子生成提供了基于大語言模型的新型技術路徑。該框架能夠直接從 目標 蛋 白氨基酸序列出發,快速生成兼具量子 力學 構象精度、高多靶點親和力 且滿足 成藥性 指標 的 3D 活性分子,有效平衡了模型泛化性、計算精度與運行效率。作為面向多靶點藥物設計的 LLM 基礎生成框架, LaMGen 在零樣本場景下表現出可靠的泛化能力,能夠適配功能協同靶點等多種復雜設計需求。隨著與蛋白結構及性質預測模型的深度融合,LaMGen有望為AI驅動多靶點藥物研發提供有力工具,在針對復雜疾病的多靶點藥物開發中發揮作用。
共同第一作者為 浙江大學 博士生蘇群、澳門理工大學博士生茍巧林。
https://www.nature.com/articles/s41467-026-71737-w
制版人: 十一
學術合作組織
(*排名不分先后)
![]()
戰略合作伙伴
(*排名不分先后)
![]()
![]()
轉載須知
【非原創文章】本文著作權歸文章作者所有,歡迎個人轉發分享,未經作者的允許禁止轉載,作者擁有所有法定權利,違者必究。
BioArt
Med
Plants
人才招聘
近期直播推薦
![]()
點擊主頁推薦活動
關注更多最新活動!
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.