網易首頁 > 網易號 > 正文 申請入駐

Nat Commun |?侯廷軍/康玉/劉煥香聯合開發LaMGen:基于大語言模型的多靶點藥物設計通用?3D?分子生成框架

0
分享至


近日, 浙江大學侯廷軍教授團隊聯合澳門理工大學劉煥香教授團隊發表在 Nature Communications 的研究論文,題為 LaMGen: LLM-Based 3D Molecular Generation for Multi-Target Drug Design ,該研究提出了基于大語言模型的多靶點藥物設計通用3D分子生成框架LaMGen,打破了現有方法泛化性不足、精度與效率難以兼顧的核心瓶頸,僅通過輸入靶蛋白氨基酸序列即可直接生成量子化學精度的3D活性分子,在雙靶點、三靶點藥物設計場景中均展現出優越性能,為復雜疾病的多靶點藥物研發提供了全新的基礎計算工具。


研究背景

靶向藥設計是現代藥物研發的核心任務,而單靶點 藥物設計 策略在復雜多因素疾病治療中始終面臨耐藥性、副作用大、療效有限等核心問題。與之相對,多靶點藥物設計可通過同時調控疾病多個相關靶點產生 明確的選擇或 協同藥理效應,是攻克癌癥、神經退行性疾病等復雜疾病的關鍵方向。但多靶點藥物設計要求候選分子同時滿足多個結合口袋的結構約束,還要保持優異的類藥與成藥性質,對計算方法提出了極高的要求。近年來,深度學習分子生成模型在單靶點藥物設計中取得了長足進步,但向多靶點場景拓展時仍面臨三大核心局限:絕大多數方法為 基于 配體 的方法 , 高度依賴特定靶點對的活性數據,對缺乏已知參考分子的靶點組合泛化性極差;部分方法通過強化學習引入靶點信息,卻難以平衡靶點特異性獎勵與化學多樣性,過度優化極易導致骨架利用狹窄;基于擴散架構的通用框架計算密集、生成效率極低, 在復雜場景下的 生成質量與可控性顯著下降 , 難以拓展至三靶點 等 更復雜的多靶點場景。 近期 ,大語言模型( LLM )在計算藥物研發領域展現出巨大潛力,但現有相關模型普遍缺乏對分子 3D 信息的理解,在多靶點藥物生成領域的應用幾乎處于空白 。 應對 上述行業痛點 ,研究團隊開發了 LaMGen 框架,首次實現了基于 LLM 的通用型多靶點 3D 分子生成。

方法概述

為打破多靶點分子生成中精度、泛化性與效率的三重壁壘,研究團隊構建了全流程的 LaMGen 框架,核心創新分為數據集構建、模型架構設計與訓練策略三大模塊。

1. 大規模多靶點專屬數據集 MTD2025 構建

針對多靶點藥物設計領域高質量數據匱乏的核心問題,研究團隊基于 Papyrus 生物活性數據庫,整合 ChEMBL 、 ExCAPE -DB 等權威來源的實驗活性數據,經過系統過濾、配對與重構,構建了 MTD2025 數據集。該數據集包含 4011 個唯一蛋白、 123024 個唯一小分子,配套超 60 萬個量子 力學 精度 的 3D 分子構象,以及 44.6 萬條雙靶點、 28.3 萬條三靶點關聯數據。所有分子均通過 CREST 完成構象搜索,再經量子 力學 精度的 LiTEN-FF 力場優化得到局域最低能量構象,確保了數據集的結構質量與物理合理性,為模型訓練提供了高質量的數據基礎。

2. LaMGen 核心架構設計

LaMGen 基于 Transformer 解碼器架構構建,整體分為配體預訓練、多靶點微調、序列驅動分子生成三大核心階段,核心創新點如下: 3D 旋轉感知離散 token 編碼:將配體扭轉角等內部自由度編碼為離散的 3D 旋轉感知 token ,相比原始笛卡爾坐標,大幅縮短了序列長度,保證了旋轉不變性,同時顯著降低了計算復雜度,讓 LLM 可直接學習 分子 SMILES 序列 與 3D 構象空間的精準映射。 ESM-C 蛋白序列編碼:摒棄對蛋白 3D 結構的依賴,僅以氨基酸序列為輸入,通過預訓練蛋白大模型 ESM-C 進行編碼,得到能有效捕捉蛋白結構與功能特征的嵌入表示,大幅降低了模型對結構數據的依賴,同時借助大規模序列數據庫提升了模型 的泛化能力。 TriCoupleAttention 模塊:創新性地在統一的自注意力框架內,聯合建模靶點 - 靶點、配體 - 靶點、配體 - 配體間的自注意力與交叉注意力,通過加權融合機制自適應平衡雙靶點對配體的影響,實現了對多靶點結合模式的細粒度、全維度建模,完美適配多靶點場景的復雜相互作用捕捉。

3. 兩階段訓練策略

模型先在 GEOM 數據集的 800 萬 + 高質量分子構象上完成預訓練,學習分子 SMILES 與扭轉構象的基礎映射關系;再在 MTD2025 數據集上完成多靶點適配微調,讓模型具備基于蛋白序列生成多靶點活性分子的能力。同時,訓練過程中引入隨機因果掩碼策略,顯著提升了模型的魯棒性與泛化性。


圖 1. LaMG en 框架示意圖

結果與討論

研究團隊通過多維度、多場景的系統實驗,全面驗證了 LaMGen 的性能優勢與實際應用價值。

1. 跨序列相似度靶點的零樣本高親和力分子生成

研究團隊構建了兩組獨立測試集,分別對應全低序列相似度( <0.4 )的完全分布外靶點對,以及 “ 低 + 高 ” 序列相似度的混合靶點對,全面評估模型的泛化能力。在外部測試集上, LaMGen 在 17/20 個靶點對上的結合親和力優于主流開 源雙靶點生成模型 DualDiff ,同時在類藥性( QED )、合成可及性( SAScore )上展現出更優異的表現;單分子生成平均僅需 0.44 秒,較 DualDiff ( 12.3 秒 / 分子)提速超 30 倍, 可 適配高通量篩選場景。在混合測試集上, LaMGen 生成分子的有效率達 95% ,內部結構多樣性達 0.89 ,與訓練集平均相似度僅 0.11 ,在保證結構創新性的同時,關鍵類藥性質均完全符合成藥區間,雙靶點平均結合親和力達 - 9.0 與 - 8.7 kcal/mol ,展現出 優越 的分布外泛化能力。

2. 量子 化學 精度構象的直接生成能力

針對分子構象生成這一下游應用的核心環節,研究團隊開展了系統的構象保真度驗證。結果顯示, LaMGen 生成的構象與 LiTEN-FF 優化結構的平均 RMSD 僅為 0.5 ? ,超 98% 的構象 RMSD 低于 2 ? ,構象質量全面優于 DualDiff ;其生成構象的對接得分與 LiTEN-FF 優化構象高度一致,顯著優于 MMFF94 力場優化構象, PoseBusters 綜合通過率達 92% ,遠超 DualDiff 的 68% 。這意味著 LaMGen 可直接生成無需額外 力場 優化、即可用于下游對接與性質預測的物理合理 3D 結構, 有效 簡化了藥物研發的計算流程,降低了計算開銷。

3. JNK3/GSK3β 雙靶點設計的零樣本泛化與微調潛力

研究團隊以神經退行性疾病領域經典的 JNK3/GSK3β 雙靶點設計為案例,驗證模型的實際應用能力。在零樣本場景下,僅輸入兩個靶點的氨基酸序列, LaMGen 生成的分子有效率達 94.2% ,多樣性達 0.863 , 45% 以上的分子對接得分超過已知 活性分子 的平均水平,綜合性能與 AIxFuse 等 SOTA 模型相當甚至更優。經過少量樣本微調后, LaMGen-FT 的雙靶點對接達標率提升至 33.01% ,超越 AIxFuse ( 31.80% ),多性質綜合成藥成功率同樣顯著優于 AIxFuse ( 8.46% vs 5.40% ),同時保持了更高的分子多樣性,展現出 優秀 的遷移學習能力與靶點適配性。

4. 真實 場景雙 / 三靶點任務的 回溯 性驗證

研究團隊進一步在癌癥治療相關的 3 組經典雙靶點體系( EGFR/HER2 、 PI3K/mTOR 、 LSD1/HDAC6 ),以及 EGFR/HER2/VEGFR 三靶點體系中開展回顧性驗證。結果顯示:在雙靶點體系中, LaMGen 可精準復現與已知活性分子結構完全一致的化合物,同時能自主生成保留核心藥效團、結合親和力更優的骨架類似物,實現了藥效團重構與骨架躍遷的雙重能力;在三靶點體系中, LaMGen 依然保持了優異的生成性能,生成分子在三個靶點上均集中于高親和力區間,可自適應調整分子復雜度以滿足第三個靶點的結合約束,同時保持核心類藥性質穩定,首次實現了基于 LLM 的三靶點 3D 分子生成。

總結

LaMGen為多靶點3D分子生成提供了基于大語言模型的新型技術路徑。該框架能夠直接從 目標 蛋 白氨基酸序列出發,快速生成兼具量子 力學 構象精度、高多靶點親和力 且滿足 成藥性 指標 的 3D 活性分子,有效平衡了模型泛化性、計算精度與運行效率。作為面向多靶點藥物設計的 LLM 基礎生成框架, LaMGen 在零樣本場景下表現出可靠的泛化能力,能夠適配功能協同靶點等多種復雜設計需求。隨著與蛋白結構及性質預測模型的深度融合,LaMGen有望AI驅動多靶點藥物研發提供有力工具,在針對復雜疾病的多靶點藥物開發中發揮作用。

共同第一作者為 浙江大學 博士生蘇群、澳門理工大學博士生茍巧林。

https://www.nature.com/articles/s41467-026-71737-w

制版人: 十一

學術合作組織

(*排名不分先后)



戰略合作伙伴

(*排名不分先后)



轉載須知


【非原創文章】本文著作權歸文章作者所有,歡迎個人轉發分享,未經作者的允許禁止轉載,作者擁有所有法定權利,違者必究。

BioArt

Med

Plants

人才招聘

近期直播推薦


點擊主頁推薦活動

關注更多最新活動!


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
巴薩鋒線連環局:一個37歲老將如何卡住兩名前鋒的命運

巴薩鋒線連環局:一個37歲老將如何卡住兩名前鋒的命運

賽場速報局
2026-04-21 02:40:08
海上交鋒!伊朗對美軍艦開火,美方迎來噩耗,特朗普被彈劾或下臺

海上交鋒!伊朗對美軍艦開火,美方迎來噩耗,特朗普被彈劾或下臺

老好人的憤怒
2026-04-21 17:23:06
留給印度的時間不多,莫迪警告:再不放行化肥,14億人飯碗不保

留給印度的時間不多,莫迪警告:再不放行化肥,14億人飯碗不保

王新喜
2026-04-04 18:02:01
婉拒高薪邀約!孔帕尼強勢表態,多項重磅邀請全都拒絕

婉拒高薪邀約!孔帕尼強勢表態,多項重磅邀請全都拒絕

夜白侃球
2026-04-21 14:20:02
只為演好春麗!《街霸》女演員狂吃牛排"增肌大腿"

只為演好春麗!《街霸》女演員狂吃牛排"增肌大腿"

游民星空
2026-04-21 11:51:12
黃山市一位副鄉長發了16條私信,把知名主播“磨”進大山里賣筍,知名演員鄧超也來了

黃山市一位副鄉長發了16條私信,把知名主播“磨”進大山里賣筍,知名演員鄧超也來了

揚子晚報
2026-04-21 07:26:40
伊朗代表團前期工作團隊據稱已抵達伊斯蘭堡

伊朗代表團前期工作團隊據稱已抵達伊斯蘭堡

國際在線
2026-04-21 17:08:24
網友喊話請何潤東代言霸王茶姬,有人都把圖P好了,客服:建議已詳細登記;何潤東翻紅后,賬號漲粉近200萬

網友喊話請何潤東代言霸王茶姬,有人都把圖P好了,客服:建議已詳細登記;何潤東翻紅后,賬號漲粉近200萬

魯中晨報
2026-04-20 14:48:15
現實是最大的荒誕:千億平臺的沖突始末

現實是最大的荒誕:千億平臺的沖突始末

晚點LatePost
2026-04-21 15:05:32
和曹燕華離婚后,他再娶小22歲乒乓美女,如今定居上海兒女雙全

和曹燕華離婚后,他再娶小22歲乒乓美女,如今定居上海兒女雙全

青橘罐頭
2026-04-18 19:32:25
男子樓下與小三車內交歡,原配穿睡衣捉奸:你想要就去我們床上搞

男子樓下與小三車內交歡,原配穿睡衣捉奸:你想要就去我們床上搞

李晚書
2026-04-21 15:26:56
威爾遜:我和趙心童奧沙利文特魯姆普 是世錦賽四大奪冠熱門人選

威爾遜:我和趙心童奧沙利文特魯姆普 是世錦賽四大奪冠熱門人選

羅克
2026-04-21 12:54:49
山西長治萬達廣場一女子墜樓身亡,警方通報:張某(女,31歲)獨自進入商場到4樓,翻越欄桿后墜落,排除刑事案件

山西長治萬達廣場一女子墜樓身亡,警方通報:張某(女,31歲)獨自進入商場到4樓,翻越欄桿后墜落,排除刑事案件

揚子晚報
2026-04-21 09:21:30
澤連斯基:美國特使對烏克蘭缺乏尊重

澤連斯基:美國特使對烏克蘭缺乏尊重

參考消息
2026-04-21 19:23:35
長得漂亮卻壞事做盡,3次入獄,被摘除4處器官的她,如今過得怎樣

長得漂亮卻壞事做盡,3次入獄,被摘除4處器官的她,如今過得怎樣

夢錄的西方史話
2026-04-21 14:45:18
1983年,陳云親自批示:立即槍斃廣東縣委書記王仲,原因為何?

1983年,陳云親自批示:立即槍斃廣東縣委書記王仲,原因為何?

莫地方
2026-04-20 09:30:18
遼寧省委書記許昆林到大商所調研

遼寧省委書記許昆林到大商所調研

證券時報
2026-04-21 18:40:15
Opta更新英超降級概率:熱刺升至58.3%,西漢姆聯36.9%

Opta更新英超降級概率:熱刺升至58.3%,西漢姆聯36.9%

懂球帝
2026-04-22 01:35:10
警花槍殺丈夫后坦然自首,丈夫曾跪地求饒:哀呼愿女不失父愛

警花槍殺丈夫后坦然自首,丈夫曾跪地求饒:哀呼愿女不失父愛

舊夢初醒已千年
2024-07-26 12:49:34
金銀深夜急跌,黃金跌破4740美元,白銀大跌3%

金銀深夜急跌,黃金跌破4740美元,白銀大跌3%

21世紀經濟報道
2026-04-21 23:18:21
2026-04-22 05:03:00
BioArt incentive-icons
BioArt
探索生物藝術之奧秘
9866文章數 18510關注度
往期回顧 全部

科技要聞

創造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經要聞

現實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

房產
教育
藝術
公開課
軍事航空

房產要聞

年薪40-50萬!海南地產圈還在猛招人

教育要聞

對不起,我有點“摳”

藝術要聞

任伯年寫竹,真帶勁

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普公開對伊開戰真正原因

無障礙瀏覽 進入關懷版