*僅供醫學專業人士閱讀參考
AI虛擬篩選大顯身手,從12萬化合物中精準鎖定三種新型ALK抑制劑。
隨著人工智能技術在藥物研發領域的深入應用,其在加速靶向抑制劑篩選方面展現出巨大潛力。發表于
Journal of Computer-Aided Molecular Design的一項研究 [1] ,成功構建了一套融合機器學習與深度學習的虛擬篩選平臺,通過配體與結構雙重篩選策略,從超過 12萬化合物中精準識別出三種具有潛力的新型ALK抑制劑,為ALK陽性非小細胞肺癌(NSCLC)的治療提供了新的候選分子。
研究背景
肺癌是全球癌癥相關死亡的主要原因,其中NSCLC占絕大多數。ALK融合作為NSCLC中重要的驅動基因變異,發生率約為3%–7%[2],尤其在年輕非吸煙肺腺癌患者中較為常見。盡管目前已有五種ALK抑制劑獲美國FDA批準上市,包括克唑替尼、色瑞替尼、阿來替尼、布格替尼和洛拉替尼,但臨床耐藥性問題及藥物選擇性不足仍是當前治療面臨的主要挑戰。
傳統藥物開發流程耗時長、成本高,且依賴于大規模實驗篩選。近年來,計算機輔助藥物設計尤其是人工智能技術的引入,顯著提升了先導化合物發現的效率。定量構效關系模型作為經典的計算篩選方法,雖在早期研究中取得一定進展,但仍受限于數據集規模小、模型泛化能力不足等問題。本研究旨在構建一個集成多種機器學習算法與分子對接技術的AI驅動篩選平臺,以實現高效、精準的ALK抑制劑虛擬篩選。
研究方法與數據構建
研究團隊從科學文獻中系統收集了26,168個具有明確ALK抑制活性的化合物數據,經過嚴格的標準化處理和類藥性篩選,最終構建了一個包含1,664個化合物的高質量數據集,其中活性化合物480個,非活性化合物1,184個。該數據集被劃分為訓練集與外部測試集,用于模型構建與驗證。
在計算方法上,研究采用了雙軌策略:配體基于藥物發現和結構基于藥物發現。在LBDD方面,研究比較了19種分子表征方法,并系統評估了15種機器學習算法的性能,包括XGBoost、隨機森林、支持向量機等傳統算法,以及人工神經網絡和圖神經網絡等深度學習模型。在SBDD方面,研究整合了三種分子對接程序的評分結果,構建了基于XGBoost的共識對接模型,以提高結合親和力預測的準確性。
模型構建與優化
通過系統的分子表征比較,研究發現基于SMILES的擴展連通性指紋在區分ALK抑制劑活性方面表現最優,被選定為后續模型構建的基礎特征。在算法選擇環節,XGBoost與CatBoost表現出色,但考慮到計算效率,最終選擇XGBoost作為主要機器學習模型。
人工神經網絡模型經過貝葉斯優化調參后,性能顯著提升,外部驗證的F1分數達到0.890。值得注意的是,傳統的機器學習模型在本次研究中表現優于圖神經網絡,這一結果可能與數據集規模和特征編碼方式有關,提示在小樣本場景下,精心設計的特征工程仍具有重要價值。
研究進一步構建了一個集成投票模型,結合XGBoost、ANN和GNN三種算法的預測結果,以外部驗證F1分數0.949和平均精度0.963的優異表現,成為虛擬篩選流程中的核心分類工具。
在結構基于篩選方面,研究團隊開發了基于機器學習的共識分子對接模型,將GNINA、Vina-GPU和AutoDock-GPU三種對接程序的評分作為特征輸入XGBoost模型。該共識模型在測試集上取得了0.818的ROC-AUC值,顯著優于單一對接工具的表現。
虛擬篩選與候選化合物鑒定
研究團隊將構建的AI篩選平臺應用于包含120,571個具有NSCLC細胞系抑制活性化合物的庫中,經過多級篩選漏斗:首先基于類藥性規則排除不符合要求的化合物;隨后通過集成分類模型預測活性;最后利用共識對接模型評估結合模式。
經過這一嚴格流程,從初始庫中篩選出三種最具潛力的ALK抑制劑候選化合物:CHEMBL1689515、CHEMBL2380351和CHEMBL102714。這些化合物均被預測具有良好的類藥性和與ALK激酶結構域的高親和力。
作用機制與結合模式分析
分子對接結果顯示,這三種候選化合物均能有效結合于ALK蛋白的ATP結合口袋,并與鉸鏈區關鍵殘基Met1199形成重要相互作用。值得注意的是,所有候選分子都含有酮基官能團,與已上市藥物阿來替尼具有相似的藥效團特征,提示它們可能作為I型ATP競爭性抑制劑發揮作用。
具體而言,CHEMBL1689515作為Desmosdumotin B類似物,此前研究顯示其對多種癌細胞系具有抗增殖活性。該化合物在結合口袋中的定位與阿來替尼類似,但其乙基取代的4H-色烯環擴展了結合區域,可能通過水分子介導的氫鍵與Val1130形成額外相互作用。
CHEMBL2380351是洛美沙星衍生物,其喹啉支架與Met1199形成關鍵相互作用,哌嗪環上的氮原子則與Glu1167和Gly1269形成額外接觸,增強了結合親和力。
CHEMBL102714此前已知為糖原合酶激酶3β抑制劑,在本研究中被發現其酮基位置與Met1199鄰近,1H-吡咯環的存在可能增強了其在鉸鏈區的相互作用網絡。
討論與展望
本研究成功構建了一個綜合運用多種人工智能技術的虛擬篩選平臺,實現了對大規模化合物庫的高通量、高精度篩選。研究結果表明,傳統機器學習方法如XGBoost在當前的ALK抑制劑預測任務中仍具有競爭力,特別是在數據量有限的情況下,精心設計的特征工程與模型優化能夠取得優于復雜深度學習模型的效果。
從臨床轉化角度看,本研究采用的藥物重定位策略具有明顯優勢。所選候選化合物均已具備一定的藥理活性數據和類藥性特征,大大降低了后續開發的不確定性和時間成本。此外,研究提供的在線預測平臺(可通過Hugging Face訪問)為不具備編程背景的醫學研究者提供了便捷的工具,有助于促進AI輔助藥物發現技術的普及應用。
研究的局限性包括訓練數據規模有限,以及GNN模型表現未達預期,這可能與分子圖編碼方式未能充分捕捉立體化學信息有關。未來研究可探索更先進的圖神經網絡架構,如幾何相互作用GNN,或引入蛋白-配體相互作用指紋等結構特征來豐富模型輸入信息。
結論
本研究開發了一套融合多種人工智能算法的虛擬篩選平臺,通過配體基于和結構基于篩選的有機結合,成功從大規模化合物庫中識別出三種具有潛力的ALK抑制劑候選化合物。這一綜合策略不僅展示了AI技術在藥物重定位中的實用價值,也為加速ALK陽性NSCLC的靶向治療開發提供了新思路。進一步的功能驗證與優化研究將有望推動這些候選化合物向臨床應用轉化。
參考文獻:
[1]Trinh TC, et al. Synergy of advanced machine learning and deep neural networks with consensus molecular docking for virtual screening of anaplastic lymphoma kinase inhibitors. J Comput Aided Mol Des. 2025 Sep 15;39(1):79.
[2]張緒超, 等. 中國間變性淋巴瘤激酶(ALK)陽性NSCLC診療指南[J].中華病理學雜志,2015,44(10):696-703.
*此文僅用于向醫療衛生專業人士提供科學信息,不代表平臺立場。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.