![]()
作者 | 論文團隊
編輯丨ScienceAI
從 AlphaFold2 到 AlphaFold3,結構預測模型解決了「算得準」的問題,Alphafold3 不僅能預測蛋白結構,還能準確建模蛋白質和藥物配體相互作用。然而,在藥物發現與計算化學的真實工作流里,科學家還要回答第二個同樣關鍵的問題:分子如何運動 —— 配體在結合口袋中如何漲落、蛋白主鏈與側鏈如何協同形變,乃至配體沿何路徑解離至溶劑。傳統分子動力學(MD)通過數值積分給出原子軌跡,但極小時間步(飛秒量級)與長程生物學過程(微秒 — 毫秒)之間的鴻溝,使「算得長」長期是一道硬門檻。
近年來,機器學習開始作為 MD 的替代或加速器出現;但在蛋白 — 小分子配體這一場景下,現有方法或將蛋白視為剛體只考慮配體運動,或專為蛋白設計而無法處理小分子配體。能不能有一套方法,把蛋白和配體一起建模、全原子、連續軌跡、還能跑得出來?
在這一背景下,粵港澳大灣區數字經濟研究院(IDEA)與瑞士洛桑聯邦理工學院(EPFL)的研究者提出 BioMD,一個面向蛋白 — 配體全原子系統的長時程軌跡生成模型。研究論文被 ICLR 2026 錄用。
![]()
論文鏈接:https://openreview.net/forum?id=LQDeJk6NOr
項目主頁:https://github.com/IDEA-XL/BioKinema
![]()
圖 1 | 配體 RMSD 隨幀間隔的變化(左)與配體解離軌跡示例(右)。短時尺度內構象變化溫和、長時程可出現顯著位移,為分層生成框架提供了直覺動機。
技術痛點:「會畫靜態結構」與「會跑動力學」之間有多遠?
現有路線大致可分為兩類,兩類都有各自的天花板:
- 構象生成類模型(如 AlphaFold 3、ConfDiff):擅長預測結構快照,但無法給出時序連續的軌跡,更無法描述配體解離這類稀有事件。
- 軌跡生成類模型(如 NeuralMD、MDGen):嘗試對動力學建模,但前者將蛋白視為靜止只考慮配體運動,后者專為蛋白設計,均不支持蛋白 — 小分子全原子聯合建模。
更底層的難點在于誤差累積:「長軌跡」意味著在高維構象空間里走出連貫路徑,如果逐幀生成,誤差會隨時間滾雪球式放大。
![]()
圖 2 | BioMD 方法總覽。(a) 兩階段分層:粗粒度預測(Forecasting)與細粒度插值(Interpolation);(b) 時間調度:已知幀無噪聲(τ=1),待生成幀從純噪聲出發(τ=0)經迭代恢復,「噪聲即掩碼」讓兩任務共享同一套網絡。
核心洞察:把「長軌跡」拆成「先粗后細」兩段問題
BioMD 的出發點來自 MD 數據中一條經驗規律:在短時間隔內,配體構象變化往往相對溫和;而在長間隔上,可能出現顯著位移乃至解離(圖 1)。團隊據此把長時程生成拆成兩個協同階段:
- 粗粒度預測(Forecasting):先對軌跡做稀疏采樣(每隔 k=10 步取一幀),在「關鍵幀」序列上學習大跨度演化 —— 先搭出軌跡骨架。
- 細粒度插值(Interpolation):在相鄰關鍵幀之間補全中間幀,以兩端錨點為條件在局部把運動補連貫。
兩階段并非兩套獨立模型,而是被統一進同一個條件流匹配框架中,僅通過不同的輸入掩碼模式切換任務。這一設計讓有效序列長度大幅縮短,從而抑制誤差累積的根本來源。
「噪聲即掩碼」:兩任務一套網絡的統一訓練框架
團隊采用條件流匹配(Conditional Flow Matching)訓練速度場模型。對軌跡序列的每一幀施加獨立噪聲調度:已知的條件幀保持「干凈」(τ=1),待生成幀從純噪聲出發(τ=0)迭代恢復。通過「噪聲即掩碼」策略 —— 將噪聲水平視為幀是否已知的指示器 —— 預測與插值只需用不同的掩碼模式控制,復用同一速度場網絡 u_θ。
直觀理解:模型「一次看整條軌跡」,通過掩碼告知哪些時刻是錨點、哪些需要生成,從而把長程建模難點拆解為可訓練的子問題。這一思路借鑒了 Diffusion Forcing 中逐幀獨立噪聲的設計哲學,并將其擴展到蛋白 — 配體聯合軌跡生成場景。
在網絡架構上,BioMD 直接在全原子笛卡爾坐標上工作,由 SE (3) 等變圖 Transformer 編碼初始構象的空間幾何約束,再由 FlowTrajectoryTransformer 在整條軌跡上同時建模幀內原子交互(AttentionPairBias)與跨幀時序依賴(TemporalAttention)。訓練目標中還引入鍵長約束、碰撞懲罰與幾何中心損失三類輔助項,將基本物理合理性直接寫入優化過程。
![]()
圖 3 | BioMD 詳細架構。預測 / 插值兩種模式共用同一速度場網絡,由 SE (3) 圖編碼器提取條件表征,FlowTrajectoryTransformer 同時處理幀內空間交互(AttentionPairBias)與跨幀時序依賴(TemporalAttention)。
實驗結果:動力學生成性能驗證
MISATO:配體口袋內動力學
MISATO 聚焦配體在結合口袋內的短時程動力學,每條軌跡含 100 幀(8ns MD 采樣)。BioMD 在物理穩定性指標(鍵長 / 鍵角誤差、位阻碰撞率)上大幅優于所有對比方法,碰撞率比 NeuralMD 低約兩個數量級。配體 RMSF 皮爾遜相關系數達到 0.486,比 NeuralMD 高出 42.8%;蛋白 RMSF 相關系數 0.685,而對比方法均無法模擬蛋白構象變化。
![]()
圖 4 | MISATO 測試集構象集合對比(6DGE、3FCF)。BioMD 生成的構象分布與配體扭轉角分布與傳統 MD 參考高度吻合。
DD-13M:配體解離路徑
DD-13M 關注更具挑戰性的配體解離場景。采用自回歸(AR,塊大小 j=5)生成策略的 BioMD-rel,在解離成功率上表現突出:單次嘗試成功率 70.9%(@1),10 次嘗試內成功率高達 97.1%(@10)。效率上,metadynamics 找到首條路徑約需 1 小時(2654 步),BioMD 僅需 10 秒以內(50 步粗粒度幀)。
![]()
圖 5 | 6EY8 配體解離路徑。BioMD 不僅復現了 metadynamics 發現的兩條已知路徑,還獨立發現了第三條新路徑(綠色標注),路徑 RMSD 僅 0.24 ?(metadynamics = 0.12 ?)。
ATLAS:蛋白單鏈動力學
在蛋白單鏈 100ns 動力學基準 ATLAS 上,BioMD 在 13 項指標中 9 項達到 SOTA,全局 RMSF 相關系數 0.76,比 MDGen 提升 52%,在多項分布準確性指標上也超越領先的序列方法 EBA。生成 100ns 軌跡約需 56 秒,比傳統 MD 快數個數量級。
意義與展望
BioMD 想傳遞的信號很明確:當生成模型不只追求「一張漂亮的靜態結構」,而是嘗試在全原子層面給出可檢驗的動力學軌跡時,計算化學與藥物發現或許能多一條「算得長、跑得快」的路。分層生成策略有效緩解了長軌跡中誤差逐幀放大的老難題;而全原子級別的建模方式,讓蛋白和配體可以被放在同一個框架里一起模擬,無需為了降低計算成本而犧牲原子級精度。
BioMD 能否真正融入工業藥物發現流程,還需要在更大體系、更長時間尺度(微秒 — 毫秒)以及更多物理可觀測量上接受嚴格檢驗。我們期待與開源社區共同探索更多可能。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.