網易首頁 > 網易號 > 正文申請入駐

BioMD：從結構快照到連續軌跡，蛋白-配體全原子動力學生成模型

2026-04-14 12:28:54　來源: ScienceAI

河北舉報

分享至

作者 | 論文團隊

編輯丨ScienceAI

從 AlphaFold2 到 AlphaFold3，結構預測模型解決了「算得準」的問題，Alphafold3 不僅能預測蛋白結構，還能準確建模蛋白質和藥物配體相互作用。然而，在藥物發現與計算化學的真實工作流里，科學家還要回答第二個同樣關鍵的問題：分子如何運動 —— 配體在結合口袋中如何漲落、蛋白主鏈與側鏈如何協同形變，乃至配體沿何路徑解離至溶劑。傳統分子動力學（MD）通過數值積分給出原子軌跡，但極小時間步（飛秒量級）與長程生物學過程（微秒 — 毫秒）之間的鴻溝，使「算得長」長期是一道硬門檻。

近年來，機器學習開始作為 MD 的替代或加速器出現；但在蛋白 — 小分子配體這一場景下，現有方法或將蛋白視為剛體只考慮配體運動，或專為蛋白設計而無法處理小分子配體。能不能有一套方法，把蛋白和配體一起建模、全原子、連續軌跡、還能跑得出來？

在這一背景下，粵港澳大灣區數字經濟研究院（IDEA）與瑞士洛桑聯邦理工學院（EPFL）的研究者提出 BioMD，一個面向蛋白 — 配體全原子系統的長時程軌跡生成模型。研究論文被 ICLR 2026 錄用。

論文鏈接：https://openreview.net/forum?id=LQDeJk6NOr

項目主頁：https://github.com/IDEA-XL/BioKinema

圖 1 | 配體 RMSD 隨幀間隔的變化（左）與配體解離軌跡示例（右）。短時尺度內構象變化溫和、長時程可出現顯著位移，為分層生成框架提供了直覺動機。

技術痛點：「會畫靜態結構」與「會跑動力學」之間有多遠？

現有路線大致可分為兩類，兩類都有各自的天花板：

構象生成類模型（如 AlphaFold 3、ConfDiff）：擅長預測結構快照，但無法給出時序連續的軌跡，更無法描述配體解離這類稀有事件。
軌跡生成類模型（如 NeuralMD、MDGen）：嘗試對動力學建模，但前者將蛋白視為靜止只考慮配體運動，后者專為蛋白設計，均不支持蛋白 — 小分子全原子聯合建模。

更底層的難點在于誤差累積：「長軌跡」意味著在高維構象空間里走出連貫路徑，如果逐幀生成，誤差會隨時間滾雪球式放大。

圖 2 | BioMD 方法總覽。(a) 兩階段分層：粗粒度預測（Forecasting）與細粒度插值（Interpolation）；(b) 時間調度：已知幀無噪聲（τ=1），待生成幀從純噪聲出發（τ=0）經迭代恢復，「噪聲即掩碼」讓兩任務共享同一套網絡。

核心洞察：把「長軌跡」拆成「先粗后細」兩段問題

BioMD 的出發點來自 MD 數據中一條經驗規律：在短時間隔內，配體構象變化往往相對溫和；而在長間隔上，可能出現顯著位移乃至解離（圖 1）。團隊據此把長時程生成拆成兩個協同階段：

粗粒度預測（Forecasting）：先對軌跡做稀疏采樣（每隔 k=10 步取一幀），在「關鍵幀」序列上學習大跨度演化 —— 先搭出軌跡骨架。
細粒度插值（Interpolation）：在相鄰關鍵幀之間補全中間幀，以兩端錨點為條件在局部把運動補連貫。

兩階段并非兩套獨立模型，而是被統一進同一個條件流匹配框架中，僅通過不同的輸入掩碼模式切換任務。這一設計讓有效序列長度大幅縮短，從而抑制誤差累積的根本來源。

「噪聲即掩碼」：兩任務一套網絡的統一訓練框架

團隊采用條件流匹配（Conditional Flow Matching）訓練速度場模型。對軌跡序列的每一幀施加獨立噪聲調度：已知的條件幀保持「干凈」（τ=1），待生成幀從純噪聲出發（τ=0）迭代恢復。通過「噪聲即掩碼」策略 —— 將噪聲水平視為幀是否已知的指示器 —— 預測與插值只需用不同的掩碼模式控制，復用同一速度場網絡 u_θ。

直觀理解：模型「一次看整條軌跡」，通過掩碼告知哪些時刻是錨點、哪些需要生成，從而把長程建模難點拆解為可訓練的子問題。這一思路借鑒了 Diffusion Forcing 中逐幀獨立噪聲的設計哲學，并將其擴展到蛋白 — 配體聯合軌跡生成場景。

在網絡架構上，BioMD 直接在全原子笛卡爾坐標上工作，由 SE (3) 等變圖 Transformer 編碼初始構象的空間幾何約束，再由 FlowTrajectoryTransformer 在整條軌跡上同時建模幀內原子交互（AttentionPairBias）與跨幀時序依賴（TemporalAttention）。訓練目標中還引入鍵長約束、碰撞懲罰與幾何中心損失三類輔助項，將基本物理合理性直接寫入優化過程。

圖 3 | BioMD 詳細架構。預測 / 插值兩種模式共用同一速度場網絡，由 SE (3) 圖編碼器提取條件表征，FlowTrajectoryTransformer 同時處理幀內空間交互（AttentionPairBias）與跨幀時序依賴（TemporalAttention）。

實驗結果：動力學生成性能驗證

MISATO：配體口袋內動力學

MISATO 聚焦配體在結合口袋內的短時程動力學，每條軌跡含 100 幀（8ns MD 采樣）。BioMD 在物理穩定性指標（鍵長 / 鍵角誤差、位阻碰撞率）上大幅優于所有對比方法，碰撞率比 NeuralMD 低約兩個數量級。配體 RMSF 皮爾遜相關系數達到 0.486，比 NeuralMD 高出 42.8%；蛋白 RMSF 相關系數 0.685，而對比方法均無法模擬蛋白構象變化。

圖 4 | MISATO 測試集構象集合對比（6DGE、3FCF）。BioMD 生成的構象分布與配體扭轉角分布與傳統 MD 參考高度吻合。

DD-13M：配體解離路徑

DD-13M 關注更具挑戰性的配體解離場景。采用自回歸（AR，塊大小 j=5）生成策略的 BioMD-rel，在解離成功率上表現突出：單次嘗試成功率 70.9%（@1），10 次嘗試內成功率高達 97.1%（@10）。效率上，metadynamics 找到首條路徑約需 1 小時（2654 步），BioMD 僅需 10 秒以內（50 步粗粒度幀）。

圖 5 | 6EY8 配體解離路徑。BioMD 不僅復現了 metadynamics 發現的兩條已知路徑，還獨立發現了第三條新路徑（綠色標注），路徑 RMSD 僅 0.24 ?（metadynamics = 0.12 ?）。

ATLAS：蛋白單鏈動力學

在蛋白單鏈 100ns 動力學基準 ATLAS 上，BioMD 在 13 項指標中 9 項達到 SOTA，全局 RMSF 相關系數 0.76，比 MDGen 提升 52%，在多項分布準確性指標上也超越領先的序列方法 EBA。生成 100ns 軌跡約需 56 秒，比傳統 MD 快數個數量級。

意義與展望

BioMD 想傳遞的信號很明確：當生成模型不只追求「一張漂亮的靜態結構」，而是嘗試在全原子層面給出可檢驗的動力學軌跡時，計算化學與藥物發現或許能多一條「算得長、跑得快」的路。分層生成策略有效緩解了長軌跡中誤差逐幀放大的老難題；而全原子級別的建模方式，讓蛋白和配體可以被放在同一個框架里一起模擬，無需為了降低計算成本而犧牲原子級精度。

BioMD 能否真正融入工業藥物發現流程，還需要在更大體系、更長時間尺度（微秒 — 毫秒）以及更多物理可觀測量上接受嚴格檢驗。我們期待與開源社區共同探索更多可能。

聲明：包含AI生成內容

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.