![]()
編輯丨&
過去幾年里,蛋白質基礎模型(protein language models,pLMs)幾乎重塑了整個計算生物學。
從 AlphaFold 3 的結構預測,到生成式蛋白設計,再到酶優化、抗病毒肽生成、藥物靶點發現,大模型開始像理解自然語言一樣「理解蛋白質」。論文中提到,如今 pLM 已經在藥物-靶點相互作用預測、結構預測與蛋白設計等任務中達到 SOTA 水平。
但與此同時,一個問題也越來越尖銳:
這些模型為什么會得出這些結果?
研究者開始意識到,現代蛋白 AI 正在變成一種典型「黑箱」——它能生成序列、預測功能、甚至設計全新蛋白,但人類往往無法解釋其內部決策邏輯。這種不透明性不僅影響科學可信度,更直接關系到生物安全、偏差傳播與可控生成。也正因為如此,來自歐洲多家機構的研究團隊在這篇路線圖論文中,試圖系統回答一個此前很少被完整討論的問題:如果蛋白 AI 未來真的會參與生物設計,那么我們該如何「看懂」它?
相關研究以「Towards the explainability of protein language models」為題,于 2026 年 5 月 11 日發布在《Nature Machine Intelligence》。
![]()
論文鏈接:https://www.nature.com/articles/s42256-026-01232-w
XAI 開始進入蛋白質世界
可解釋人工智能(XAI)領域近年來備受關注。XAI 旨在通過近似機器學習(ML)模型的內部推理或可視化其從數據中學習到的模式,來提高模型的透明度。這些方法有助于彌合模型復雜性與人類可解釋性之間的鴻溝,但將其應用于生物分子語言模型在技術上仍頗具挑戰性。
研究團隊認為,目前大多數蛋白模型的能力提升,依賴的是更大的數據、更大的參數、更深的 Transformer。但這套邏輯,并不能自動帶來「理解」。因此,論文中提出了一套面向蛋白 AI 的 XAI 分類框架。他們把可解釋方法按信息來源分成四大類:
- 訓練數據層
- 分析哪些蛋白序列真正影響模型
- 發現訓練偏差
- 輸入層
- 分析哪些氨基酸真正驅動預測
- 模型內部結構
- Attention
- 神經元
- SAE(Sparse Autoencoder)
- residual stream
- 輸入-輸出行為
- 通過擾動、代理模型等方式解釋模型決策
![]()
圖 1:XAI 方法在蛋白質建模工作流中的概念性概述。
這套框架不僅適用于 Transformer,也適用于 diffusion、GNN 乃至 AlphaFold 類系統。
打開黑匣子之后
為了理解可解釋人工智能在當今蛋白質研究中的應用,研究人員回顧了現有科學文獻,并審查了數十項已將可解釋性工具應用于蛋白質語言模型的研究。這是迄今為止最全面的同類調查。
![]()
圖 2:通過分析輸入序列實現可解釋性。
在幾乎所有情況下,可解釋性都被用作「評估器」,用以檢查模型是否學會了生物學家已知的模式,例如識別結合位點或結構基序。雖然評估器有助于基準模型質量,但它們無法推斷未知的例子、改進模型架構,更重要的是,無法揭示從訓練數據中產生的生物學洞見。
為此,研究團隊從文獻中總結出 XAI 的五種角色:評估者、多任務處理、工程師、教練、教師。其中,教師角色仍是 AI 發展的終極愿景。這意味著人類能從模型中提取真正新穎的生物學洞察,發現人類尚未知曉的模式,真正從 AI 中學習新知識。
培養一位教師
為什么要如此執著于「可解釋性」?因為它是生物安全的根本。
![]()
圖 3:XAI 方法在蛋白質研究中的作用。
如果一個 AI 模型是不可解釋的,它可能會悄悄地在某個蛋白設計中嵌入一段具有免疫逃逸功能的基序,而人類科學家僅從外觀上無法察覺。只有當 XAI 能夠清晰地標注出「這個序列段之所以被保留,是因為它具有破壞某種宿主受體的潛力」,研究者才能在危險發生前按下停止鍵。
這也就牽扯出教師角色的多維度推進方向之一:保真度。緊隨其后的是先驗可解釋模型、可視化策略與濕實驗驗證。
在蛋白質科學領域,達到教師階段意味著人工智能系統幫助研究人員發現蛋白質折疊、催化或分子相互作用的新規則,從而改變藥物、材料和可持續技術的設計方式。
相關鏈接:https://phys.org/news/2026-05-roadmap-safer-protein-ai.html
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.