近日,滑鐵盧大學李明教授、清華大學鄧海騰教授團隊,在《自然·生物技術》發表研究長文,推出名為RNovA的深度學習算法。該系統首次在無需預定義修飾列表或重新訓練的前提下,實現了對未知翻譯后修飾的開放式發現,并在類風濕關節炎患者樣本和一種缺乏參考蛋白質組的未知細菌中成功驗證了其能力。
![]()
傳統的蛋白質測序方法長期依賴數據庫比對,只能識別已知序列和已注釋的修飾類型。即使是當前最先進的深度學習模型,面對訓練數據中未出現過的稀有修飾時,也會失效。而真實生物學場景中,從乳酸化到維生素C偶聯,不斷有新發現的修飾被證明在免疫調節、代謝重編程中發揮關鍵作用。研究團隊認為,這種“封閉世界”的假設已嚴重制約了蛋白質組學的探索邊界。
RNovA的核心創新在于其雙模塊設計與相對位置編碼的巧妙融合。系統首先通過“路徑搜索器”在質譜圖中尋找可能的碎片離子路徑,輸出由節點質量構成的序列——其中可包含與標準氨基酸不匹配的未知質量標簽。隨后,“序列填充器”利用旋轉位置嵌入技術,動態評估候選殘基與譜圖證據的匹配程度,在無需針對特定修飾微調模型的情況下,直接輸出完整肽段序列。團隊進一步設計了自動化的質量標簽聚類模塊,能從數據中直接識別統計富集的修飾模式,實現從原始譜圖到完整序列的端到端解析。
![]()
在包含三種模式生物的標準數據集上,RNovA的肽段召回率最高達到82.11%,氨基酸召回率超過90%,整體性能超越現有主流工具。更關鍵的驗證來自含有多種翻譯后修飾的合成肽段數據集:盡管訓練數據中僅包含乙酰化和磷酸化兩種修飾類型,RNovA對其他七種從未見過的修飾(如巴豆酰化、琥珀酰化、瓜氨酸化)仍保持了高精度的識別能力。在酪氨酸磷酸化修飾上,其氨基酸精度達到95.44%,遠高于傳統工具PEAKS的86.87%。該團隊還采用了15N穩定同位素標記和靶-誘餌譜圖雙重策略,確保假發現率控制在1%以內。
在真實臨床樣本中,研究團隊分析了類風濕關節炎患者的滑膜組織。RNovA的開放搜索能力發現了一個富集的質量偏移簇,經BLAST比對和合成肽段驗證,確認其為色氨酸到犬尿氨酸的氧化修飾——一種與免疫調節密切相關但難以通過常規方法檢出的稀有修飾。在另一項更極端的測試中,團隊分析了一株缺乏參考蛋白質組數據庫的細菌分離株A1232E。系統在無任何先驗信息的情況下,識別出谷氨酸殘基上攜帶+43.04 Da的質量偏移,并預測其可能為乙醇胺修飾。合成肽段的共洗脫和譜圖比對完全驗證了這一從未被注釋過的修飾的存在。
READING
BioPeers
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.