網易首頁 > 網易號 > 正文申請入駐

自然·通訊 | 中科院上海有機所朱正江開發模型像“搭積木”一樣從質譜數據中“生成”未知代謝物結構

2026-04-21 07:15:05　來源: BioPeers

浙江舉報

分享至

在基于質譜的非靶向代謝組學研究中，準確鑒定出生物樣本中的小分子代謝物是一項核心難題。盡管質譜儀器精度不斷提升，但代謝物注釋仍嚴重依賴已知譜圖庫的匹配。面對數據庫中不存在譜圖的“已知未知”甚至結構全新的“未知未知”代謝物，傳統方法往往束手無策，成為阻礙新生物標志物和藥物靶點發現的“卡脖子”環節。

2026年4月20日，國際學術期刊《自然·通訊》（Nature Communications）在線發表了一項突破性研究，中國科學院上海有機化學研究所生物與化學交叉研究中心朱正江研究員團隊完成了題為《結構信息引導的深度生成實現非靶向代謝組學中代謝物的從頭注釋》（Structure-informed deep generation enables de novo metabolite annotation in untargeted metabolomics）的論文。該團隊開發了一種名為MetGenX的新型深度生成模型，能夠直接從質譜二級譜圖（MS2）中高效、可控地生成代謝物的化學結構。

MetGenX的核心創新在于其“結構信息引導”的設計思想。傳統深度生成模型試圖直接從“光譜到結構”，這需要海量、高質量的質譜數據進行訓練，而實際可用的標準譜圖僅約6萬張，遠低于訓練有效模型所需的百萬級數據量。MetGenX另辟蹊徑，采用“表示轉換”策略：它首先通過光譜相似性搜索，從參考數據庫中為查詢光譜找到一系列結構相似的已知代謝物作為“模板”；然后，將任務巧妙轉化為“從模板結構到目標結構”的生成問題。模型會編碼這些模板的分子指紋、分子式等信息，再利用一個基于Transformer的解碼器，自動地、逐個原子地生成最終的分子結構（以SMILES字符串形式）。MetGenX支持兩種工作模式：在“數據庫限制”模式下，它從用戶指定的化學數據庫中搜索候選結構，準確率極高；在“數據庫自由”模式下，它能不受現有數據庫約束，自主生成全新的化合物結構，為發現未知代謝物打開了大門。

研究團隊對MetGenX進行了嚴格的性能測試。在一個包含1388張獨立NIST質譜的測試集中，MetGenX的Top-1注釋準確率達到55.9%，Top-3準確率高達76.1%。更令人振奮的是，在來自細胞、組織、血漿和尿液等真實生物樣本的1681張譜圖中，其Top-1準確率進一步提升至68.5%，顯著優于CFM-ID、MS-FINDER、MetFrag等多種主流計算機模擬注釋工具。尤為突出的是，盡管模型僅在正離子模式譜圖上訓練，但它無需重新訓練便能直接推廣到負離子模式數據上，同樣取得了Top-3準確率82.5%的優異表現，展現出強大的泛化能力。

為了驗證其發現新代謝物的實際能力，研究團隊將MetGenX應用于小鼠肝臟的非靶向代謝組學數據分析，并設計了一個多步驟工作流程。最終，他們成功鑒定出了兩個此前在人類代謝組數據庫中均無記錄的代謝物：一個是通過“數據庫限制”模式發現的“腺苷-半胱氨酸”；另一個則是通過“數據庫自由”模式發現的、結構全新的二核苷多磷酸化合物“腺苷5'-二磷酸-5'-肌苷”（Ap2I）。通過化學合成標準品、比對保留時間和二級譜圖，以及組織分布分析，團隊嚴謹地證實了這兩種代謝物真實存在于生物樣本中。

READING

BioPeers

歡迎關注本公眾號，所有內容歡迎點贊，推薦??，評論，轉發~

如有錯誤、遺漏、侵權或商務合作請私信小編~~

歡迎大家投稿課題組研究進展、招聘及招生宣傳~

所有文章只為科普、科研服務，無商業目的~

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.