網易首頁 > 網易號 > 正文 申請入駐

Nature子刊:趙國屏/焦娜/朱瑞新/張國慶合作開發AI模型DeepSeMS,揭示全球海洋微生物組中隱藏的生物合成潛力

0
分享至


撰文丨王聰

編輯丨王多魚

排版丨水成文

微生物為了生存競爭,進化出了合成各種復雜的次級代謝產物(Secondary Metabolite)的能力,例如青霉菌產生的青霉素,這些次級代謝產物是天然的藥物寶庫。這些次級代謝產物主要從培養的微生物物種中發現,然而,自然界中 99% 的微生物根本無法在實驗室中人工培養。

隨著測序技術發展,我們可以輕易讀取環境中微生物的 DNA,并從中發現那些負責生產小分子的“生物合成基因簇”(biosynthetic gene cluster,BGC),相當于找到了微生物體內的“化工廠圖紙”。但尷尬的局面出現了——傳統的預測工具(例如 antiSMASH、PRISM)主要依賴“死記硬背”的預設化學反應規則庫。面對海洋等極端環境中那些前所未見的“隱秘 BGC”,由于酶的非典型排列組合和極高的底物容錯性,傳統工具直接罷工,難以將基因組序列轉化為精確的化學結構。

2026 年 4 月 30 日,復旦大學微生物組中心趙國屏/焦娜團隊聯合同濟大學朱瑞新團隊和中國科學院上海營養與健康研究所張國慶團隊(徐挺軍、楊雨薇為論文共同第一作者),在Nature Computational Science期刊發表了題為:DeepSeMS: revealing the hidden biosynthetic potential of the global ocean microbiome with a large language model 的研究論文。

該研究提出了一個基于 Transformer 架構的生成式人工智能模型——DeepSeMS,可從微生物生物合成基因簇(biosynthetic gene cluster,BGC)直接預測次級代謝產物結構,實現從微生物生物合成編碼到候選分子空間的系統轉譯。

將 DeepSeMS 應用于全球海洋宏基因組,一次性預測了超過 60000 種次級代謝產物,并揭示了其化學多樣性、生態特異性和巨大的生物醫學潛力,尤其是作為新型抗生素的潛力。這項研究突顯了深度學習驅動方法在揭示地球上最大但尚未充分探索的微生物生態系統中隱藏的生物合成潛力的強大能力。


DeepSeMS:當微生物基因遇上大語言模型

為了攻克這個難題,研究團隊決定引入大語言模型(LLM),從而把“結構預測”變成了一個“語言翻譯”問題。

這是一個基于 Transformer 架構的大語言模型——DeepSeMS,能夠從生物合成基因簇(BGC)序列中準確預測次級代謝產物化學結構(Secondary Metabolite Chemical Structure),其工作原理極其精妙:

1、創造一套跨界的“雙語詞典”,輸入端(生物語言)沒有使用冗長復雜的原始基因堿基序列,而是將其濃縮為具有生化功能的“蛋白質結構域”(Pfam 標識符)。這種表示法既保留了關鍵的催化信息,又極大提升了計算效率。輸出端(化學語言):采用 SMILES 字符串(一種用 ASCII 字符表示化學分子結構的國際通用標準)作為輸出格式。

2、特征對齊的數據增強,AI 大模型的訓練需要海量數據,但目前人類實驗驗證過的 BGC-代謝產物配對數據非常有限(僅幾千條)。為此,研究團隊首創了“特征對齊的 SMILES 枚舉法”。相比于隨機打亂分子式,這種方法在保留核心化學骨架不變的前提下,變換外圍基團的表達形式。這不僅讓模型學會了化學語法,還牢牢記住了生物合成的底層邏輯。

3、十倍交叉驗證集成,在自然界,同一個基因簇往往能通過不同的代謝路徑,生產出多種結構迥異的分子。DeepSeMS 采用了集成學習框架,每次預測都會給出多個候選結構,完美契合了生物系統的真實復雜性。


從 BGC 序列預測次級代謝產物化學結構的 DeepSeMS 框架概述

降維打擊:“破譯”96.38% 的未知基因簇

為了檢驗這位“跨界翻譯官”的真實水平,研究團隊拿它和領域內的標桿工具(antiSMASH7 和 PRISM4)進行了一場正面 PK。

第一輪測試:已知結構的 BGC,DeepSeMS 以絕對優勢碾壓對手:

預測成功率(算出有效化學結構):高達 97.55%(PRISM4為 88.96%,antiSMASH7 僅為 63.50%)。

結構恢復率(算出的結構與真實自然產物完全一致):達到了驚人的 41.10%(PRISM4為 8.90%,antiSMASH7 為 0%)。

即使在極度嚴苛的條件下(測試數據與訓練數據相似度極低),DeepSeMS 依然保持了相當高的準確率,證明了它不是靠“死記硬背”拿高分,而是真正理解了生物合成的規律。

第二輪測試:來自深海的“隱秘 BGC”,面對 940 個完全未知的神秘基因簇,DeepSeMS 大放異彩,成功為其中 906個(96.38%)生成了合理的化學結構。相比之下,antiSMASH7 和 PRISM4 的成功率只有 16.91% 和 46.45%。

更令人驚喜的是,DeepSeMS 甚至能根據基因編碼的酶類功能,準確推斷出產物的碳骨架和糖基化修飾等微觀特征,做到了真正的“懂它所做的,而不僅僅是猜它像誰”。

從海水中打撈出 6 萬種潛在新藥

海洋覆蓋了地球 71% 的面積,是我們這顆星球上最大、也最未被開發的微生物生態系統。擁有了 DeepSeMS 這把“金剛鉆”,研究團隊立刻將目光投向了全球海洋微生物組數據庫。

結果堪稱史詩級大豐收:通過一次性分析近 2.7 萬個宏基因組組裝基因組中的 4.5 萬多個 BGC,DeepSeMS 預測出了60327種獨特的次級代謝產物。

對這些次級代謝產物的深度分析顯示:

  • 極高的新穎性:97% 的預測分子與目前已知的天然產物庫完全不同;69% 預測分子的核心化學骨架是全新的。

  • 明顯的地理分布特征:北冰洋擁有的獨特分子最多,而南大洋的分子多樣性最高。深海、低氧和特定溫度環境孕育了結構更為奇特的分子。

  • 巨大的醫藥潛力:通過虛擬篩選,研究團隊從中鎖定了 7554 種含有已知抗生素核心特征(例如 β-內酰胺類、四環素類等結構基序)的候選分子!這些分子擁有不同于現有藥物的側鏈修飾,極有可能成為對抗多重耐藥菌的新型武器。此外,還發現了大量與抗壓保護物質(例如 ectoine)相關的全新分子。

從只能依靠運氣在培養皿里“碰運氣”,到在電腦前用大模型“算答案”,DeepSeMS 的誕生標志著我們在探索天然產物未知領域的道路上邁出了一大步。


將生物多樣性轉化為化學多樣性

此外,研究團隊還構建了 DeepSeMS 在線平臺,用戶可提交 antiSMASH、DeepBGC 等工具生成的 BGC 注釋文件,或輸入 antiSMASH job ID,獲得候選分子結構、預測分數、分子性質、新穎性評估及潛在抗生素相關信息。該平臺還整合了全球海洋微生物次級代謝物資源,支持按海域、生態環境和 BGC 類型進行瀏覽、檢索和下載,為后續實驗驗證和天然產物發現提供資源基礎。

總的來說,該研究突顯了深度學習驅動方法在揭示地球上最大但尚未充分探索的微生物生態系統中隱藏的生物合成潛力的強大能力,為從生物多樣性(Biodiversity)到化學多樣性(Chemical diversity)的系統轉譯提供了一種可執行的新范式。

論文鏈接

https://www.nature.com/articles/s43588-026-00983-1

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
官宣了!徐正源正式執教遼寧鐵人,年薪遠低于成都蓉城時期

官宣了!徐正源正式執教遼寧鐵人,年薪遠低于成都蓉城時期

懂個球
2026-05-06 16:39:45
綏化兩名小女孩失聯多日已死亡!疑當地人爆料:倆女孩被鄰居殺害

綏化兩名小女孩失聯多日已死亡!疑當地人爆料:倆女孩被鄰居殺害

胡侃社會百態
2026-05-06 13:23:35
十二星座骨子里的陰暗面,敢直面嗎

十二星座骨子里的陰暗面,敢直面嗎

別人都叫我阿螫
2026-05-05 20:23:07
重慶法院神判決:酒店自費130萬裝空調后,物管費仍需按老標準交

重慶法院神判決:酒店自費130萬裝空調后,物管費仍需按老標準交

兵叔評說
2026-05-06 11:03:46
現貨黃金突破4700美元/盎司

現貨黃金突破4700美元/盎司

每日經濟新聞
2026-05-06 17:03:14
毛主席遺體至今仍面色紅潤,但防腐費用每年需上億元,是真是假?

毛主席遺體至今仍面色紅潤,但防腐費用每年需上億元,是真是假?

歷史龍元閣
2026-05-05 10:15:14
“特朗普正毀掉我的婚姻!”奧巴馬罕見發聲,米歇爾已忍無可忍!

“特朗普正毀掉我的婚姻!”奧巴馬罕見發聲,米歇爾已忍無可忍!

北緯的咖啡豆
2026-05-06 11:35:47
湖人丟G1!斯瑪特、八村壘、里弗斯紛紛攬責,詹姆斯提進攻調整!

湖人丟G1!斯瑪特、八村壘、里弗斯紛紛攬責,詹姆斯提進攻調整!

籃球資訊達人
2026-05-06 14:02:28
女演員宣布:已產下一個大胖小子!

女演員宣布:已產下一個大胖小子!

喜歡歷史的阿繁
2026-05-05 00:04:32
動人,元敏誠賽后向成都球迷謝場并喊話:今年一定要拿冠軍!

動人,元敏誠賽后向成都球迷謝場并喊話:今年一定要拿冠軍。

懂球帝
2026-05-06 12:07:45
過氣明星太可憐?五一假期景區落魄打工,有人無戲可拍,令人心酸

過氣明星太可憐?五一假期景區落魄打工,有人無戲可拍,令人心酸

攬星河的筆記
2026-05-04 15:45:23
沉默四天后,魯比奧警告中國,中美爆發兩波爭端,114國拒絕簽約

沉默四天后,魯比奧警告中國,中美爆發兩波爭端,114國拒絕簽約

觀星賞月
2026-05-06 19:28:42
研究表明:性生活越頻繁,射精和勃起問題越少!

研究表明:性生活越頻繁,射精和勃起問題越少!

黯泉
2026-04-05 20:40:12
老板娘問我她穿豹紋好不好?看我該怎么回答?

老板娘問我她穿豹紋好不好?看我該怎么回答?

太急張三瘋
2026-05-06 19:39:22
43歲身材還這么“滿”?王心凌的身材到底是怎么保持的?

43歲身材還這么“滿”?王心凌的身材到底是怎么保持的?

馬拉松跑步健身
2026-05-04 19:32:40
女兒被綁架撕票,56歲瘸腿母親獨闖販毒集團,挨個清算

女兒被綁架撕票,56歲瘸腿母親獨闖販毒集團,挨個清算

三目觀史
2026-04-27 22:32:40
瀏陽煙花廠爆炸現場周邊,有村民家窗框變形多處碎裂,“昨天都沒睡覺,今天也睡不了”

瀏陽煙花廠爆炸現場周邊,有村民家窗框變形多處碎裂,“昨天都沒睡覺,今天也睡不了”

大風新聞
2026-05-06 11:01:04
67 歲倪萍哭著說:若有來生,我不要爹娘不要孩子,也不要家庭

67 歲倪萍哭著說:若有來生,我不要爹娘不要孩子,也不要家庭

橙星文娛
2026-05-06 15:19:39
是什么原因,讓“臺獨”的旗手變成“我是中國人”?

是什么原因,讓“臺獨”的旗手變成“我是中國人”?

春風秋雨
2026-04-12 19:30:07
蘇州一市場禁止剝蠶豆引發熱議,網友稱有人吃蠶豆后會引發蠶豆病,市場工作人員回應

蘇州一市場禁止剝蠶豆引發熱議,網友稱有人吃蠶豆后會引發蠶豆病,市場工作人員回應

極目新聞
2026-05-06 15:58:29
2026-05-06 20:43:00
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科學研究
9334文章數 145069關注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當庭戳老底

頭條要聞

知情人士:伊朗將同意將鈾濃縮材料運出伊朗

頭條要聞

知情人士:伊朗將同意將鈾濃縮材料運出伊朗

體育要聞

活塞1比0騎士:坎寧安不再是一個人了

娛樂要聞

神仙友誼!楊紫連續10年為張一山慶生

財經要聞

最新GDP!全國30強城市,又變了

汽車要聞

領克10/領克10+ 無論能源形式 領克都要快樂

態度原創

藝術
本地
數碼
公開課
軍事航空

藝術要聞

震撼!康斯坦丁攝影作品里的性感曲線讓人驚艷!

本地新聞

用青花瓷的方式,打開西溪濕地

數碼要聞

三星宣布停止在中國市場銷售所有家電產品

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

實施不到48小時 特朗普緊急喊停"霍爾木茲自由計劃"

無障礙瀏覽 進入關懷版