網易首頁 > 網易號 > 正文 申請入駐

NBT |?Han Xiao/Xiongyi Huang開發Sequence Display:用大規模數據集推動蛋白質快速進化

0
分享至


蛋白質工程正越來越多地走向“數據驅動”。然而,一個長期存在的瓶頸是:我們往往知道哪些變體在篩選后勝出,卻難以系統地獲得覆蓋高活性、低活性乃至無活性變體在內的完整“序列-活性”數據。缺少這類高質量、大規模數據集,蛋白質語言模型等人工智能工具就很難真正學會蛋白序列與功能之間的精細對應關系。

近日,萊斯大學Han Xiao課題組與約翰霍普金斯大學Xiongyi Huang課題組合作,在Nature Biotechnology發表研究論文Sequence Display enables large-scale sequence–activity datasets for rapid protein evolution報道了一種名為 Sequence Display 的新技術。該平臺能夠在單輪實驗中高效構建大規模蛋白質序列-活性數據集,并進一步結合預訓練蛋白質語言模型,實現對蛋白功能景觀的精細刻畫和高效進化。


傳統定向進化 (directed Evolution) 的核心邏輯,是在“構建突變體-篩選-再優化”的循環中不斷尋找性能更好的蛋白。但這類方法往往依賴多輪篩選,實驗成本高、周期長,而且更容易富集“贏家”,卻難以保留大量低活性或中等活性變體的信息。深度突變掃描等高通量方法雖然顯著提高了效率,本質上仍然更偏向于富集高活性變體,難以還原完整的蛋白活性景觀。對于今天越來越依賴機器學習的蛋白工程來說,這恰恰是最關鍵的數據缺口之一。

Sequence Display 的巧妙之處,在于把蛋白活性轉化成了一個可以被測序直接讀取的分子記錄過程。研究團隊在目標蛋白編碼序列附近引入 recording barcode,并將蛋白變體的活性與堿基編輯事件偶聯起來。換句話說,某個蛋白變體活性越高,與其相連的 barcode 就會積累出越強的可測序突變信號;活性較低的變體則留下更弱的記錄。經過高通量測序后,研究人員就能夠同時讀出每個變體的序列信息以及與之對應的活性讀數,從而在單輪實驗中建立起大規模、可定量的序列-活性數據集。更重要的是,通過設置多個 barcode,Sequence Display 還可以在同一輪實驗中并行分析蛋白變體在不同底物或不同特異性條件下的表現。

為了驗證這一平臺的普適性,研究團隊在多個蛋白體系中完成了測試,包括 UGI、胞嘧啶脫氨酶 rAPOBEC1、氨酰-tRNA 合成酶 Mb PylRS(IPYE) 以及緊湊型基因編輯工具 SlugCas9。研究中最突出的一個應用,是圍繞 SlugCas9 構建跨不同 PAM 條件的大規模序列-活性數據集。SlugCas9 由于蛋白尺寸較小,具有更好的遞送潛力,但其應用長期受限于較窄的 PAM 識別范圍。借助 Sequence Display,研究團隊不僅能夠在單次實驗中同時評估大量 SlugCas9 變體對多種 PAM 的活性,還進一步把這些數據與 ESM-2、SaProt 等預訓練蛋白質語言模型結合起來,對更大范圍的變體空間進行推斷和排序。

Sequence Display 的價值并不只是“更快篩選到幾個好變體”,而在于它為 AI 模型提供了分辨率足夠高、規模足夠大、且與具體功能讀數一一對應的訓練數據。基于這些數據,研究團隊得以重建 SlugCas9 的精細活性景觀 (Activity Landscape),并從數百萬潛在變體中鎖定多種高性能候選。實驗驗證表明,多種預測得到的 SlugCas9 變體在多個 PAM 條件下都表現出優于野生型的活性,其中部分變體還超過了此前通過噬菌體輔助進化獲得的廣譜 PAM 變體,展示出數據驅動蛋白進化的顯著優勢。

除基因編輯工具外,Sequence Display 在遺傳密碼子擴展 (Genetic Code Expansion) 方向同樣展現出強大潛力。研究團隊利用該平臺構建了 Mb PylRS(IPYE) 在不同非天然氨基酸條件下的序列-活性數據集,并結合蛋白語言模型篩選出能夠識別多種非天然氨基酸的 aaRS 變體。這說明,Sequence Display 不僅適用于某一種蛋白或某一類功能輸出,更有望成為連接實驗平臺與人工智能模型的通用基礎設施,幫助研究人員更系統地描繪蛋白質功能圖譜,并以更少輪次、更高成功率實現蛋白質優化。

從更廣泛的意義上看,這項工作的真正推進之處,在于它回答了一個越來越重要的問題:AI 驅動的蛋白質工程,最缺的究竟是什么?答案并不只是更大的模型,而是更好的數據。Sequence Display 讓蛋白活性的實驗測量第一次能夠以較高通量、較高分辨率的方式與序列本身直接配對,為后續模型訓練、功能預測和理性設計打下了堅實基礎。對于基因編輯、合成生物學、蛋白藥物和分子診斷等領域而言,這樣的平臺型技術有望顯著縮短從“構建文庫”到“發現優選變體”的周期。


圖1|Sequence Display 平臺流程總覽。A. Sequence Display 在單輪實驗中把蛋白活性轉化為可測序信號,快速生成大規模序列-活性數據。B. 蛋白語言模型結合這些數據學習序列與功能的關系,并預測變體活性。C. 基于少量實測數據,模型可外推更大變體空間,篩選高活性候選并構建活性景觀。

該研究由萊斯大學(Rice University)Han Xiao 課題組與約翰霍普金斯大學(Johns Hopkins University)Xiongyi Huang 課題組合作完成,。萊斯大學程麟棋(Linqi Cheng)、 研究助理 鄭昕哲(Xinzhe Zheng)和 研究生 江世宇(Shiyu Jason Jiang)為論文共同第一作者;Microsoft Research 的 Kevin K. Yang 為本研究中的機器學習建模與計算分析提供了重要支持 和指導 。

https://www.nature.com/articles/s41587-026-03087-3

Han Xiao ( https://xiao.rice.edu/ ) 現任萊斯大學 SynthX 中心主任,并擔任化學系、生物科學系和生物工程系教授, 同時是 CPRIT Scholar in Cancer Research 。課題組擁有嶄新的實驗室,一流的公共科研平臺和良好的工作環境。課題組研究方向包括:

? 基于ML蛋白質進化與工程:改造生命分子的積木。

? 基因密碼子擴展:突破自然界的限制。

? 新型藥物遞送系統:開發下一代骨、腦、淋巴靶向治療和基因療法。

? 新型疾病診斷:開發下一代疾病診斷分子。

研究成果發表在 Nature Chemical Biology, PNAS, JACS, Nature Biotechnology , Chem, Angew 等期刊上。實驗室現有多個位置開放,歡迎具有化學,生物化學,分子生物工程,化學工程,生物機器學習,藥學等相關專業背景的本科,碩士,及博士加盟。同時,對化學生物學、生物機器學習,有機合成、或生物醫學工程有熱情的本科生,歡迎申請暑期科研。

制版人: 十一

學術合作組織

(*排名不分先后)



戰略合作伙伴

(*排名不分先后)



轉載須知


【非原創文章】本文著作權歸文章作者所有,歡迎個人轉發分享,未經作者的允許禁止轉載,作者擁有所有法定權利,違者必究。

BioArt

Med

Plants

人才招聘


點擊主頁推薦活動

關注更多最新活動!


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
廣交會上外骨骼刷屏,企業回應:正全力尋找試戴的外籍殘障女子,希望送她一套設備

廣交會上外骨骼刷屏,企業回應:正全力尋找試戴的外籍殘障女子,希望送她一套設備

原廣工業
2026-04-21 17:56:41
中方不再伺候了!對荷光刻機優待全部取消,450億芯片不做了!

中方不再伺候了!對荷光刻機優待全部取消,450億芯片不做了!

馬捗在解說
2026-04-21 12:53:27
594億打水漂!超60國不參加奧運會,運動員僅5200人,中美未出席

594億打水漂!超60國不參加奧運會,運動員僅5200人,中美未出席

拳擊時空
2026-04-21 06:22:26
蘇聯“人猿雜交”實驗:5名女孩與11只猩猩參與,結局如何?

蘇聯“人猿雜交”實驗:5名女孩與11只猩猩參與,結局如何?

談史論天地
2026-02-28 13:35:18
悲催!丈夫每月給30000生活費,河南女子發帖,嫌棄他是留守兒童

悲催!丈夫每月給30000生活費,河南女子發帖,嫌棄他是留守兒童

火山詩話
2026-04-19 07:49:14
意外!鄭州40歲女子患肝癌,臨終前懇求前夫接走女兒,前夫回復!

意外!鄭州40歲女子患肝癌,臨終前懇求前夫接走女兒,前夫回復!

青梅侃史啊
2026-04-17 19:48:25
毛焦爾新官上任,第一把火先燒到中國,對華稱呼改變,目的太明顯

毛焦爾新官上任,第一把火先燒到中國,對華稱呼改變,目的太明顯

小蔣愛嘮嗑
2026-04-22 02:44:25
第一集就重口拉滿,這劇絕了

第一集就重口拉滿,這劇絕了

來看美劇
2026-04-21 21:56:18
東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

番外行
2026-03-31 08:28:28
第10波攔截,伊朗要求釋放船員,中方也警告美國,再不收手就晚了

第10波攔截,伊朗要求釋放船員,中方也警告美國,再不收手就晚了

觸摸史跡
2026-04-22 03:32:25
中國的“性蕭條”時代,正式到來了

中國的“性蕭條”時代,正式到來了

律法刑道
2025-12-15 08:28:58
人活著,其實就兩件事,想通了,后半輩子都順了

人活著,其實就兩件事,想通了,后半輩子都順了

小書蟲媽媽
2026-04-20 08:55:59
民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

李橑在北漂
2026-04-02 10:22:26
盤踞武漢多年“黑老大”黃大發等12人組織、領導、參加黑社會性質組織案一審宣判

盤踞武漢多年“黑老大”黃大發等12人組織、領導、參加黑社會性質組織案一審宣判

澎湃新聞
2026-04-21 14:58:02
日本突襲!28萬億市場,中國被踢出局,高市早苗亮出3張底牌

日本突襲!28萬億市場,中國被踢出局,高市早苗亮出3張底牌

曉徙娛樂
2026-04-20 23:33:10
尷尬!華為發布會現場清一色蘋果手機,日常用蘋果工作卻喊國產?

尷尬!華為發布會現場清一色蘋果手機,日常用蘋果工作卻喊國產?

江臨渡
2026-04-20 22:42:55
高市早苗下令后,美國準時發話,日本轉頭就向中國提出訪華請求

高市早苗下令后,美國準時發話,日本轉頭就向中國提出訪華請求

始于初見見
2026-04-22 04:31:52
搞定伊朗,下一個就是中國?收到中方援助后,伊總統當面發出警告

搞定伊朗,下一個就是中國?收到中方援助后,伊總統當面發出警告

毛豆何時歸
2026-04-22 03:02:02
隨著切爾西0-3,英超最新積分榜出爐

隨著切爾西0-3,英超最新積分榜出爐

側身凌空斬
2026-04-22 05:07:43
“說好給2000,他給10元”:2011年75歲男子睡33歲女人拒付錢被殺

“說好給2000,他給10元”:2011年75歲男子睡33歲女人拒付錢被殺

漢史趣聞
2026-04-18 15:19:07
2026-04-22 05:47:00
BioArt incentive-icons
BioArt
探索生物藝術之奧秘
9866文章數 18510關注度
往期回顧 全部

科技要聞

創造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經要聞

現實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

教育
時尚
本地
親子
軍事航空

教育要聞

家里不讓我去留學了,怎么辦?

頂流復工,已判若兩人

本地新聞

春色滿城關不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

親子要聞

才六天的馬寶寶,發這個視頻沒有別的意思,只是想騙你們生女兒而已

軍事要聞

特朗普公開對伊開戰真正原因

無障礙瀏覽 進入關懷版