![]()
蛋白質工程正越來越多地走向“數據驅動”。然而,一個長期存在的瓶頸是:我們往往知道哪些變體在篩選后勝出,卻難以系統地獲得覆蓋高活性、低活性乃至無活性變體在內的完整“序列-活性”數據。缺少這類高質量、大規模數據集,蛋白質語言模型等人工智能工具就很難真正學會蛋白序列與功能之間的精細對應關系。
近日,萊斯大學Han Xiao課題組與約翰霍普金斯大學Xiongyi Huang課題組合作,在Nature Biotechnology發表研究論文Sequence Display enables large-scale sequence–activity datasets for rapid protein evolution,報道了一種名為 Sequence Display 的新技術。該平臺能夠在單輪實驗中高效構建大規模蛋白質序列-活性數據集,并進一步結合預訓練蛋白質語言模型,實現對蛋白功能景觀的精細刻畫和高效進化。
![]()
傳統定向進化 (directed Evolution) 的核心邏輯,是在“構建突變體-篩選-再優化”的循環中不斷尋找性能更好的蛋白。但這類方法往往依賴多輪篩選,實驗成本高、周期長,而且更容易富集“贏家”,卻難以保留大量低活性或中等活性變體的信息。深度突變掃描等高通量方法雖然顯著提高了效率,本質上仍然更偏向于富集高活性變體,難以還原完整的蛋白活性景觀。對于今天越來越依賴機器學習的蛋白工程來說,這恰恰是最關鍵的數據缺口之一。
Sequence Display 的巧妙之處,在于把蛋白活性轉化成了一個可以被測序直接讀取的分子記錄過程。研究團隊在目標蛋白編碼序列附近引入 recording barcode,并將蛋白變體的活性與堿基編輯事件偶聯起來。換句話說,某個蛋白變體活性越高,與其相連的 barcode 就會積累出越強的可測序突變信號;活性較低的變體則留下更弱的記錄。經過高通量測序后,研究人員就能夠同時讀出每個變體的序列信息以及與之對應的活性讀數,從而在單輪實驗中建立起大規模、可定量的序列-活性數據集。更重要的是,通過設置多個 barcode,Sequence Display 還可以在同一輪實驗中并行分析蛋白變體在不同底物或不同特異性條件下的表現。
為了驗證這一平臺的普適性,研究團隊在多個蛋白體系中完成了測試,包括 UGI、胞嘧啶脫氨酶 rAPOBEC1、氨酰-tRNA 合成酶 Mb PylRS(IPYE) 以及緊湊型基因編輯工具 SlugCas9。研究中最突出的一個應用,是圍繞 SlugCas9 構建跨不同 PAM 條件的大規模序列-活性數據集。SlugCas9 由于蛋白尺寸較小,具有更好的遞送潛力,但其應用長期受限于較窄的 PAM 識別范圍。借助 Sequence Display,研究團隊不僅能夠在單次實驗中同時評估大量 SlugCas9 變體對多種 PAM 的活性,還進一步把這些數據與 ESM-2、SaProt 等預訓練蛋白質語言模型結合起來,對更大范圍的變體空間進行推斷和排序。
Sequence Display 的價值并不只是“更快篩選到幾個好變體”,而在于它為 AI 模型提供了分辨率足夠高、規模足夠大、且與具體功能讀數一一對應的訓練數據。基于這些數據,研究團隊得以重建 SlugCas9 的精細活性景觀 (Activity Landscape),并從數百萬潛在變體中鎖定多種高性能候選。實驗驗證表明,多種預測得到的 SlugCas9 變體在多個 PAM 條件下都表現出優于野生型的活性,其中部分變體還超過了此前通過噬菌體輔助進化獲得的廣譜 PAM 變體,展示出數據驅動蛋白進化的顯著優勢。
除基因編輯工具外,Sequence Display 在遺傳密碼子擴展 (Genetic Code Expansion) 方向同樣展現出強大潛力。研究團隊利用該平臺構建了 Mb PylRS(IPYE) 在不同非天然氨基酸條件下的序列-活性數據集,并結合蛋白語言模型篩選出能夠識別多種非天然氨基酸的 aaRS 變體。這說明,Sequence Display 不僅適用于某一種蛋白或某一類功能輸出,更有望成為連接實驗平臺與人工智能模型的通用基礎設施,幫助研究人員更系統地描繪蛋白質功能圖譜,并以更少輪次、更高成功率實現蛋白質優化。
從更廣泛的意義上看,這項工作的真正推進之處,在于它回答了一個越來越重要的問題:AI 驅動的蛋白質工程,最缺的究竟是什么?答案并不只是更大的模型,而是更好的數據。Sequence Display 讓蛋白活性的實驗測量第一次能夠以較高通量、較高分辨率的方式與序列本身直接配對,為后續模型訓練、功能預測和理性設計打下了堅實基礎。對于基因編輯、合成生物學、蛋白藥物和分子診斷等領域而言,這樣的平臺型技術有望顯著縮短從“構建文庫”到“發現優選變體”的周期。
![]()
圖1|Sequence Display 平臺流程總覽。A. Sequence Display 在單輪實驗中把蛋白活性轉化為可測序信號,快速生成大規模序列-活性數據。B. 蛋白語言模型結合這些數據學習序列與功能的關系,并預測變體活性。C. 基于少量實測數據,模型可外推更大變體空間,篩選高活性候選并構建活性景觀。
該研究由萊斯大學(Rice University)Han Xiao 課題組與約翰霍普金斯大學(Johns Hopkins University)Xiongyi Huang 課題組合作完成,。萊斯大學程麟棋(Linqi Cheng)、 研究助理 鄭昕哲(Xinzhe Zheng)和 研究生 江世宇(Shiyu Jason Jiang)為論文共同第一作者;Microsoft Research 的 Kevin K. Yang 為本研究中的機器學習建模與計算分析提供了重要支持 和指導 。
https://www.nature.com/articles/s41587-026-03087-3
Han Xiao ( https://xiao.rice.edu/ ) 現任萊斯大學 SynthX 中心主任,并擔任化學系、生物科學系和生物工程系教授, 同時是 CPRIT Scholar in Cancer Research 。課題組擁有嶄新的實驗室,一流的公共科研平臺和良好的工作環境。課題組研究方向包括:
? 基于ML蛋白質進化與工程:改造生命分子的積木。
? 基因密碼子擴展:突破自然界的限制。
? 新型藥物遞送系統:開發下一代骨、腦、淋巴靶向治療和基因療法。
? 新型疾病診斷:開發下一代疾病診斷分子。
研究成果發表在 Nature Chemical Biology, PNAS, JACS, Nature Biotechnology , Chem, Angew 等期刊上。實驗室現有多個位置開放,歡迎具有化學,生物化學,分子生物工程,化學工程,生物機器學習,藥學等相關專業背景的本科,碩士,及博士加盟。同時,對化學生物學、生物機器學習,有機合成、或生物醫學工程有熱情的本科生,歡迎申請暑期科研。
制版人: 十一
學術合作組織
(*排名不分先后)
![]()
戰略合作伙伴
(*排名不分先后)
![]()
![]()
轉載須知
【非原創文章】本文著作權歸文章作者所有,歡迎個人轉發分享,未經作者的允許禁止轉載,作者擁有所有法定權利,違者必究。
BioArt
Med
Plants
人才招聘
![]()
點擊主頁推薦活動
關注更多最新活動!
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.