撰文丨王聰
編輯丨王多魚
排版丨水成文
在生命科學(xué)領(lǐng)域,同源搜索(Homology Search)是一項基礎(chǔ)且至關(guān)重要的任務(wù)。簡單來說,它就是通過比較 DNA 或蛋白質(zhì)的序列,來尋找那些源自共同祖先、可能具有相似功能的“親戚”。這就像是在龐大的“生命字母表”中,快速找到拼寫相似的段落。
無論是鑒定一個新發(fā)現(xiàn)的基因功能,追溯病毒的進化路徑,還是在宏基因組數(shù)據(jù)中挖掘有用的酶,都離不開高效的序列比對工具。幾十年來,BLAST 及其衍生工具一直是該領(lǐng)域的金標(biāo)準(zhǔn)。然而,隨著測序技術(shù)的飛速發(fā)展,生物數(shù)據(jù)庫的規(guī)模已呈指數(shù)級增長,傳統(tǒng)方法在處理海量數(shù)據(jù)時的速度和精度遇到了巨大瓶頸。在浩如煙海的生物序列數(shù)據(jù)庫中,精準(zhǔn)找到一個蛋白質(zhì)的“遠(yuǎn)親,傳統(tǒng)方法可能需要數(shù)小時甚至數(shù)天。
2026 年 4 月 1 日,騰訊生命科學(xué)實驗室(AI for Life Sciences Laboratory)姚建華研究員、何冰研究員及浙江大學(xué)陳華鈞教授、張強助理教授作為共同通訊作者(姜一諾、何冰為共同第一作者),在Nature Biotechnology期刊發(fā)表了題為:Scalable homology detection with ERAST 的研究論文。
該研究開發(fā)了融合大語言模型與向量數(shù)據(jù)庫技術(shù)的同源檢測工具——ERAST(Efficient Retrieval-Augmented Search Tool)。該研究構(gòu)建了目前全球規(guī)模最大的生物向量數(shù)據(jù)庫(涵蓋超 10 億條蛋白質(zhì)序列與 3000 萬條核酸序列),在十億級數(shù)據(jù)規(guī)模下實現(xiàn)了毫秒級的精準(zhǔn)檢索,相比傳統(tǒng)工具 TM-align 計算效率提升約 5 萬倍。此外,ERAST 通過全局聚類分析成功揭示了海量“暗功能”蛋白質(zhì)的潛在進化聯(lián)系,為蛋白質(zhì)功能注釋提供了全新的技術(shù)范式。
![]()
ERAST:當(dāng) AI 大模型遇見向量數(shù)據(jù)庫
該研究開發(fā)的高效檢索增強搜索工具——ERAST(efficient retrieval-augmented search tool),是一種旨在處理迄今為止最大的向量數(shù)據(jù)庫中約 10 億個生物序列的解決方案。ERAST的核心創(chuàng)新在于巧妙地將前沿的大語言模型與高效的向量數(shù)據(jù)庫相結(jié)合,為同源生物序列提供高效且精確的搜索。它通過整合預(yù)檢索、檢索和后檢索優(yōu)化階段來提高搜索質(zhì)量,并支持核苷酸和蛋白質(zhì)序列。
1、構(gòu)建“生命序列的地圖”:ERAST 首先使用經(jīng)過預(yù)訓(xùn)練的大語言模型(例如蛋白質(zhì)語言模型 ESM-2,DNA 語言模型 MAMBA),將抽象的生物序列轉(zhuǎn)化為高維空間中的“向量”坐標(biāo)。這相當(dāng)于為每一條序列賦予了獨一無二的“數(shù)學(xué)指紋”。超過 10 億個這樣的指紋被存入一個特制的向量數(shù)據(jù)庫中,并建立了高效的索引。
2、三步走,實現(xiàn)精準(zhǔn)狙擊:ERAST 的搜索流程被精心設(shè)計為三個階段,層層過濾,確保結(jié)果又快又準(zhǔn):
預(yù)檢索過濾:就像用“篩子”先過濾掉明顯不相關(guān)的數(shù)據(jù)。系統(tǒng)會根據(jù)查詢序列的元數(shù)據(jù)(例如長度、家族標(biāo)簽)縮小搜索范圍。
向量檢索:將查詢序列也轉(zhuǎn)化為向量,并在數(shù)據(jù)庫中快速計算其與候選向量之間的“余弦距離”(一種相似度度量)。借助并行計算技術(shù),這個過程能在毫秒內(nèi)完成。
后檢索重排序:這是提升精度的關(guān)鍵一步。ERAST 自帶一個名為 EHSM 的評分模型,會對初步檢索出的候選序列進行二次打分和排序,尤其擅長識別那些進化關(guān)系遙遠(yuǎn)、序列相似度低的“遠(yuǎn)親”。
![]()
ERAST 概述
性能碾壓:速度更快,準(zhǔn)度更高
論文中的 benchmark(性能測試)結(jié)果令人印象深刻:
速度:在標(biāo)準(zhǔn)的 SCOPe40 測試集上,ERAST 的搜索速度比目前廣泛使用的、基于結(jié)構(gòu)的快速搜索工具 Foldseek 快約 50 倍,比高精度結(jié)構(gòu)比對工具 TM-align 快約 5 萬倍。對于長達(dá) 10 萬堿基對的 DNA 序列,ERAST 比經(jīng)典工具 BLASTn 快 60 倍。
精度:在識別蛋白質(zhì)同源關(guān)系時,ERAST 的 Top-1 命中精度(P@1)顯著優(yōu)于包括 TM-Vec、DHR、PLMSearch 在內(nèi)的所有主流深度學(xué)習(xí)方法。即使在處理“分布外”的新奇序列時,其穩(wěn)健性也遠(yuǎn)超傳統(tǒng)方法。
這種性能使得 ERAST 能夠在幾毫秒內(nèi)從包括數(shù)十億個生物序列的數(shù)據(jù)庫中進行準(zhǔn)確搜索,精準(zhǔn)定位目標(biāo)同源序列。
不止于搜索:照亮“功能未知”的蛋白質(zhì)暗物質(zhì)
除了快速搜索,ERAST 還能做一件更有意義的事:大規(guī)模全局聚類分析。
在現(xiàn)有的蛋白質(zhì)數(shù)據(jù)庫中,有大量被標(biāo)記為“功能未知”、“假設(shè)蛋白”的序列,它們被稱為“蛋白質(zhì)暗物質(zhì)”。ERAST 能夠基于全局序列相似性,將整個 UniRef90 數(shù)據(jù)庫中的蛋白質(zhì)進行聚類,構(gòu)建出一個超大規(guī)模的功能聚類網(wǎng)絡(luò)。
研究發(fā)現(xiàn),94% 的功能未知蛋白質(zhì)簇,都能通過這個網(wǎng)絡(luò)與功能已知的蛋白質(zhì)簇連接起來。這為科學(xué)家們推斷這些“暗物質(zhì)”蛋白的可能功能、揭示其進化關(guān)系,提供了前所未有的強大線索和全局視角。
工具開源,推動生命科學(xué)探索
ERAST 不僅是一項學(xué)術(shù)成果,更是一個即將惠及全球科研人員的實用工具。該系統(tǒng)支持對蛋白質(zhì)和核苷酸序列的雙重搜索,其集成向量數(shù)據(jù)庫的網(wǎng)站已公開可用。
這項研究標(biāo)志著AI for Science(科學(xué)智能)在生物信息學(xué)核心領(lǐng)域的一次重要突破。它將使研究人員從耗時的計算等待中解放出來,更專注于科學(xué)發(fā)現(xiàn)本身,有望加速新藥靶點發(fā)現(xiàn)、病原體追蹤、酶工程設(shè)計等眾多領(lǐng)域的研究進程。
數(shù)據(jù)庫與在線工具訪問入口:https://ai4s.tencent.com/erast
ERAST 源代碼倉庫:https://github.com/TencentAILabHealthcare/ERAST
論文鏈接:
https://www.nature.com/articles/s41587-026-03051-1
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.