毫秒級搜索10億生物序列！騰訊×浙大合作推出最強生物序列搜索AI工具——ERAST

2026-04-06 15:07:19　來源: 生物世界

上海舉報

分享至

撰文丨王聰

編輯丨王多魚

排版丨水成文

在生命科學(xué)領(lǐng)域，同源搜索（Homology Search）是一項基礎(chǔ)且至關(guān)重要的任務(wù)。簡單來說，它就是通過比較 DNA 或蛋白質(zhì)的序列，來尋找那些源自共同祖先、可能具有相似功能的“親戚”。這就像是在龐大的“生命字母表”中，快速找到拼寫相似的段落。

無論是鑒定一個新發(fā)現(xiàn)的基因功能，追溯病毒的進化路徑，還是在宏基因組數(shù)據(jù)中挖掘有用的酶，都離不開高效的序列比對工具。幾十年來，BLAST 及其衍生工具一直是該領(lǐng)域的金標(biāo)準(zhǔn)。然而，隨著測序技術(shù)的飛速發(fā)展，生物數(shù)據(jù)庫的規(guī)模已呈指數(shù)級增長，傳統(tǒng)方法在處理海量數(shù)據(jù)時的速度和精度遇到了巨大瓶頸。在浩如煙海的生物序列數(shù)據(jù)庫中，精準(zhǔn)找到一個蛋白質(zhì)的“遠(yuǎn)親，傳統(tǒng)方法可能需要數(shù)小時甚至數(shù)天。

2026 年 4 月 1 日，騰訊生命科學(xué)實驗室（AI for Life Sciences Laboratory）姚建華研究員、何冰研究員及浙江大學(xué)陳華鈞教授、張強助理教授作為共同通訊作者（姜一諾、何冰為共同第一作者），在Nature Biotechnology期刊發(fā)表了題為：Scalable homology detection with ERAST 的研究論文。

該研究開發(fā)了融合大語言模型與向量數(shù)據(jù)庫技術(shù)的同源檢測工具——ERAST（Efficient Retrieval-Augmented Search Tool）。該研究構(gòu)建了目前全球規(guī)模最大的生物向量數(shù)據(jù)庫（涵蓋超 10 億條蛋白質(zhì)序列與 3000 萬條核酸序列），在十億級數(shù)據(jù)規(guī)模下實現(xiàn)了毫秒級的精準(zhǔn)檢索，相比傳統(tǒng)工具 TM-align 計算效率提升約 5 萬倍。此外，ERAST 通過全局聚類分析成功揭示了海量“暗功能”蛋白質(zhì)的潛在進化聯(lián)系，為蛋白質(zhì)功能注釋提供了全新的技術(shù)范式。

ERAST：當(dāng) AI 大模型遇見向量數(shù)據(jù)庫

該研究開發(fā)的高效檢索增強搜索工具——ERAST（efficient retrieval-augmented search tool），是一種旨在處理迄今為止最大的向量數(shù)據(jù)庫中約 10 億個生物序列的解決方案。ERAST的核心創(chuàng)新在于巧妙地將前沿的大語言模型與高效的向量數(shù)據(jù)庫相結(jié)合，為同源生物序列提供高效且精確的搜索。它通過整合預(yù)檢索、檢索和后檢索優(yōu)化階段來提高搜索質(zhì)量，并支持核苷酸和蛋白質(zhì)序列。

1、構(gòu)建“生命序列的地圖”：ERAST 首先使用經(jīng)過預(yù)訓(xùn)練的大語言模型（例如蛋白質(zhì)語言模型 ESM-2，DNA 語言模型 MAMBA），將抽象的生物序列轉(zhuǎn)化為高維空間中的“向量”坐標(biāo)。這相當(dāng)于為每一條序列賦予了獨一無二的“數(shù)學(xué)指紋”。超過 10 億個這樣的指紋被存入一個特制的向量數(shù)據(jù)庫中，并建立了高效的索引。

2、三步走，實現(xiàn)精準(zhǔn)狙擊：ERAST 的搜索流程被精心設(shè)計為三個階段，層層過濾，確保結(jié)果又快又準(zhǔn)：

預(yù)檢索過濾：就像用“篩子”先過濾掉明顯不相關(guān)的數(shù)據(jù)。系統(tǒng)會根據(jù)查詢序列的元數(shù)據(jù)（例如長度、家族標(biāo)簽）縮小搜索范圍。
向量檢索：將查詢序列也轉(zhuǎn)化為向量，并在數(shù)據(jù)庫中快速計算其與候選向量之間的“余弦距離”（一種相似度度量）。借助并行計算技術(shù)，這個過程能在毫秒內(nèi)完成。
后檢索重排序：這是提升精度的關(guān)鍵一步。ERAST 自帶一個名為 EHSM 的評分模型，會對初步檢索出的候選序列進行二次打分和排序，尤其擅長識別那些進化關(guān)系遙遠(yuǎn)、序列相似度低的“遠(yuǎn)親”。

ERAST 概述

性能碾壓：速度更快，準(zhǔn)度更高

論文中的 benchmark（性能測試）結(jié)果令人印象深刻：

速度：在標(biāo)準(zhǔn)的 SCOPe40 測試集上，ERAST 的搜索速度比目前廣泛使用的、基于結(jié)構(gòu)的快速搜索工具 Foldseek 快約 50 倍，比高精度結(jié)構(gòu)比對工具 TM-align 快約 5 萬倍。對于長達(dá) 10 萬堿基對的 DNA 序列，ERAST 比經(jīng)典工具 BLASTn 快 60 倍。

精度：在識別蛋白質(zhì)同源關(guān)系時，ERAST 的 Top-1 命中精度（P@1）顯著優(yōu)于包括 TM-Vec、DHR、PLMSearch 在內(nèi)的所有主流深度學(xué)習(xí)方法。即使在處理“分布外”的新奇序列時，其穩(wěn)健性也遠(yuǎn)超傳統(tǒng)方法。

這種性能使得 ERAST 能夠在幾毫秒內(nèi)從包括數(shù)十億個生物序列的數(shù)據(jù)庫中進行準(zhǔn)確搜索，精準(zhǔn)定位目標(biāo)同源序列。

不止于搜索：照亮“功能未知”的蛋白質(zhì)暗物質(zhì)

除了快速搜索，ERAST 還能做一件更有意義的事：大規(guī)模全局聚類分析。

在現(xiàn)有的蛋白質(zhì)數(shù)據(jù)庫中，有大量被標(biāo)記為“功能未知”、“假設(shè)蛋白”的序列，它們被稱為“蛋白質(zhì)暗物質(zhì)”。ERAST 能夠基于全局序列相似性，將整個 UniRef90 數(shù)據(jù)庫中的蛋白質(zhì)進行聚類，構(gòu)建出一個超大規(guī)模的功能聚類網(wǎng)絡(luò)。

研究發(fā)現(xiàn)，94% 的功能未知蛋白質(zhì)簇，都能通過這個網(wǎng)絡(luò)與功能已知的蛋白質(zhì)簇連接起來。這為科學(xué)家們推斷這些“暗物質(zhì)”蛋白的可能功能、揭示其進化關(guān)系，提供了前所未有的強大線索和全局視角。

工具開源，推動生命科學(xué)探索

ERAST 不僅是一項學(xué)術(shù)成果，更是一個即將惠及全球科研人員的實用工具。該系統(tǒng)支持對蛋白質(zhì)和核苷酸序列的雙重搜索，其集成向量數(shù)據(jù)庫的網(wǎng)站已公開可用。

這項研究標(biāo)志著AI for Science（科學(xué)智能）在生物信息學(xué)核心領(lǐng)域的一次重要突破。它將使研究人員從耗時的計算等待中解放出來，更專注于科學(xué)發(fā)現(xiàn)本身，有望加速新藥靶點發(fā)現(xiàn)、病原體追蹤、酶工程設(shè)計等眾多領(lǐng)域的研究進程。

數(shù)據(jù)庫與在線工具訪問入口：https://ai4s.tencent.com/erast

ERAST 源代碼倉庫：https://github.com/TencentAILabHealthcare/ERAST

論文鏈接：

https://www.nature.com/articles/s41587-026-03051-1

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.