網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Genome Biol | 推動(dòng)大語言模型邁向蛋白質(zhì)理解新階段

2026-05-29 14:33:06　來源: BioArtMED

上海舉報(bào)

分享至

近日，馬劍鵬教授團(tuán)隊(duì)在期刊Genome Biology上發(fā)表題為Advancing generative large language models toward discriminative performance in protein function prediction的研究文章。團(tuán)隊(duì)成功開發(fā)出面向蛋白質(zhì)功能預(yù)測的多任務(wù)生成式大語言模型OPUS-PLLM，該模型以“序列到功能”的自然語言生成范式為核心，將蛋白質(zhì)序列理解、功能注釋和生物學(xué)問答統(tǒng)一到同一生成框架中，不僅顯著縮小了生成式大語言模型與傳統(tǒng)判別式專用模型之間的性能差距，還在多項(xiàng)蛋白質(zhì)功能預(yù)測任務(wù)中展現(xiàn)出優(yōu)異的準(zhǔn)確性、泛化性和可擴(kuò)展性。

蛋白質(zhì)是生命活動(dòng)的主要執(zhí)行者，其功能解析對(duì)于理解生命機(jī)制、發(fā)現(xiàn)疾病標(biāo)志物、開展酶工程和藥物研發(fā)具有重要意義。然而，隨著測序技術(shù)快速發(fā)展，蛋白質(zhì)序列數(shù)據(jù)呈指數(shù)級(jí)增長，功能注釋卻遠(yuǎn)遠(yuǎn)滯后：大量已知蛋白仍缺乏完整、可靠的功能描述。傳統(tǒng)序列比對(duì)方法依賴可檢測的同源關(guān)系，面對(duì)低同源或新型蛋白時(shí)常常力不從心；近年來興起的蛋白質(zhì)語言模型雖然顯著提升了預(yù)測精度，但通常需要為不同任務(wù)分別訓(xùn)練判別式模型，難以靈活適應(yīng)多樣化、開放式的生物學(xué)問題。

面對(duì)這一挑戰(zhàn)，OPUS-PLLM創(chuàng)新性地提出了面向蛋白質(zhì)功能預(yù)測的生成式統(tǒng)一建模策略。模型由三項(xiàng)關(guān)鍵技術(shù)組成：首先，通過模態(tài)編碼將蛋白質(zhì)序列與功能文本映射到統(tǒng)一的跨模態(tài)表示空間；隨后，利用模態(tài)對(duì)齊模塊將蛋白質(zhì)序列表示進(jìn)一步對(duì)齊到大語言模型的詞嵌入空間；最后，通過指令微調(diào)，使模型能夠根據(jù)自然語言任務(wù)指令直接生成功能注釋結(jié)果。與傳統(tǒng)方法相比，OPUS-PLLM不再依賴為每個(gè)下游任務(wù)單獨(dú)訓(xùn)練分類頭，而是以統(tǒng)一的問答和生成方式完成亞細(xì)胞定位、GO術(shù)語、UniProt關(guān)鍵詞、EC編號(hào)和功能描述等多類任務(wù)，為蛋白質(zhì)功能預(yù)測提供了更加通用的技術(shù)路徑。

實(shí)驗(yàn)結(jié)果表明，OPUS-PLLM在五類核心蛋白質(zhì)功能預(yù)測任務(wù)、18個(gè)評(píng)測基準(zhǔn)上表現(xiàn)突出。與InstructProtein、Prot2Text、BioMedGPT、OPI-Llama和OPI-Galactica等已有生物知識(shí)增強(qiáng)型生成式大語言模型相比，OPUS-PLLM在所有評(píng)測任務(wù)中均取得更優(yōu)表現(xiàn)；在更具挑戰(zhàn)性的GO術(shù)語預(yù)測和EC編號(hào)預(yù)測任務(wù)上，其相對(duì)第二優(yōu)生成式模型的F1-score提升分別達(dá)到16.56%至25.13%和38.90%至254.61%。同時(shí)，OPUS-PLLM在多數(shù)任務(wù)中達(dá)到或超過基于ESM2、ProtT5和Ankh等蛋白質(zhì)語言模型表示的專用判別式方法，證明生成式大語言模型不僅可以“會(huì)描述”，也可以在高精度功能預(yù)測中具備極強(qiáng)競爭力。

從技術(shù)路線看，OPUS-PLLM為生物大語言模型的發(fā)展提供了一個(gè)清晰范式：通過跨模態(tài)對(duì)齊、蛋白質(zhì)序列表示精煉和高質(zhì)量生物指令微調(diào)，將通用大語言模型的自然語言理解與蛋白質(zhì)語言模型的序列建模能力有效結(jié)合。這一結(jié)果為后續(xù)構(gòu)建更強(qiáng)的生物醫(yī)學(xué)基礎(chǔ)模型、拓展更多蛋白質(zhì)任務(wù)和開放式生物學(xué)問答奠定了方法基礎(chǔ)。

未來，隨著模型能力、訓(xùn)練數(shù)據(jù)和生物知識(shí)體系的持續(xù)完善，OPUS-PLLM有望為未知蛋白功能注釋、酶功能發(fā)現(xiàn)、疾病機(jī)制研究和藥物靶點(diǎn)挖掘提供更加高效、可靠的智能工具。尤其在疾病研究領(lǐng)域，該模型能夠系統(tǒng)解析與癌癥、神經(jīng)退行性疾病、代謝紊亂等重大疾病相關(guān)的蛋白功能異常與突變效應(yīng)，揭示致病分子機(jī)制，加速疾病驅(qū)動(dòng)靶點(diǎn)的識(shí)別與驗(yàn)證。通過實(shí)現(xiàn)對(duì)“致病蛋白-分子通路-干預(yù)位點(diǎn)”的高通量智能推理，OPUS-PLLM將為精準(zhǔn)醫(yī)學(xué)中的靶向治療和早期診斷提供關(guān)鍵支撐，顯著提升從機(jī)制研究到臨床轉(zhuǎn)化的效率。同時(shí)，該工作也將為生成式AI在生命科學(xué)與臨床醫(yī)學(xué)中的深度應(yīng)用開辟更廣闊的空間。

本文第一作者為上海人工智能實(shí)驗(yàn)室呂穎研究員，共同第一作者為復(fù)旦大學(xué)大數(shù)據(jù)學(xué)院博士生徐藝帆；復(fù)旦大學(xué)復(fù)雜體系多尺度研究院副研究員徐罡為本文的共同通訊作者。

原文鏈接：https://link.springer.com/article/10.1186/s13059-026-04109-8

制版人：十一

BioArt

Med

Plants

人才招聘

學(xué)術(shù)合作組織

（*排名不分先后）

轉(zhuǎn)載須知

【非原創(chuàng)文章】本文著作權(quán)歸文章作者所有，歡迎個(gè)人轉(zhuǎn)發(fā)分享，未經(jīng)作者的允許禁止轉(zhuǎn)載，作者擁有所有法定權(quán)利，違者必究。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.