![]()
近日,馬劍鵬教授團(tuán)隊(duì)在期刊Genome Biology上發(fā)表題為Advancing generative large language models toward discriminative performance in protein function prediction的研究文章。團(tuán)隊(duì)成功開發(fā)出面向蛋白質(zhì)功能預(yù)測的多任務(wù)生成式大語言模型OPUS-PLLM,該模型以“序列到功能”的自然語言生成范式為核心,將蛋白質(zhì)序列理解、功能注釋和生物學(xué)問答統(tǒng)一到同一生成框架中,不僅顯著縮小了生成式大語言模型與傳統(tǒng)判別式專用模型之間的性能差距,還在多項(xiàng)蛋白質(zhì)功能預(yù)測任務(wù)中展現(xiàn)出優(yōu)異的準(zhǔn)確性、泛化性和可擴(kuò)展性。
![]()
蛋白質(zhì)是生命活動(dòng)的主要執(zhí)行者,其功能解析對(duì)于理解生命機(jī)制、發(fā)現(xiàn)疾病標(biāo)志物、開展酶工程和藥物研發(fā)具有重要意義。然而,隨著測序技術(shù)快速發(fā)展,蛋白質(zhì)序列數(shù)據(jù)呈指數(shù)級(jí)增長,功能注釋卻遠(yuǎn)遠(yuǎn)滯后:大量已知蛋白仍缺乏完整、可靠的功能描述。傳統(tǒng)序列比對(duì)方法依賴可檢測的同源關(guān)系,面對(duì)低同源或新型蛋白時(shí)常常力不從心;近年來興起的蛋白質(zhì)語言模型雖然顯著提升了預(yù)測精度,但通常需要為不同任務(wù)分別訓(xùn)練判別式模型,難以靈活適應(yīng)多樣化、開放式的生物學(xué)問題。
面對(duì)這一挑戰(zhàn),OPUS-PLLM創(chuàng)新性地提出了面向蛋白質(zhì)功能預(yù)測的生成式統(tǒng)一建模策略。模型由三項(xiàng)關(guān)鍵技術(shù)組成:首先,通過模態(tài)編碼將蛋白質(zhì)序列與功能文本映射到統(tǒng)一的跨模態(tài)表示空間;隨后,利用模態(tài)對(duì)齊模塊將蛋白質(zhì)序列表示進(jìn)一步對(duì)齊到大語言模型的詞嵌入空間;最后,通過指令微調(diào),使模型能夠根據(jù)自然語言任務(wù)指令直接生成功能注釋結(jié)果。與傳統(tǒng)方法相比,OPUS-PLLM不再依賴為每個(gè)下游任務(wù)單獨(dú)訓(xùn)練分類頭,而是以統(tǒng)一的問答和生成方式完成亞細(xì)胞定位、GO術(shù)語、UniProt關(guān)鍵詞、EC編號(hào)和功能描述等多類任務(wù),為蛋白質(zhì)功能預(yù)測提供了更加通用的技術(shù)路徑。
實(shí)驗(yàn)結(jié)果表明,OPUS-PLLM在五類核心蛋白質(zhì)功能預(yù)測任務(wù)、18個(gè)評(píng)測基準(zhǔn)上表現(xiàn)突出。與InstructProtein、Prot2Text、BioMedGPT、OPI-Llama和OPI-Galactica等已有生物知識(shí)增強(qiáng)型生成式大語言模型相比,OPUS-PLLM在所有評(píng)測任務(wù)中均取得更優(yōu)表現(xiàn);在更具挑戰(zhàn)性的GO術(shù)語預(yù)測和EC編號(hào)預(yù)測任務(wù)上,其相對(duì)第二優(yōu)生成式模型的F1-score提升分別達(dá)到16.56%至25.13%和38.90%至254.61%。同時(shí),OPUS-PLLM在多數(shù)任務(wù)中達(dá)到或超過基于ESM2、ProtT5和Ankh等蛋白質(zhì)語言模型表示的專用判別式方法,證明生成式大語言模型不僅可以“會(huì)描述”,也可以在高精度功能預(yù)測中具備極強(qiáng)競爭力。
從技術(shù)路線看,OPUS-PLLM為生物大語言模型的發(fā)展提供了一個(gè)清晰范式:通過跨模態(tài)對(duì)齊、蛋白質(zhì)序列表示精煉和高質(zhì)量生物指令微調(diào),將通用大語言模型的自然語言理解與蛋白質(zhì)語言模型的序列建模能力有效結(jié)合。這一結(jié)果為后續(xù)構(gòu)建更強(qiáng)的生物醫(yī)學(xué)基礎(chǔ)模型、拓展更多蛋白質(zhì)任務(wù)和開放式生物學(xué)問答奠定了方法基礎(chǔ)。
未來,隨著模型能力、訓(xùn)練數(shù)據(jù)和生物知識(shí)體系的持續(xù)完善,OPUS-PLLM有望為未知蛋白功能注釋、酶功能發(fā)現(xiàn)、疾病機(jī)制研究和藥物靶點(diǎn)挖掘提供更加高效、可靠的智能工具。尤其在疾病研究領(lǐng)域,該模型能夠系統(tǒng)解析與癌癥、神經(jīng)退行性疾病、代謝紊亂等重大疾病相關(guān)的蛋白功能異常與突變效應(yīng),揭示致病分子機(jī)制,加速疾病驅(qū)動(dòng)靶點(diǎn)的識(shí)別與驗(yàn)證。 通過實(shí)現(xiàn)對(duì)“致病蛋白-分子通路-干預(yù)位點(diǎn)”的高通量智能推理,OPUS-PLLM將為精準(zhǔn)醫(yī)學(xué)中的靶向治療和早期診斷提供關(guān)鍵支撐,顯著提升從機(jī)制研究到臨床轉(zhuǎn)化的效率。同時(shí),該工作也將為生成式AI在生命科學(xué)與臨床醫(yī)學(xué)中的深度應(yīng)用開辟更廣闊的空間。
本文第一作者為上海人工智能實(shí)驗(yàn)室呂穎研究員,共同第一作者為復(fù)旦大學(xué)大數(shù)據(jù)學(xué)院博士生徐藝帆;復(fù)旦大學(xué)復(fù)雜體系多尺度研究院副研究員徐罡為本文的共同通訊作者。
原文鏈接:https://link.springer.com/article/10.1186/s13059-026-04109-8
制版人:十一
BioArt
Med
Plants
人才招聘
學(xué)術(shù)合作組織
(*排名不分先后)
![]()
轉(zhuǎn)載須知
【非原創(chuàng)文章】本文著作權(quán)歸文章作者所有,歡迎個(gè)人轉(zhuǎn)發(fā)分享,未經(jīng)作者的允許禁止轉(zhuǎn)載,作者擁有所有法定權(quán)利,違者必究。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.