无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Genome Biol | 推動(dòng)大語言模型邁向蛋白質(zhì)理解新階段

0
分享至


近日,馬劍鵬教授團(tuán)隊(duì)在期刊Genome Biology上發(fā)表題為Advancing generative large language models toward discriminative performance in protein function prediction的研究文章。團(tuán)隊(duì)成功開發(fā)出面向蛋白質(zhì)功能預(yù)測的多任務(wù)生成式大語言模型OPUS-PLLM該模型以序列到功能的自然語言生成范式為核心,將蛋白質(zhì)序列理解、功能注釋和生物學(xué)問答統(tǒng)一到同一生成框架中,不僅顯著縮小了生成式大語言模型與傳統(tǒng)判別式專用模型之間的性能差距,還在多項(xiàng)蛋白質(zhì)功能預(yù)測任務(wù)中展現(xiàn)出優(yōu)異的準(zhǔn)確性、泛化性和擴(kuò)展性


蛋白質(zhì)是生命活動(dòng)的主要執(zhí)行者,其功能解析對(duì)于理解生命機(jī)制、發(fā)現(xiàn)疾病標(biāo)志物、開展酶工程和藥物研發(fā)具有重要意義。然而,隨著測序技術(shù)快速發(fā)展,蛋白質(zhì)序列數(shù)據(jù)呈指數(shù)級(jí)增長,功能注釋卻遠(yuǎn)遠(yuǎn)滯后:大量已知蛋白仍缺乏完整、可靠的功能描述。傳統(tǒng)序列比對(duì)方法依賴可檢測的同源關(guān)系,面對(duì)低同源或新型蛋白時(shí)常常力不從心;近年來興起的蛋白質(zhì)語言模型雖然顯著提升了預(yù)測精度,但通常需要為不同任務(wù)分別訓(xùn)練判別式模型,難以靈活適應(yīng)多樣化、開放式的生物學(xué)問題。

面對(duì)這一挑戰(zhàn),OPUS-PLLM創(chuàng)新性地提出了面向蛋白質(zhì)功能預(yù)測的生成式統(tǒng)一建模策略。模型由三項(xiàng)關(guān)鍵技術(shù)組成:首先,通過模態(tài)編碼將蛋白質(zhì)序列與功能文本映射到統(tǒng)一的跨模態(tài)表示空間;隨后,利用模態(tài)對(duì)齊模塊將蛋白質(zhì)序列表示進(jìn)一步對(duì)齊到大語言模型的詞嵌入空間;最后,通過指令微調(diào),使模型能夠根據(jù)自然語言任務(wù)指令直接生成功能注釋結(jié)果。與傳統(tǒng)方法相比,OPUS-PLLM不再依賴為每個(gè)下游任務(wù)單獨(dú)訓(xùn)練分類頭,而是以統(tǒng)一的問答和生成方式完成亞細(xì)胞定位、GO術(shù)語、UniProt關(guān)鍵詞、EC編號(hào)和功能描述等多類任務(wù),為蛋白質(zhì)功能預(yù)測提供了更加通用的技術(shù)路徑。

實(shí)驗(yàn)結(jié)果表明,OPUS-PLLM在五類核心蛋白質(zhì)功能預(yù)測任務(wù)、18個(gè)評(píng)測基準(zhǔn)上表現(xiàn)突出。與InstructProtein、Prot2Text、BioMedGPT、OPI-Llama和OPI-Galactica等已有生物知識(shí)增強(qiáng)型生成式大語言模型相比,OPUS-PLLM在所有評(píng)測任務(wù)中均取得更優(yōu)表現(xiàn);在更具挑戰(zhàn)性的GO術(shù)語預(yù)測和EC編號(hào)預(yù)測任務(wù)上,其相對(duì)第二優(yōu)生成式模型的F1-score提升分別達(dá)到16.56%至25.13%和38.90%至254.61%。同時(shí),OPUS-PLLM在多數(shù)任務(wù)中達(dá)到或超過基于ESM2、ProtT5和Ankh等蛋白質(zhì)語言模型表示的專用判別式方法,證明生成式大語言模型不僅可以“會(huì)描述”,也可以在高精度功能預(yù)測中具備極強(qiáng)競爭力。

從技術(shù)路線看,OPUS-PLLM為生物大語言模型的發(fā)展提供了一個(gè)清晰范式:通過跨模態(tài)對(duì)齊、蛋白質(zhì)序列表示精煉和高質(zhì)量生物指令微調(diào),將通用大語言模型的自然語言理解與蛋白質(zhì)語言模型的序列建模能力有效結(jié)合。這一結(jié)果為后續(xù)構(gòu)建更強(qiáng)的生物醫(yī)學(xué)基礎(chǔ)模型、拓展更多蛋白質(zhì)任務(wù)和開放式生物學(xué)問答奠定了方法基礎(chǔ)。

未來,隨著模型能力、訓(xùn)練數(shù)據(jù)和生物知識(shí)體系的持續(xù)完善,OPUS-PLLM有望為未知蛋白功能注釋、酶功能發(fā)現(xiàn)、疾病機(jī)制研究和藥物靶點(diǎn)挖掘提供更加高效、可靠的智能工具。尤其在疾病研究領(lǐng)域,該模型能夠系統(tǒng)解析與癌癥、神經(jīng)退行性疾病、代謝紊亂等重大疾病相關(guān)的蛋白功能異常與突變效應(yīng),揭示致病分子機(jī)制,加速疾病驅(qū)動(dòng)靶點(diǎn)的識(shí)別與驗(yàn)證。 通過實(shí)現(xiàn)對(duì)“致病蛋白-分子通路-干預(yù)位點(diǎn)”的高通量智能推理,OPUS-PLLM將為精準(zhǔn)醫(yī)學(xué)中的靶向治療和早期診斷提供關(guān)鍵支撐,顯著提升從機(jī)制研究到臨床轉(zhuǎn)化的效率。同時(shí),該工作也將為生成式AI在生命科學(xué)與臨床醫(yī)學(xué)中的深度應(yīng)用開辟更廣闊的空間。

本文第一作者為上海人工智能實(shí)驗(yàn)室呂穎研究員,共同第一作者為復(fù)旦大學(xué)大數(shù)據(jù)學(xué)院博士生徐藝帆;復(fù)旦大學(xué)復(fù)雜體系多尺度研究院副研究員徐罡為本文的共同通訊作者。

原文鏈接:https://link.springer.com/article/10.1186/s13059-026-04109-8

制版人:十一

BioArt

Med

Plants

人才招聘

學(xué)術(shù)合作組織

(*排名不分先后)


轉(zhuǎn)載須知

【非原創(chuàng)文章】本文著作權(quán)歸文章作者所有,歡迎個(gè)人轉(zhuǎn)發(fā)分享,未經(jīng)作者的允許禁止轉(zhuǎn)載,作者擁有所有法定權(quán)利,違者必究。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
難以置信!聽婆婆說話就想怒,揍孩子還想跳樓,網(wǎng)友:生理性厭惡

難以置信!聽婆婆說話就想怒,揍孩子還想跳樓,網(wǎng)友:生理性厭惡

丫頭舫
2026-06-10 16:40:32
SK海力士:未來5年內(nèi)晶圓產(chǎn)能將翻一番 到2034年將增加兩倍

SK海力士:未來5年內(nèi)晶圓產(chǎn)能將翻一番 到2034年將增加兩倍

財(cái)聯(lián)社
2026-06-11 12:50:15
難怪菲律賓人擔(dān)心,出現(xiàn)在黃巖島的不明物體可能是奔著海底去的!

難怪菲律賓人擔(dān)心,出現(xiàn)在黃巖島的不明物體可能是奔著海底去的!

阿龍聊軍事
2026-06-11 06:38:53
美防長稱美軍將轟炸伊朗境內(nèi)關(guān)鍵設(shè)施,美油高開2.3%

美防長稱美軍將轟炸伊朗境內(nèi)關(guān)鍵設(shè)施,美油高開2.3%

界面新聞
2026-06-11 07:02:05
勝負(fù)手!福克斯解釋上籃被帽:覺得能跑過阿努諾比

勝負(fù)手!福克斯解釋上籃被帽:覺得能跑過阿努諾比

體壇周報(bào)
2026-06-11 13:58:39
六氟化鎢飆漲至近200萬元/噸,專家預(yù)計(jì)年內(nèi)持續(xù)緊缺、價(jià)格高位運(yùn)行

六氟化鎢飆漲至近200萬元/噸,專家預(yù)計(jì)年內(nèi)持續(xù)緊缺、價(jià)格高位運(yùn)行

經(jīng)濟(jì)觀察報(bào)
2026-06-10 18:28:01
百年神話崩了,香港擊敗瑞士,登頂全球第一

百年神話崩了,香港擊敗瑞士,登頂全球第一

新浪財(cái)經(jīng)
2026-06-10 20:18:37
本是同濟(jì)大學(xué)教授,為生病妻子放棄事業(yè)回鄉(xiāng),今在安徽老家養(yǎng)土雞

本是同濟(jì)大學(xué)教授,為生病妻子放棄事業(yè)回鄉(xiāng),今在安徽老家養(yǎng)土雞

白面書誏
2026-06-10 20:47:53
萬億城商行退休行長為何突然被帶走,系該行成立30年來被查第一人

萬億城商行退休行長為何突然被帶走,系該行成立30年來被查第一人

湘財(cái)Plus
2026-06-11 11:34:53
謝娜跨界圈錢越演越烈!官媒點(diǎn)名怒批,句句說到心坎,過審也得涼

謝娜跨界圈錢越演越烈!官媒點(diǎn)名怒批,句句說到心坎,過審也得涼

娛說瑜悅
2026-06-10 20:29:46
1955年蔣介石想吃奉化老家的黃花泥螺,保密局知道后如何搞到的?

1955年蔣介石想吃奉化老家的黃花泥螺,保密局知道后如何搞到的?

歷史人文2
2026-06-11 13:30:03
王楚然骨架大,但是大得恰到好處

王楚然骨架大,但是大得恰到好處

娛你同歡
2026-06-09 20:06:02
憑懷疑定罪,刑訊逼供獲口供,真兇落網(wǎng)不立案,17年冤獄無人理會(huì)

憑懷疑定罪,刑訊逼供獲口供,真兇落網(wǎng)不立案,17年冤獄無人理會(huì)

易玄
2026-06-08 21:33:16
陜西高速大橋垮塌致62人死亡失蹤 通報(bào)點(diǎn)名:多環(huán)節(jié)造假!

陜西高速大橋垮塌致62人死亡失蹤 通報(bào)點(diǎn)名:多環(huán)節(jié)造假!

網(wǎng)易新聞出品
2026-06-09 18:52:05
48歲黃曉明二戰(zhàn)上戲博士成功上岸,成績表曝光

48歲黃曉明二戰(zhàn)上戲博士成功上岸,成績表曝光

悅君兮君不知
2026-06-10 13:01:32
想3打1?東沙爆發(fā)沖突,海巡署3艦一齊圍攻海警船,對(duì)峙34小時(shí)

想3打1?東沙爆發(fā)沖突,海巡署3艦一齊圍攻海警船,對(duì)峙34小時(shí)

鐵錘簡科
2026-06-09 14:06:02
丁太升回應(yīng)謝娜演唱會(huì)爭議:不太理解買票看演唱會(huì)的都是什么人

丁太升回應(yīng)謝娜演唱會(huì)爭議:不太理解買票看演唱會(huì)的都是什么人

韓小娛
2026-06-11 11:46:42
1929年,朱德得知伍若蘭犧牲,當(dāng)著毛澤東的面大哭:她是為我而死

1929年,朱德得知伍若蘭犧牲,當(dāng)著毛澤東的面大哭:她是為我而死

大運(yùn)河時(shí)空
2026-06-10 15:10:03
18.99萬!奔馳新車官宣:6月11日,正式上市

18.99萬!奔馳新車官宣:6月11日,正式上市

科技堡壘
2026-06-09 10:52:25
29分被逆轉(zhuǎn)后,來聽聽馬刺眾將怎么說!文班沮喪,福克斯拒絕認(rèn)錯(cuò)

29分被逆轉(zhuǎn)后,來聽聽馬刺眾將怎么說!文班沮喪,福克斯拒絕認(rèn)錯(cuò)

小禾的體育
2026-06-11 15:00:52
2026-06-11 15:44:49
BioArtMED
BioArtMED
BioArt旗下科普媒體
5072文章數(shù) 2468關(guān)注度
往期回顧 全部

科技要聞

淘寶、京東、拼多多、抖音、小紅書被約談

頭條要聞

媒體:29分大逆轉(zhuǎn)+補(bǔ)籃絕殺 尼克斯隊(duì)的"劇本"太神奇

頭條要聞

媒體:29分大逆轉(zhuǎn)+補(bǔ)籃絕殺 尼克斯隊(duì)的"劇本"太神奇

體育要聞

文班:付出那么多努力,卻把勝利拱手讓人

娛樂要聞

《花少8》陣容大揭秘!秒殺前一季

財(cái)經(jīng)要聞

干細(xì)胞生意:17萬一針的希望

汽車要聞

埃安i60 530寧德時(shí)代版上市限時(shí)煥新價(jià)10.36萬起

態(tài)度原創(chuàng)

房產(chǎn)
家居
本地
數(shù)碼
游戲

房產(chǎn)要聞

猛砸400億!我敢說,這才是海口最懂生活的神盤!

家居要聞

空間微調(diào) 移形換境

本地新聞

世界杯還沒開始,蘇超已經(jīng)火到爆梗

數(shù)碼要聞

AMD稱下一代Zen 6服務(wù)器CPU每機(jī)架性能可達(dá)英偉達(dá)Vera的3.3倍

《最終幻想:共鳴》內(nèi)容體量曝光 主線約30-40小時(shí)

無障礙瀏覽 進(jìn)入關(guān)懷版