无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

基因組AI模型誰更強(qiáng)?莫斯科獨(dú)立AI研究院揭開"公平擂臺"的面紗

0
分享至


這項(xiàng)由莫斯科獨(dú)立人工智能研究院與莫斯科鋼鐵合金學(xué)院聯(lián)合開展的研究,發(fā)表于2026年第43屆國際機(jī)器學(xué)習(xí)大會(ICML 2026),會議在韓國首爾舉辦,收錄于PMLR第306卷。有興趣深入了解的讀者可以通過論文編號arXiv:2606.04525v2查詢完整論文。

基因組學(xué),簡單說就是研究生物DNA密碼的學(xué)科,近年來迎來了一波人工智能的熱潮。就像自然語言處理領(lǐng)域有GPT、BERT這樣的"大模型明星",基因組學(xué)領(lǐng)域也冒出了幾十個專門讀懂DNA序列的AI模型。它們有的擅長預(yù)測基因是否會被激活,有的擅長識別DNA上的化學(xué)修飾,有的則專注于判斷一段DNA來自哪個物種。

然而問題來了——這些模型究竟誰更厲害?這個看似簡單的問題,在2026年之前竟然沒有一個可靠的答案。原因不是因?yàn)榇蠹也幌胫溃且驗(yàn)槊總€團(tuán)隊(duì)發(fā)布新模型時,都只用自己挑選的幾個測試題來展示成績,彼此之間的測試題根本對不上號。這就好比一場廚藝大賽,張廚師只展示了他的紅燒肉,李廚師只展示了她的蛋糕,王廚師只展示了他的炒青菜——你根本沒辦法說誰的廚藝最全面。

更棘手的是,不同團(tuán)隊(duì)用的評分標(biāo)準(zhǔn)也不一樣,就連同一道菜的做法也各有不同。于是"誰是最強(qiáng)基因組AI"這個問題,變成了一團(tuán)混沌,每個團(tuán)隊(duì)都能在自己劃定的圈子里宣稱自己是冠軍,卻沒有一場真正公平的大比拼。

正是為了解決這個問題,研究團(tuán)隊(duì)構(gòu)建了GENEB——一個專門用來公平比較基因組AI模型的標(biāo)準(zhǔn)化擂臺。他們把40個主流基因組AI模型拉到同一個擂臺上,用統(tǒng)一的規(guī)則,讓每個模型在100道題目上一一作答,這100道題覆蓋了13個不同的生物學(xué)領(lǐng)域。這場史無前例的大比拼,不僅給出了目前最全面的排名,更揭示了一些讓所有人都大跌眼鏡的發(fā)現(xiàn)。

一、為什么比較基因組AI這么難——混亂的"武林江湖"

在正式介紹這場擂臺賽之前,有必要先理解這個領(lǐng)域有多混亂。研究團(tuán)隊(duì)畫了一張圖,把目前所有主流基因組AI模型之間的比較關(guān)系用箭頭連了起來——箭頭代表"這篇論文把那個模型當(dāng)作對比基準(zhǔn)"。結(jié)果這張圖看起來像一張四處斷裂的蜘蛛網(wǎng),很多模型之間根本沒有箭頭相連,形成了一個個孤立的小島。

以三個頗具代表性的模型為例:DNA-GPT由斯坦福相關(guān)團(tuán)隊(duì)開發(fā),GENOMEOCEAN專注于環(huán)境宏基因組,EVO則以處理極長DNA序列見長。這三個模型各自宣稱在某些任務(wù)上表現(xiàn)出色,但由于測試體系完全不同,你根本無法直接比較它們。同一個模型,在某篇論文里被捧為突破性進(jìn)展,在另一篇論文里卻表現(xiàn)平平——這并不是因?yàn)槟P捅旧碛袉栴},而是因?yàn)闇y試環(huán)境根本不一樣。

這種混亂帶來的后果不僅是學(xué)術(shù)上的不便,更會造成資源的嚴(yán)重浪費(fèi)。如果一個生物制藥公司想為自己的基因分析流程挑選一個AI模型,面對幾十個各說各好的選項(xiàng),根本無從下手。更危險的是,一個在某個特定測試上表現(xiàn)亮眼的模型,可能在實(shí)際應(yīng)用中一塌糊涂,但因?yàn)槿狈θ姹容^,沒有人能發(fā)現(xiàn)這個陷阱。

研究團(tuán)隊(duì)用一個很形象的比喻來描述這個問題:每個模型的發(fā)布論文就像一個演員只拍了自己最好看的定妝照,但沒有人知道他在其他場景下長什么樣。GENEB的使命,就是讓所有人都站在同一個打光均勻的攝影棚里,同時拍照,讓觀眾能真正比較他們的面貌。

二、搭建公平擂臺——GENEB是怎么設(shè)計的

GENEB的核心設(shè)計理念可以用"凍結(jié)、探針、統(tǒng)一"六個字來概括。

所謂"凍結(jié)",是指在測試過程中,研究團(tuán)隊(duì)不允許模型針對每道題目進(jìn)行專門訓(xùn)練。每個模型就像一個已經(jīng)畢業(yè)的學(xué)生,帶著它在預(yù)訓(xùn)練階段學(xué)到的所有知識來參加考試,考試期間不能臨時補(bǔ)課。這樣做的好處是,測試的是模型真正內(nèi)化的能力,而不是針對某道題目死記硬背的能力。

所謂"探針",是指研究團(tuán)隊(duì)在每個凍結(jié)模型的輸出上套了一個極其簡單的分類器——本質(zhì)上就是一條直線。這條直線的任務(wù)是根據(jù)模型提取的DNA特征來做出判斷。如果模型確實(shí)學(xué)到了有用的DNA知識,這條直線就能表現(xiàn)良好;如果模型的學(xué)習(xí)是無效的,再好的直線也救不了它。這種方法能干凈地隔離出"模型本身的表達(dá)能力",排除任務(wù)特定訓(xùn)練帶來的干擾。

所謂"統(tǒng)一",是指所有40個模型都經(jīng)歷完全一樣的測試流程:同樣的100道題、同樣的評分標(biāo)準(zhǔn)、同樣的隨機(jī)種子(為了確保結(jié)果可重復(fù),研究團(tuán)隊(duì)用了五個固定的隨機(jī)種子取平均值),甚至同樣的數(shù)據(jù)處理方式。

評分標(biāo)準(zhǔn)選用的是馬修斯相關(guān)系數(shù),簡稱MCC。普通人可以把它理解成一把更公平的尺子——當(dāng)考題里正確答案和錯誤答案的數(shù)量差距很大時,普通準(zhǔn)確率會產(chǎn)生誤導(dǎo),而MCC能更真實(shí)地反映模型的判斷能力。

100道題目被分成了13個大類,覆蓋了基因組學(xué)中最重要的問題領(lǐng)域。這13類包括:組蛋白修飾預(yù)測(DNA被特定蛋白質(zhì)"打了標(biāo)記"之后基因表達(dá)會怎么變)、啟動子識別(找到基因的"開關(guān)位置")、增強(qiáng)子預(yù)測(找到讓基因開關(guān)更靈敏的"調(diào)節(jié)旋鈕")、DNA甲基化(DNA上的一種化學(xué)修飾,與細(xì)胞記憶相關(guān))、剪接位點(diǎn)檢測(基因在被"翻譯"前需要剪掉不用的部分,剪在哪里至關(guān)重要)、長非編碼RNA分類(一類不編碼蛋白質(zhì)但有重要功能的RNA)、小鼠增強(qiáng)子預(yù)測、轉(zhuǎn)錄因子結(jié)合預(yù)測、物種分類、調(diào)控元件預(yù)測、病毒與噬菌體檢測、編碼與非編碼序列區(qū)分,以及染色質(zhì)可及性預(yù)測。

此外,研究團(tuán)隊(duì)還設(shè)計了三種測試模式:全數(shù)據(jù)模式(模型有足夠多的標(biāo)注樣本可以參考)、10樣本模式(每個類別只給10個標(biāo)注樣本,模擬真實(shí)世界中標(biāo)注數(shù)據(jù)稀缺的情況)、1樣本模式(極端情況,每個類別只有1個參考樣本)。這三種模式結(jié)合起來,能全面考察模型在不同數(shù)據(jù)條件下的表現(xiàn)。

三、40位選手登場——這些模型的背景各不相同

這40個參賽模型來自全球各地的頂尖研究團(tuán)隊(duì),它們的"出身"千差萬別,就像來自不同門派的武林高手。

從模型的"讀字方式"(即分詞策略)來看,有的模型把DNA一個堿基一個堿基地讀(單核苷酸方式),就像逐字閱讀;有的把相鄰幾個堿基合并成一個單位來讀(k-mer方式),類似于閱讀時按音節(jié)劃分;還有的借鑒了自然語言處理中的"字節(jié)對編碼"技術(shù),讓模型自己學(xué)習(xí)如何切分DNA序列。

從模型的"學(xué)習(xí)框架"(即架構(gòu))來看,有的是Transformer編碼器,擅長雙向理解序列上下文;有的是Transformer解碼器,擅長從左到右生成式地理解序列;有的是狀態(tài)空間模型(Mamba),設(shè)計上更擅長處理超長序列;還有的是混合了多種機(jī)制的新型架構(gòu)。

從模型的"讀過什么書"(即預(yù)訓(xùn)練數(shù)據(jù))來看,差異更是懸殊。有的只讀了人類基因組,有的讀了幾十種不同物種的基因組,有的專門讀了植物基因組,有的讀了微生物基因組,甚至有一個讀的全是原核生物(細(xì)菌等)的基因組。

參賽模型的體量也從不到200萬參數(shù)的"迷你選手"橫跨到70億參數(shù)的"巨無霸",足足覆蓋了三個數(shù)量級的差距。這種多樣性使得比較結(jié)果更有參考價值,也為后續(xù)的深入分析提供了豐富的素材。

值得一提的是,研究團(tuán)隊(duì)最初調(diào)查了53個模型,最終只有40個能參加比賽,另外13個因?yàn)楦鞣N原因被排除:有的因?yàn)榇a有嚴(yán)重bug無法運(yùn)行,有的因?yàn)闄?quán)重文件根本沒有公開,有的需要特殊的超級計算硬件,還有一個(ChatNT)被排除是因?yàn)樗皇橇硪粋€模型的"外殼",并不是獨(dú)立的基礎(chǔ)模型。這個"排除名單"本身就說明了當(dāng)前基因組AI領(lǐng)域在可重復(fù)性上存在嚴(yán)重問題——四分之一的模型連能否運(yùn)行都成問題。

四、大比拼的驚人發(fā)現(xiàn)——"塊頭大"并不等于"本事大"

比賽結(jié)果出來后,最讓人意外的發(fā)現(xiàn)是:參數(shù)數(shù)量多并不能保證成績好。

在總體排名上,模型的參數(shù)量和綜合成績之間確實(shí)存在正相關(guān)關(guān)系——統(tǒng)計學(xué)上用斯皮爾曼相關(guān)系數(shù)來衡量,數(shù)值約為0.565,屬于中等強(qiáng)度的相關(guān)。換句話說,更大的模型平均而言確實(shí)表現(xiàn)更好,但這個規(guī)律有大量的例外。

研究團(tuán)隊(duì)仔細(xì)統(tǒng)計后發(fā)現(xiàn),在36個"同領(lǐng)域"模型(排除了那些專門訓(xùn)練在與測試任務(wù)完全不相關(guān)的數(shù)據(jù)上的模型)中,竟然有31次出現(xiàn)了"小模型完勝大模型"的情況,且"小"的定義是至少小5倍。

最戲劇性的例子是MUTBERT和EVO。MUTBERT是一個只有8600萬參數(shù)的小模型,專門在人類基因組數(shù)據(jù)上訓(xùn)練,讀取DNA的方式是逐個堿基;EVO則是一個整整70億參數(shù)的龐然大物,體量是MUTBERT的81倍。然而在GENEB的綜合測試中,MUTBERT的成績比EVO高出了整整0.231分(以MCC為單位)。這就好比一個在家鄉(xiāng)廚師培訓(xùn)班結(jié)業(yè)的學(xué)徒,在綜合廚藝大賽上完勝了一個在米其林餐廳工作了二十年的大廚——原因并不是那個大廚不會做飯,而是那位大廚從來只做法餐,突然被要求做中國菜。

EVO的問題正是如此:它的預(yù)訓(xùn)練數(shù)據(jù)幾乎全是原核生物(細(xì)菌等微生物)的基因組,而GENEB的13個測試類別中,有12個評估的是真核生物(包括人類、植物、動物)的基因組任務(wù)。把一個專門學(xué)法語的學(xué)生拉來考日語,考砸了很正常。

這個發(fā)現(xiàn)的深刻意義在于:簡單地用"參數(shù)量多少"來選擇基因組AI模型是一個危險的策略。如果你在做的是人類基因組相關(guān)的研究,一個800萬參數(shù)但針對性訓(xùn)練的小模型,可能遠(yuǎn)比一個700億參數(shù)的通用大模型更有用。

五、架構(gòu)之爭——注意力機(jī)制勝了,但也有例外

在所有模型架構(gòu)的比較中,研究團(tuán)隊(duì)特別關(guān)心一個問題:以Transformer為代表的"注意力機(jī)制"架構(gòu),和近年來被寄予厚望的"狀態(tài)空間模型"(Mamba架構(gòu))架構(gòu),究竟誰更強(qiáng)?

為了公平比較,研究團(tuán)隊(duì)只對那些在相同數(shù)據(jù)集上訓(xùn)練、使用相同分詞策略的模型進(jìn)行對比。在這種受控條件下,Transformer類模型展現(xiàn)出了全面的優(yōu)勢。

具體來看,OMNI-DNA-1B(Transformer解碼器架構(gòu),10億參數(shù))與eccDNAMamba(Mamba架構(gòu),同樣10億參數(shù))相比,在相同的多物種數(shù)據(jù)集和BPE分詞下,前者的綜合得分高出后者整整0.149分。類似地,GENOMEOCEAN-500M(Transformer解碼器)也以0.131分的優(yōu)勢擊敗eccDNAMamba。

但有一個非常值得關(guān)注的例外:在染色質(zhì)可及性預(yù)測這個細(xì)分領(lǐng)域,Mamba架構(gòu)的表現(xiàn)異常出色。eccDNAMamba在這個類別上的得分竟然比GENOMEOCEAN-500M高出了0.124分。另一個Mamba相關(guān)的混合架構(gòu)模型JanusDNA-72-W,在染色質(zhì)可及性上的表現(xiàn)也比它自己的平均水平高出了整整0.200分——這說明某些Mamba架構(gòu)可能天然對染色質(zhì)可及性任務(wù)有獨(dú)特的適應(yīng)性。

更令人玩味的是,在Transformer內(nèi)部,編碼器和解碼器的優(yōu)劣并非固定不變。在組蛋白修飾預(yù)測上,Transformer解碼器表現(xiàn)更好;在TF結(jié)合預(yù)測上,Transformer編碼器占優(yōu);而在啟動子識別上,編碼器又勝了一籌。這告訴我們,架構(gòu)的選擇必須結(jié)合具體任務(wù),沒有放之四海而皆準(zhǔn)的最優(yōu)架構(gòu)。

六、分詞方式的影響——沒有絕對贏家

分詞方式(即如何把連續(xù)的DNA堿基序列切分成模型可以處理的單元)是另一個重要變量。研究團(tuán)隊(duì)通過12對受控對比,專門研究了分詞策略的影響。

結(jié)論出人意料:沒有任何一種分詞方式能在所有情況下碾壓其他方式。BPE方式在多物種數(shù)據(jù)+Transformer解碼器的組合下平均比k-mer方式好0.020分,但這個優(yōu)勢在不同模型對之間差異很大,甚至有一對出現(xiàn)了BPE反而不如k-mer的情況。在Transformer編碼器配合多物種數(shù)據(jù)的組合下,BPE和k-mer幾乎打平,差距在0.006分以內(nèi)。

單核苷酸分詞(每個堿基單獨(dú)處理)在人類基因組數(shù)據(jù)+Transformer編碼器的組合下表現(xiàn)出色——MUTBERT(單核苷酸)比同等條件下的GENA-LM(BPE)高出0.033分,比GROVER(BPE)高出0.038分。但在病毒/噬菌體檢測任務(wù)上,情況完全相反,BPE分詞的GROVER比單核苷酸的MUTBERT高出了0.209分。

這個發(fā)現(xiàn)意味著,分詞方式的選擇不能脫離架構(gòu)和訓(xùn)練數(shù)據(jù)單獨(dú)討論。三者之間存在復(fù)雜的交互關(guān)系,必須整體考量。

七、預(yù)訓(xùn)練數(shù)據(jù)是關(guān)鍵——"讀什么書"比"讀多少書"更重要

預(yù)訓(xùn)練數(shù)據(jù)對模型能力的影響,是GENEB所有發(fā)現(xiàn)中最一致、最可靠的規(guī)律。

研究團(tuán)隊(duì)通過精心設(shè)計的受控對比(架構(gòu)和分詞完全相同,只改變預(yù)訓(xùn)練數(shù)據(jù)類型)發(fā)現(xiàn),多物種預(yù)訓(xùn)練數(shù)據(jù)平均而言比純?nèi)祟惢蚪M數(shù)據(jù)好0.012分。雖然這個平均差距不大,但在特定任務(wù)類別上差距極為顯著。在染色質(zhì)可及性預(yù)測上,多物種預(yù)訓(xùn)練的優(yōu)勢體現(xiàn)在6對中的全部6對,平均領(lǐng)先0.062分。在剪接位點(diǎn)檢測上,多物種預(yù)訓(xùn)練領(lǐng)先0.038分;在物種分類上,領(lǐng)先0.031分;在小鼠增強(qiáng)子預(yù)測上,領(lǐng)先0.023分;在長非編碼RNA分類上,領(lǐng)先0.022分。

然而,在病毒/噬菌體檢測任務(wù)上,情況發(fā)生了逆轉(zhuǎn)——人類基因組預(yù)訓(xùn)練的模型反而平均領(lǐng)先0.034分。研究團(tuán)隊(duì)推測,這是因?yàn)樵谌祟惢蚪M數(shù)據(jù)中包含了大量與人類相關(guān)的病毒序列(如內(nèi)源性逆轉(zhuǎn)錄病毒),這些數(shù)據(jù)恰好對病毒檢測任務(wù)有幫助。

更戲劇性的對比出現(xiàn)在真核多物種數(shù)據(jù)和微生物多物種數(shù)據(jù)之間。以相同架構(gòu)和分詞為條件,在真核生物基因組上訓(xùn)練的模型,綜合成績比專注于微生物的DNABERT-S高出約0.084分。差距最大的任務(wù)是剪接位點(diǎn)檢測,領(lǐng)先了整整0.222分——這完全符合生物學(xué)預(yù)期,因?yàn)榧?xì)菌根本沒有剪接機(jī)制,在細(xì)菌基因組上訓(xùn)練的模型當(dāng)然無法理解真核生物的剪接過程。

另一個重要發(fā)現(xiàn)是,專注于真核生物基因(而非整個基因組)的預(yù)訓(xùn)練策略,在受控比較中比廣泛多物種預(yù)訓(xùn)練領(lǐng)先約0.063分,在染色質(zhì)可及性(+0.191)、長非編碼RNA分類(+0.142)和小鼠增強(qiáng)子預(yù)測(+0.124)上差距最為明顯。當(dāng)然,這個結(jié)論只基于一對受控對比,需要謹(jǐn)慎解讀。

八、少樣本測試揭示的反常現(xiàn)象——排名"大洗牌"

當(dāng)測試條件從全數(shù)據(jù)降到10個樣本或1個樣本時,排行榜發(fā)生了劇烈的震動。

在全數(shù)據(jù)條件下,40個模型的平均MCC得分為0.488。到了10樣本條件,這個數(shù)字降到0.253,下降了48%。到1樣本條件,更是跌至0.106,與全數(shù)據(jù)相比損失了78%之多。

各個任務(wù)類別對數(shù)據(jù)稀缺的耐受程度差異極大。啟動子識別任務(wù)在1樣本條件下仍能保留38.8%的全數(shù)據(jù)性能,物種分類保留了30.1%——這兩類任務(wù)依賴的是序列組成的整體統(tǒng)計特征,少數(shù)樣本就能捕捉到關(guān)鍵信號。相比之下,有三個類別在1樣本條件下基本坍塌:病毒/噬菌體檢測損失了93.5%,DNA甲基化預(yù)測損失了93.2%,長非編碼RNA分類損失了91.3%。

更反常的發(fā)現(xiàn)是:在全數(shù)據(jù)條件下成績最好的那些大模型,在少樣本條件下反而表現(xiàn)出最大的絕對下滑。GENERATOR-EUKARYOTE-3B在全數(shù)據(jù)下綜合得分為0.605,但到10樣本時直接掉到0.116,下滑了0.489分;LUCAONE下滑了0.461分;NT-2.5B-MS下滑了0.456分。

反過來,那些在全數(shù)據(jù)下表現(xiàn)很差的小模型,在少樣本條件下的絕對下滑幅度反而很小。但研究團(tuán)隊(duì)明確指出,這種"穩(wěn)定"是假象——因?yàn)檫@些模型本來成績就很低,根本沒有多少可以繼續(xù)下跌的空間,就像一個本來就在地板上的人,摔跤時下跌的距離自然比站在高處的人少。

這個發(fā)現(xiàn)對實(shí)際應(yīng)用有重要意義:如果你的研究場景是數(shù)據(jù)極度稀缺的,全數(shù)據(jù)下的排行榜完全不能作為選模型的參考,必須專門做少樣本評估。研究團(tuán)隊(duì)發(fā)現(xiàn),在13個任務(wù)類別中,有8個類別的最佳模型在從全數(shù)據(jù)換到10樣本后發(fā)生了更換。

九、"硬骨頭"任務(wù)——這些問題當(dāng)前AI還啃不動

GENEB的100道題中,有28道題的平均MCC分?jǐn)?shù)低于0.35,意味著目前所有模型在這些任務(wù)上的表現(xiàn)都離實(shí)用還差得很遠(yuǎn)。

最難啃的硬骨頭是4mC甲基化預(yù)測(4mC是DNA上的一種特殊化學(xué)修飾,在細(xì)菌中較常見)。針對三種特定細(xì)菌的4mC預(yù)測任務(wù),平均得分分別只有0.061(新型細(xì)菌G. subterraneus)、0.103(大腸桿菌)和0.107(另一種細(xì)菌G. pickeringii)。即便是排行榜第一的大模型,在這些任務(wù)上的得分也只有0.206到0.477之間——仍然不夠好。

植物長非編碼RNA分類同樣是重災(zāi)區(qū),番茄、大豆、小麥等植物的lncRNA分類任務(wù)平均得分都在0.221到0.238之間。

更關(guān)鍵的是,簡單增大模型規(guī)模并不能解決這些硬骨頭任務(wù)。以DNA甲基化為例,模型規(guī)模和成績之間的相關(guān)系數(shù)只有0.347,低于基準(zhǔn)水平,而且沒有任何一個參數(shù)量低于3億的模型能在這個類別超過0.34分的得分線。研究團(tuán)隊(duì)判斷,這類任務(wù)的突破需要從根本上改進(jìn)預(yù)訓(xùn)練數(shù)據(jù)的設(shè)計和模型的歸納偏置,光靠堆砌參數(shù)是走不通的。

十、高分散任務(wù)的啟示——數(shù)據(jù)來源決定命運(yùn)

研究團(tuán)隊(duì)還專門分析了那些模型之間分歧最大的任務(wù)(標(biāo)準(zhǔn)差超過0.12的13個任務(wù)),把每個任務(wù)的前三名和后三名的模型特征匯總起來,結(jié)果圖案極為清晰。

在前三名的39個席位中,多物種預(yù)訓(xùn)練的模型占了20席,真核基因預(yù)訓(xùn)練的模型占了12席,兩者合計占到了32席,高達(dá)82%。與此同時,純?nèi)祟惢蚪M預(yù)訓(xùn)練的模型占據(jù)了后三名39個席位中的29席,占比高達(dá)74%,幾乎全面聚集在底部。

從架構(gòu)角度看,Transformer解碼器占了前三名的18席,Transformer編碼器占了15席,兩者合計33席,占比85%。而Mamba架構(gòu)(17席)、混合Mamba-MoE架構(gòu)(7席)和StripedHyena架構(gòu)(6席)則主導(dǎo)了后三名。

這個模式傳遞了一個明確信號:在那些最能區(qū)分模型好壞的任務(wù)上,決定成敗的主要因素是預(yù)訓(xùn)練數(shù)據(jù)的覆蓋范圍和架構(gòu)選擇,而不是模型有多大。

十一、實(shí)用選模指南——不同任務(wù)應(yīng)該選哪個模型

基于所有的測試結(jié)果,研究團(tuán)隊(duì)給出了針對不同任務(wù)的實(shí)用選模建議,這部分是論文中最有實(shí)踐價值的內(nèi)容之一。

對于預(yù)算有限、需要輕量級模型的場景,MUTBERT(8600萬參數(shù),Transformer編碼器,單核苷酸分詞,人類基因組預(yù)訓(xùn)練)是一個出色的選擇。它在13個類別中的8個類別里位居參數(shù)量不超過1億的模型第一,綜合得分達(dá)到0.529,是所有小模型中最強(qiáng)的。

對于組蛋白修飾預(yù)測,GENOMEOCEAN-4B(40億參數(shù),綜合得分0.545)和GENOMEOCEAN-500M(5億參數(shù),得分0.537)是領(lǐng)頭羊,且這個類別與模型規(guī)模的相關(guān)性最高,是整個測試中擴(kuò)展規(guī)律最穩(wěn)定的一個類別。

對于TF結(jié)合預(yù)測和調(diào)控元件預(yù)測,CNN-Transformer混合架構(gòu)的ENFORMER(2.5億參數(shù),專門在人鼠表觀基因組譜上訓(xùn)練)以0.698分穩(wěn)居第一,遠(yuǎn)超同類。它的參數(shù)量僅250M,卻擊敗了所有更大的模型。

對于病毒/噬菌體檢測,GENOMEOCEAN-4B以0.697分領(lǐng)先,GENOMEOCEAN-500M以0.657分緊隨其后,兩者遠(yuǎn)超第三名。這個類別明顯偏向于在元基因組數(shù)據(jù)(包含大量病毒序列的環(huán)境樣本)上訓(xùn)練的模型。

對于植物長非編碼RNA分類,LUCAONE(20億參數(shù),統(tǒng)一核酸+蛋白質(zhì)預(yù)訓(xùn)練)以0.508分排名第一,盡管它并非專門針對植物訓(xùn)練。最重要的是,在這個任務(wù)上,人類基因組預(yù)訓(xùn)練的模型普遍表現(xiàn)很差,平均只有0.157分,而植物專用模型能達(dá)到0.347分。

對于DNA甲基化預(yù)測,GENERATOR-EUKARYOTE-3B以0.440分排名第一,但這個類別整體難度極高,1樣本條件下沒有任何模型的得分能超過0.04——基本等同于隨機(jī)猜測。

對于染色質(zhì)可及性預(yù)測,GENERATOR-EUKARYOTE-3B(0.728)和OMNI-DNA-1B(0.714)名列前茅,但值得一提的是,即便是只有198萬參數(shù)的JanusDNA-72-W也能達(dá)到0.599分,在這個類別排名第14,這在整個測試中是最驚人的"以小勝大"案例之一。

十二、綜合排行榜的不穩(wěn)定性——一張表解決不了所有問題

研究團(tuán)隊(duì)最終用熱力圖形式展示了所有40個模型在13個類別上的表現(xiàn),這張圖是整篇論文中最有說服力的一張。每個格子代表一個模型在一個類別上的平均成績,顏色從紅色(差)到綠色(好)過渡。

這張圖最直觀的信息是:沒有任何一個模型能在所有類別上都呈現(xiàn)綠色。每個模型都有自己的強(qiáng)項(xiàng)和弱項(xiàng),排行榜的前幾名也不例外。ENFORMER在調(diào)控元件預(yù)測和TF結(jié)合上是綠色的,但在DNA甲基化和長非編碼RNA上是紅色的。GENOMEOCEAN系列在病毒/噬菌體任務(wù)上最亮眼,但在某些調(diào)控任務(wù)上就顯得普通。植物專用模型在長非編碼RNA上是綠色的,但在多數(shù)其他類別上表現(xiàn)平平。

研究團(tuán)隊(duì)對比了綜合得分的兩種計算方式:一種是對所有100道題取簡單平均(微平均),另一種是先對13個類別各自取平均再取總平均(宏平均)。兩種方式得出的模型排名高度一致,斯皮爾曼相關(guān)系數(shù)高達(dá)0.988,說明綜合排行榜是穩(wěn)定的。但在個別模型上,兩種算法給出了差異不小的分?jǐn)?shù)——差異最大的往往是那些"偏科"嚴(yán)重的模型,如EVO(在宏平均下?lián)p失了0.044分,因?yàn)樗?2個真核類別上拖了后腿)。

這個發(fā)現(xiàn)對研究團(tuán)隊(duì)的核心論點(diǎn)形成了完美印證:綜合排行榜可以作為參考,但絕不應(yīng)該作為選擇模型的唯一依據(jù)。真正理性的選擇必須基于你關(guān)心的具體任務(wù)類別,去查看該類別的專項(xiàng)成績。

說到底,GENEB這個項(xiàng)目最大的貢獻(xiàn)不只是給出了一個排名,而是徹底改變了這個領(lǐng)域評估AI模型的方式。就像一個混亂已久的武林江湖,終于有了一套公認(rèn)的比武規(guī)則。

歸根結(jié)底,"更大的模型一定更好"的直覺在基因組AI領(lǐng)域并不成立。一個在正確數(shù)據(jù)上訓(xùn)練的小模型,往往能在實(shí)際任務(wù)中輕松擊敗一個在錯誤數(shù)據(jù)上訓(xùn)練的大模型。數(shù)據(jù)的覆蓋范圍、預(yù)訓(xùn)練對象與下游任務(wù)的生物學(xué)匹配程度,才是決定模型實(shí)際價值的第一要素。

而現(xiàn)實(shí)中讓人遺憾的是,相當(dāng)一部分研究團(tuán)隊(duì)在發(fā)布新模型時,既沒有公開完整的代碼,也沒有穩(wěn)定可用的權(quán)重文件,甚至連運(yùn)行所需的硬件要求都語焉不詳。GENEB調(diào)查的53個模型中,有13個(接近四分之一)因?yàn)榭芍貜?fù)性問題無法參與測試。這提醒我們,在熱情追逐更大更強(qiáng)的模型之外,可重復(fù)性和開放性同樣是基礎(chǔ)科學(xué)應(yīng)該堅守的底線。

如果你正在從事基因組相關(guān)的研究,或者對AI如何幫助人類讀懂生命密碼感興趣,強(qiáng)烈建議去看看這篇論文的完整附錄,那里有每個模型在每道題上的詳細(xì)成績,是選模型時最可靠的參考手冊。論文編號是arXiv:2606.04525v2,研究團(tuán)隊(duì)表示GENEB的完整評測結(jié)果將在Hugging Face平臺公開發(fā)布,屆時研究社區(qū)可以隨時查閱和復(fù)現(xiàn)。

Q&A

Q1:GENEB和其他基因組AI評測基準(zhǔn)有什么區(qū)別?

A:GENEB最核心的區(qū)別是覆蓋范圍和統(tǒng)一性。此前的基準(zhǔn)如Nucleotide Transformer任務(wù)、GUE、BEND各自只測試少數(shù)幾個模型,且評測規(guī)則不統(tǒng)一。GENEB將40個模型同時放在100道題上用完全一樣的流程測試,是目前規(guī)模最大、最系統(tǒng)的基因組AI橫向比較研究,能真正揭示模型間的真實(shí)差異。

Q2:MUTBERT為什么能以8600萬參數(shù)擊敗70億參數(shù)的EVO?

A:根本原因是預(yù)訓(xùn)練數(shù)據(jù)的領(lǐng)域錯配。EVO幾乎只在原核生物(細(xì)菌等)的基因組上訓(xùn)練,而GENEB的12個核心類別評估的是真核生物任務(wù)。原核生物沒有剪接機(jī)制、甲基化機(jī)制差異極大,EVO學(xué)到的知識對這些任務(wù)幫助有限,就像讓只會法語的廚師去做中餐,技藝再高也用不上。MUTBERT雖小,但專注于人類基因組,領(lǐng)域匹配度高得多。

Q3:少樣本模式下基因組AI模型的排名為什么和全數(shù)據(jù)模式差這么多?

A:少樣本條件(尤其是每類只有1個或10個樣本)下,模型的排名洗牌非常劇烈,13個類別中有8個的冠軍發(fā)生了更換。主要原因是不同任務(wù)的信號特征可學(xué)習(xí)性差異很大:啟動子和物種分類依賴整體序列統(tǒng)計特征,少數(shù)樣本夠用;而DNA甲基化和病毒檢測依賴精細(xì)的局部模式,少量樣本根本無法提供足夠信息。因此,如果你的實(shí)驗(yàn)場景數(shù)據(jù)量有限,必須單獨(dú)做少樣本評測,不能依賴全數(shù)據(jù)排行榜。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

深析古今
2026-06-14 15:32:00
美國頂級戰(zhàn)略家一針見血,中國的這場危機(jī)不解決,未來后果很嚴(yán)重

美國頂級戰(zhàn)略家一針見血,中國的這場危機(jī)不解決,未來后果很嚴(yán)重

荷蘭豆愛健康
2026-06-14 13:42:59
伊朗:霍爾木茲海峽,全面關(guān)閉!任何通行船只都將被“果斷處置”!美聯(lián)儲新掌門首秀在即,6月利率不變概率飆至98.5%!

伊朗:霍爾木茲海峽,全面關(guān)閉!任何通行船只都將被“果斷處置”!美聯(lián)儲新掌門首秀在即,6月利率不變概率飆至98.5%!

金融界
2026-06-14 13:43:17
不出意外,下半年開始,寬帶費(fèi)、有線電視費(fèi)將迎來行業(yè)新一輪洗牌

不出意外,下半年開始,寬帶費(fèi)、有線電視費(fèi)將迎來行業(yè)新一輪洗牌

民生格物
2026-06-14 13:14:05
總決賽砍90+30+10歷史唯一!馬刺丟冠,唯獨(dú)他一人可以昂首離開

總決賽砍90+30+10歷史唯一!馬刺丟冠,唯獨(dú)他一人可以昂首離開

你的籃球頻道
2026-06-14 12:44:04
保時捷撞上兩車后,火速逃離現(xiàn)場!北京警方:姐弟兩人,一個刑拘一個拘留

保時捷撞上兩車后,火速逃離現(xiàn)場!北京警方:姐弟兩人,一個刑拘一個拘留

都市快報橙柿互動
2026-06-14 00:39:15
12000億光模塊巨頭,回應(yīng)業(yè)績暴雷傳聞

12000億光模塊巨頭,回應(yīng)業(yè)績暴雷傳聞

21世紀(jì)經(jīng)濟(jì)報道
2026-06-14 14:12:59
中紀(jì)委怒批:公務(wù)員也是人,正常生活不應(yīng)問責(zé)處理!

中紀(jì)委怒批:公務(wù)員也是人,正常生活不應(yīng)問責(zé)處理!

細(xì)說職場
2026-06-13 12:51:02
爭議拉滿!迪麗熱巴手機(jī)殼用詞露骨惹網(wǎng)友吐槽

爭議拉滿!迪麗熱巴手機(jī)殼用詞露骨惹網(wǎng)友吐槽

暖心萌阿菇?jīng)?/span>
2026-06-14 14:57:11
世界杯官方社媒:蘇格蘭1998年以來首次進(jìn)球

世界杯官方社媒:蘇格蘭1998年以來首次進(jìn)球

懂球帝
2026-06-14 10:31:36
包工頭退出舞臺!住建委:取消勞務(wù)分包!全面實(shí)現(xiàn)自有工人施工!國資委:建筑央企建立自有工人隊(duì)伍

包工頭退出舞臺!住建委:取消勞務(wù)分包!全面實(shí)現(xiàn)自有工人施工!國資委:建筑央企建立自有工人隊(duì)伍

新浪財經(jīng)
2026-06-14 07:41:37
45歲安以軒復(fù)出,好友透露其近況:沒有工作和任何收入,靠以往積蓄投資理財,獨(dú)自照顧兩個孩子

45歲安以軒復(fù)出,好友透露其近況:沒有工作和任何收入,靠以往積蓄投資理財,獨(dú)自照顧兩個孩子

無比
2026-06-13 20:42:09
美國隊(duì)長又帥回來了,一次失敗的植發(fā),毀了他兩年形象

美國隊(duì)長又帥回來了,一次失敗的植發(fā),毀了他兩年形象

替補(bǔ)席懂王
2026-06-14 11:43:01
崩潰!6萬美術(shù)集訓(xùn)班逼哭單親媽媽,美術(shù)老師瘋狂對女兒話術(shù)洗腦

崩潰!6萬美術(shù)集訓(xùn)班逼哭單親媽媽,美術(shù)老師瘋狂對女兒話術(shù)洗腦

火山詩話
2026-06-14 05:11:04
中央定調(diào):事業(yè)單位這三類人員不允許彈性延遲退休,到齡就得退休

中央定調(diào):事業(yè)單位這三類人員不允許彈性延遲退休,到齡就得退休

職場資深秘書
2026-06-14 09:25:33
日媒:韓國決定申請加入CPTPP

日媒:韓國決定申請加入CPTPP

參考消息
2026-06-13 12:18:28
美聯(lián)儲,重磅來襲!加息,傳來大消息!

美聯(lián)儲,重磅來襲!加息,傳來大消息!

證券時報
2026-06-14 16:50:07
雷軍犯天條了,竟然遭到整個中國家電行業(yè)集體圍剿。

雷軍犯天條了,竟然遭到整個中國家電行業(yè)集體圍剿。

流蘇晚晴
2026-06-12 13:02:17
張雪奪第六冠,日媒集體破防:在三缸機(jī)領(lǐng)域,中國已經(jīng)反超了日本

張雪奪第六冠,日媒集體破防:在三缸機(jī)領(lǐng)域,中國已經(jīng)反超了日本

林子說事
2026-06-14 14:36:43
男童失蹤96小時!救援隊(duì)曝致命疑點(diǎn),家屬哭喊:最怕的事要來了

男童失蹤96小時!救援隊(duì)曝致命疑點(diǎn),家屬哭喊:最怕的事要來了

小陸搞笑日常
2026-06-14 15:13:09
2026-06-14 19:00:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8771文章數(shù) 565關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報信

頭條要聞

村民砍掉"孤獨(dú)樹":砍樹前一天跟紅裙女子發(fā)生沖突

頭條要聞

村民砍掉"孤獨(dú)樹":砍樹前一天跟紅裙女子發(fā)生沖突

體育要聞

8年8隊(duì)奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財經(jīng)要聞

金價跌至900元關(guān)口,大媽又來抄底了!

汽車要聞

綜合續(xù)航超1600km/零百加速4秒級 2027款星途ES預(yù)售18.99萬起

態(tài)度原創(chuàng)

房產(chǎn)
健康
游戲
數(shù)碼
公開課

房產(chǎn)要聞

海南最賺錢行業(yè)曝光!最快4年半,海口全款買三房!

老人、小孩、孕婦,吃粽子有啥風(fēng)險

《殺戮尖塔》UP主承認(rèn)作弊!并承諾退回禮物重打挑戰(zhàn)

數(shù)碼要聞

Meta向旗下Quest 2/3/Pro頭顯全面推送新版Navigator界面

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版