基因組AI模型誰更強(qiáng)？莫斯科獨(dú)立AI研究院揭開"公平擂臺"的面紗

2026-06-12 17:12:06　來源: 科技行者

北京舉報

分享至

這項(xiàng)由莫斯科獨(dú)立人工智能研究院與莫斯科鋼鐵合金學(xué)院聯(lián)合開展的研究，發(fā)表于2026年第43屆國際機(jī)器學(xué)習(xí)大會（ICML 2026），會議在韓國首爾舉辦，收錄于PMLR第306卷。有興趣深入了解的讀者可以通過論文編號arXiv:2606.04525v2查詢完整論文。

基因組學(xué)，簡單說就是研究生物DNA密碼的學(xué)科，近年來迎來了一波人工智能的熱潮。就像自然語言處理領(lǐng)域有GPT、BERT這樣的"大模型明星"，基因組學(xué)領(lǐng)域也冒出了幾十個專門讀懂DNA序列的AI模型。它們有的擅長預(yù)測基因是否會被激活，有的擅長識別DNA上的化學(xué)修飾，有的則專注于判斷一段DNA來自哪個物種。

然而問題來了——這些模型究竟誰更厲害？這個看似簡單的問題，在2026年之前竟然沒有一個可靠的答案。原因不是因?yàn)榇蠹也幌胫溃且驗(yàn)槊總€團(tuán)隊(duì)發(fā)布新模型時，都只用自己挑選的幾個測試題來展示成績，彼此之間的測試題根本對不上號。這就好比一場廚藝大賽，張廚師只展示了他的紅燒肉，李廚師只展示了她的蛋糕，王廚師只展示了他的炒青菜——你根本沒辦法說誰的廚藝最全面。

更棘手的是，不同團(tuán)隊(duì)用的評分標(biāo)準(zhǔn)也不一樣，就連同一道菜的做法也各有不同。于是"誰是最強(qiáng)基因組AI"這個問題，變成了一團(tuán)混沌，每個團(tuán)隊(duì)都能在自己劃定的圈子里宣稱自己是冠軍，卻沒有一場真正公平的大比拼。

正是為了解決這個問題，研究團(tuán)隊(duì)構(gòu)建了GENEB——一個專門用來公平比較基因組AI模型的標(biāo)準(zhǔn)化擂臺。他們把40個主流基因組AI模型拉到同一個擂臺上，用統(tǒng)一的規(guī)則，讓每個模型在100道題目上一一作答，這100道題覆蓋了13個不同的生物學(xué)領(lǐng)域。這場史無前例的大比拼，不僅給出了目前最全面的排名，更揭示了一些讓所有人都大跌眼鏡的發(fā)現(xiàn)。

一、為什么比較基因組AI這么難——混亂的"武林江湖"

在正式介紹這場擂臺賽之前，有必要先理解這個領(lǐng)域有多混亂。研究團(tuán)隊(duì)畫了一張圖，把目前所有主流基因組AI模型之間的比較關(guān)系用箭頭連了起來——箭頭代表"這篇論文把那個模型當(dāng)作對比基準(zhǔn)"。結(jié)果這張圖看起來像一張四處斷裂的蜘蛛網(wǎng)，很多模型之間根本沒有箭頭相連，形成了一個個孤立的小島。

以三個頗具代表性的模型為例：DNA-GPT由斯坦福相關(guān)團(tuán)隊(duì)開發(fā)，GENOMEOCEAN專注于環(huán)境宏基因組，EVO則以處理極長DNA序列見長。這三個模型各自宣稱在某些任務(wù)上表現(xiàn)出色，但由于測試體系完全不同，你根本無法直接比較它們。同一個模型，在某篇論文里被捧為突破性進(jìn)展，在另一篇論文里卻表現(xiàn)平平——這并不是因?yàn)槟Ｐ捅旧碛袉栴}，而是因?yàn)闇y試環(huán)境根本不一樣。

這種混亂帶來的后果不僅是學(xué)術(shù)上的不便，更會造成資源的嚴(yán)重浪費(fèi)。如果一個生物制藥公司想為自己的基因分析流程挑選一個AI模型，面對幾十個各說各好的選項(xiàng)，根本無從下手。更危險的是，一個在某個特定測試上表現(xiàn)亮眼的模型，可能在實(shí)際應(yīng)用中一塌糊涂，但因?yàn)槿狈θ姹容^，沒有人能發(fā)現(xiàn)這個陷阱。

研究團(tuán)隊(duì)用一個很形象的比喻來描述這個問題：每個模型的發(fā)布論文就像一個演員只拍了自己最好看的定妝照，但沒有人知道他在其他場景下長什么樣。GENEB的使命，就是讓所有人都站在同一個打光均勻的攝影棚里，同時拍照，讓觀眾能真正比較他們的面貌。

二、搭建公平擂臺——GENEB是怎么設(shè)計的

GENEB的核心設(shè)計理念可以用"凍結(jié)、探針、統(tǒng)一"六個字來概括。

所謂"凍結(jié)"，是指在測試過程中，研究團(tuán)隊(duì)不允許模型針對每道題目進(jìn)行專門訓(xùn)練。每個模型就像一個已經(jīng)畢業(yè)的學(xué)生，帶著它在預(yù)訓(xùn)練階段學(xué)到的所有知識來參加考試，考試期間不能臨時補(bǔ)課。這樣做的好處是，測試的是模型真正內(nèi)化的能力，而不是針對某道題目死記硬背的能力。

所謂"探針"，是指研究團(tuán)隊(duì)在每個凍結(jié)模型的輸出上套了一個極其簡單的分類器——本質(zhì)上就是一條直線。這條直線的任務(wù)是根據(jù)模型提取的DNA特征來做出判斷。如果模型確實(shí)學(xué)到了有用的DNA知識，這條直線就能表現(xiàn)良好；如果模型的學(xué)習(xí)是無效的，再好的直線也救不了它。這種方法能干凈地隔離出"模型本身的表達(dá)能力"，排除任務(wù)特定訓(xùn)練帶來的干擾。

所謂"統(tǒng)一"，是指所有40個模型都經(jīng)歷完全一樣的測試流程：同樣的100道題、同樣的評分標(biāo)準(zhǔn)、同樣的隨機(jī)種子（為了確保結(jié)果可重復(fù)，研究團(tuán)隊(duì)用了五個固定的隨機(jī)種子取平均值），甚至同樣的數(shù)據(jù)處理方式。

評分標(biāo)準(zhǔn)選用的是馬修斯相關(guān)系數(shù)，簡稱MCC。普通人可以把它理解成一把更公平的尺子——當(dāng)考題里正確答案和錯誤答案的數(shù)量差距很大時，普通準(zhǔn)確率會產(chǎn)生誤導(dǎo)，而MCC能更真實(shí)地反映模型的判斷能力。

100道題目被分成了13個大類，覆蓋了基因組學(xué)中最重要的問題領(lǐng)域。這13類包括：組蛋白修飾預(yù)測（DNA被特定蛋白質(zhì)"打了標(biāo)記"之后基因表達(dá)會怎么變）、啟動子識別（找到基因的"開關(guān)位置"）、增強(qiáng)子預(yù)測（找到讓基因開關(guān)更靈敏的"調(diào)節(jié)旋鈕"）、DNA甲基化（DNA上的一種化學(xué)修飾，與細(xì)胞記憶相關(guān)）、剪接位點(diǎn)檢測（基因在被"翻譯"前需要剪掉不用的部分，剪在哪里至關(guān)重要）、長非編碼RNA分類（一類不編碼蛋白質(zhì)但有重要功能的RNA）、小鼠增強(qiáng)子預(yù)測、轉(zhuǎn)錄因子結(jié)合預(yù)測、物種分類、調(diào)控元件預(yù)測、病毒與噬菌體檢測、編碼與非編碼序列區(qū)分，以及染色質(zhì)可及性預(yù)測。

此外，研究團(tuán)隊(duì)還設(shè)計了三種測試模式：全數(shù)據(jù)模式（模型有足夠多的標(biāo)注樣本可以參考）、10樣本模式（每個類別只給10個標(biāo)注樣本，模擬真實(shí)世界中標(biāo)注數(shù)據(jù)稀缺的情況）、1樣本模式（極端情況，每個類別只有1個參考樣本）。這三種模式結(jié)合起來，能全面考察模型在不同數(shù)據(jù)條件下的表現(xiàn)。

三、40位選手登場——這些模型的背景各不相同

這40個參賽模型來自全球各地的頂尖研究團(tuán)隊(duì)，它們的"出身"千差萬別，就像來自不同門派的武林高手。

從模型的"讀字方式"（即分詞策略）來看，有的模型把DNA一個堿基一個堿基地讀（單核苷酸方式），就像逐字閱讀；有的把相鄰幾個堿基合并成一個單位來讀（k-mer方式），類似于閱讀時按音節(jié)劃分；還有的借鑒了自然語言處理中的"字節(jié)對編碼"技術(shù)，讓模型自己學(xué)習(xí)如何切分DNA序列。

從模型的"學(xué)習(xí)框架"（即架構(gòu)）來看，有的是Transformer編碼器，擅長雙向理解序列上下文；有的是Transformer解碼器，擅長從左到右生成式地理解序列；有的是狀態(tài)空間模型（Mamba），設(shè)計上更擅長處理超長序列；還有的是混合了多種機(jī)制的新型架構(gòu)。

從模型的"讀過什么書"（即預(yù)訓(xùn)練數(shù)據(jù)）來看，差異更是懸殊。有的只讀了人類基因組，有的讀了幾十種不同物種的基因組，有的專門讀了植物基因組，有的讀了微生物基因組，甚至有一個讀的全是原核生物（細(xì)菌等）的基因組。

參賽模型的體量也從不到200萬參數(shù)的"迷你選手"橫跨到70億參數(shù)的"巨無霸"，足足覆蓋了三個數(shù)量級的差距。這種多樣性使得比較結(jié)果更有參考價值，也為后續(xù)的深入分析提供了豐富的素材。

值得一提的是，研究團(tuán)隊(duì)最初調(diào)查了53個模型，最終只有40個能參加比賽，另外13個因?yàn)楦鞣N原因被排除：有的因?yàn)榇a有嚴(yán)重bug無法運(yùn)行，有的因?yàn)闄?quán)重文件根本沒有公開，有的需要特殊的超級計算硬件，還有一個（ChatNT）被排除是因?yàn)樗皇橇硪粋€模型的"外殼"，并不是獨(dú)立的基礎(chǔ)模型。這個"排除名單"本身就說明了當(dāng)前基因組AI領(lǐng)域在可重復(fù)性上存在嚴(yán)重問題——四分之一的模型連能否運(yùn)行都成問題。

四、大比拼的驚人發(fā)現(xiàn)——"塊頭大"并不等于"本事大"

比賽結(jié)果出來后，最讓人意外的發(fā)現(xiàn)是：參數(shù)數(shù)量多并不能保證成績好。

在總體排名上，模型的參數(shù)量和綜合成績之間確實(shí)存在正相關(guān)關(guān)系——統(tǒng)計學(xué)上用斯皮爾曼相關(guān)系數(shù)來衡量，數(shù)值約為0.565，屬于中等強(qiáng)度的相關(guān)。換句話說，更大的模型平均而言確實(shí)表現(xiàn)更好，但這個規(guī)律有大量的例外。

研究團(tuán)隊(duì)仔細(xì)統(tǒng)計后發(fā)現(xiàn)，在36個"同領(lǐng)域"模型（排除了那些專門訓(xùn)練在與測試任務(wù)完全不相關(guān)的數(shù)據(jù)上的模型）中，竟然有31次出現(xiàn)了"小模型完勝大模型"的情況，且"小"的定義是至少小5倍。

最戲劇性的例子是MUTBERT和EVO。MUTBERT是一個只有8600萬參數(shù)的小模型，專門在人類基因組數(shù)據(jù)上訓(xùn)練，讀取DNA的方式是逐個堿基；EVO則是一個整整70億參數(shù)的龐然大物，體量是MUTBERT的81倍。然而在GENEB的綜合測試中，MUTBERT的成績比EVO高出了整整0.231分（以MCC為單位）。這就好比一個在家鄉(xiāng)廚師培訓(xùn)班結(jié)業(yè)的學(xué)徒，在綜合廚藝大賽上完勝了一個在米其林餐廳工作了二十年的大廚——原因并不是那個大廚不會做飯，而是那位大廚從來只做法餐，突然被要求做中國菜。

EVO的問題正是如此：它的預(yù)訓(xùn)練數(shù)據(jù)幾乎全是原核生物（細(xì)菌等微生物）的基因組，而GENEB的13個測試類別中，有12個評估的是真核生物（包括人類、植物、動物）的基因組任務(wù)。把一個專門學(xué)法語的學(xué)生拉來考日語，考砸了很正常。

這個發(fā)現(xiàn)的深刻意義在于：簡單地用"參數(shù)量多少"來選擇基因組AI模型是一個危險的策略。如果你在做的是人類基因組相關(guān)的研究，一個800萬參數(shù)但針對性訓(xùn)練的小模型，可能遠(yuǎn)比一個700億參數(shù)的通用大模型更有用。

五、架構(gòu)之爭——注意力機(jī)制勝了，但也有例外

在所有模型架構(gòu)的比較中，研究團(tuán)隊(duì)特別關(guān)心一個問題：以Transformer為代表的"注意力機(jī)制"架構(gòu)，和近年來被寄予厚望的"狀態(tài)空間模型"（Mamba架構(gòu)）架構(gòu)，究竟誰更強(qiáng)？

為了公平比較，研究團(tuán)隊(duì)只對那些在相同數(shù)據(jù)集上訓(xùn)練、使用相同分詞策略的模型進(jìn)行對比。在這種受控條件下，Transformer類模型展現(xiàn)出了全面的優(yōu)勢。

具體來看，OMNI-DNA-1B（Transformer解碼器架構(gòu)，10億參數(shù)）與eccDNAMamba（Mamba架構(gòu)，同樣10億參數(shù)）相比，在相同的多物種數(shù)據(jù)集和BPE分詞下，前者的綜合得分高出后者整整0.149分。類似地，GENOMEOCEAN-500M（Transformer解碼器）也以0.131分的優(yōu)勢擊敗eccDNAMamba。

但有一個非常值得關(guān)注的例外：在染色質(zhì)可及性預(yù)測這個細(xì)分領(lǐng)域，Mamba架構(gòu)的表現(xiàn)異常出色。eccDNAMamba在這個類別上的得分竟然比GENOMEOCEAN-500M高出了0.124分。另一個Mamba相關(guān)的混合架構(gòu)模型JanusDNA-72-W，在染色質(zhì)可及性上的表現(xiàn)也比它自己的平均水平高出了整整0.200分——這說明某些Mamba架構(gòu)可能天然對染色質(zhì)可及性任務(wù)有獨(dú)特的適應(yīng)性。

更令人玩味的是，在Transformer內(nèi)部，編碼器和解碼器的優(yōu)劣并非固定不變。在組蛋白修飾預(yù)測上，Transformer解碼器表現(xiàn)更好；在TF結(jié)合預(yù)測上，Transformer編碼器占優(yōu)；而在啟動子識別上，編碼器又勝了一籌。這告訴我們，架構(gòu)的選擇必須結(jié)合具體任務(wù)，沒有放之四海而皆準(zhǔn)的最優(yōu)架構(gòu)。

六、分詞方式的影響——沒有絕對贏家

分詞方式（即如何把連續(xù)的DNA堿基序列切分成模型可以處理的單元）是另一個重要變量。研究團(tuán)隊(duì)通過12對受控對比，專門研究了分詞策略的影響。

結(jié)論出人意料：沒有任何一種分詞方式能在所有情況下碾壓其他方式。BPE方式在多物種數(shù)據(jù)+Transformer解碼器的組合下平均比k-mer方式好0.020分，但這個優(yōu)勢在不同模型對之間差異很大，甚至有一對出現(xiàn)了BPE反而不如k-mer的情況。在Transformer編碼器配合多物種數(shù)據(jù)的組合下，BPE和k-mer幾乎打平，差距在0.006分以內(nèi)。

單核苷酸分詞（每個堿基單獨(dú)處理）在人類基因組數(shù)據(jù)+Transformer編碼器的組合下表現(xiàn)出色——MUTBERT（單核苷酸）比同等條件下的GENA-LM（BPE）高出0.033分，比GROVER（BPE）高出0.038分。但在病毒/噬菌體檢測任務(wù)上，情況完全相反，BPE分詞的GROVER比單核苷酸的MUTBERT高出了0.209分。

這個發(fā)現(xiàn)意味著，分詞方式的選擇不能脫離架構(gòu)和訓(xùn)練數(shù)據(jù)單獨(dú)討論。三者之間存在復(fù)雜的交互關(guān)系，必須整體考量。

七、預(yù)訓(xùn)練數(shù)據(jù)是關(guān)鍵——"讀什么書"比"讀多少書"更重要

預(yù)訓(xùn)練數(shù)據(jù)對模型能力的影響，是GENEB所有發(fā)現(xiàn)中最一致、最可靠的規(guī)律。

研究團(tuán)隊(duì)通過精心設(shè)計的受控對比（架構(gòu)和分詞完全相同，只改變預(yù)訓(xùn)練數(shù)據(jù)類型）發(fā)現(xiàn)，多物種預(yù)訓(xùn)練數(shù)據(jù)平均而言比純?nèi)祟惢蚪M數(shù)據(jù)好0.012分。雖然這個平均差距不大，但在特定任務(wù)類別上差距極為顯著。在染色質(zhì)可及性預(yù)測上，多物種預(yù)訓(xùn)練的優(yōu)勢體現(xiàn)在6對中的全部6對，平均領(lǐng)先0.062分。在剪接位點(diǎn)檢測上，多物種預(yù)訓(xùn)練領(lǐng)先0.038分；在物種分類上，領(lǐng)先0.031分；在小鼠增強(qiáng)子預(yù)測上，領(lǐng)先0.023分；在長非編碼RNA分類上，領(lǐng)先0.022分。

然而，在病毒/噬菌體檢測任務(wù)上，情況發(fā)生了逆轉(zhuǎn)——人類基因組預(yù)訓(xùn)練的模型反而平均領(lǐng)先0.034分。研究團(tuán)隊(duì)推測，這是因?yàn)樵谌祟惢蚪M數(shù)據(jù)中包含了大量與人類相關(guān)的病毒序列（如內(nèi)源性逆轉(zhuǎn)錄病毒），這些數(shù)據(jù)恰好對病毒檢測任務(wù)有幫助。

更戲劇性的對比出現(xiàn)在真核多物種數(shù)據(jù)和微生物多物種數(shù)據(jù)之間。以相同架構(gòu)和分詞為條件，在真核生物基因組上訓(xùn)練的模型，綜合成績比專注于微生物的DNABERT-S高出約0.084分。差距最大的任務(wù)是剪接位點(diǎn)檢測，領(lǐng)先了整整0.222分——這完全符合生物學(xué)預(yù)期，因?yàn)榧?xì)菌根本沒有剪接機(jī)制，在細(xì)菌基因組上訓(xùn)練的模型當(dāng)然無法理解真核生物的剪接過程。

另一個重要發(fā)現(xiàn)是，專注于真核生物基因（而非整個基因組）的預(yù)訓(xùn)練策略，在受控比較中比廣泛多物種預(yù)訓(xùn)練領(lǐng)先約0.063分，在染色質(zhì)可及性（+0.191）、長非編碼RNA分類（+0.142）和小鼠增強(qiáng)子預(yù)測（+0.124）上差距最為明顯。當(dāng)然，這個結(jié)論只基于一對受控對比，需要謹(jǐn)慎解讀。

八、少樣本測試揭示的反常現(xiàn)象——排名"大洗牌"

當(dāng)測試條件從全數(shù)據(jù)降到10個樣本或1個樣本時，排行榜發(fā)生了劇烈的震動。

在全數(shù)據(jù)條件下，40個模型的平均MCC得分為0.488。到了10樣本條件，這個數(shù)字降到0.253，下降了48%。到1樣本條件，更是跌至0.106，與全數(shù)據(jù)相比損失了78%之多。

各個任務(wù)類別對數(shù)據(jù)稀缺的耐受程度差異極大。啟動子識別任務(wù)在1樣本條件下仍能保留38.8%的全數(shù)據(jù)性能，物種分類保留了30.1%——這兩類任務(wù)依賴的是序列組成的整體統(tǒng)計特征，少數(shù)樣本就能捕捉到關(guān)鍵信號。相比之下，有三個類別在1樣本條件下基本坍塌：病毒/噬菌體檢測損失了93.5%，DNA甲基化預(yù)測損失了93.2%，長非編碼RNA分類損失了91.3%。

更反常的發(fā)現(xiàn)是：在全數(shù)據(jù)條件下成績最好的那些大模型，在少樣本條件下反而表現(xiàn)出最大的絕對下滑。GENERATOR-EUKARYOTE-3B在全數(shù)據(jù)下綜合得分為0.605，但到10樣本時直接掉到0.116，下滑了0.489分；LUCAONE下滑了0.461分；NT-2.5B-MS下滑了0.456分。

反過來，那些在全數(shù)據(jù)下表現(xiàn)很差的小模型，在少樣本條件下的絕對下滑幅度反而很小。但研究團(tuán)隊(duì)明確指出，這種"穩(wěn)定"是假象——因?yàn)檫@些模型本來成績就很低，根本沒有多少可以繼續(xù)下跌的空間，就像一個本來就在地板上的人，摔跤時下跌的距離自然比站在高處的人少。

這個發(fā)現(xiàn)對實(shí)際應(yīng)用有重要意義：如果你的研究場景是數(shù)據(jù)極度稀缺的，全數(shù)據(jù)下的排行榜完全不能作為選模型的參考，必須專門做少樣本評估。研究團(tuán)隊(duì)發(fā)現(xiàn)，在13個任務(wù)類別中，有8個類別的最佳模型在從全數(shù)據(jù)換到10樣本后發(fā)生了更換。

九、"硬骨頭"任務(wù)——這些問題當(dāng)前AI還啃不動

GENEB的100道題中，有28道題的平均MCC分?jǐn)?shù)低于0.35，意味著目前所有模型在這些任務(wù)上的表現(xiàn)都離實(shí)用還差得很遠(yuǎn)。

最難啃的硬骨頭是4mC甲基化預(yù)測（4mC是DNA上的一種特殊化學(xué)修飾，在細(xì)菌中較常見）。針對三種特定細(xì)菌的4mC預(yù)測任務(wù)，平均得分分別只有0.061（新型細(xì)菌G. subterraneus）、0.103（大腸桿菌）和0.107（另一種細(xì)菌G. pickeringii）。即便是排行榜第一的大模型，在這些任務(wù)上的得分也只有0.206到0.477之間——仍然不夠好。

植物長非編碼RNA分類同樣是重災(zāi)區(qū)，番茄、大豆、小麥等植物的lncRNA分類任務(wù)平均得分都在0.221到0.238之間。

更關(guān)鍵的是，簡單增大模型規(guī)模并不能解決這些硬骨頭任務(wù)。以DNA甲基化為例，模型規(guī)模和成績之間的相關(guān)系數(shù)只有0.347，低于基準(zhǔn)水平，而且沒有任何一個參數(shù)量低于3億的模型能在這個類別超過0.34分的得分線。研究團(tuán)隊(duì)判斷，這類任務(wù)的突破需要從根本上改進(jìn)預(yù)訓(xùn)練數(shù)據(jù)的設(shè)計和模型的歸納偏置，光靠堆砌參數(shù)是走不通的。

十、高分散任務(wù)的啟示——數(shù)據(jù)來源決定命運(yùn)

研究團(tuán)隊(duì)還專門分析了那些模型之間分歧最大的任務(wù)（標(biāo)準(zhǔn)差超過0.12的13個任務(wù)），把每個任務(wù)的前三名和后三名的模型特征匯總起來，結(jié)果圖案極為清晰。

在前三名的39個席位中，多物種預(yù)訓(xùn)練的模型占了20席，真核基因預(yù)訓(xùn)練的模型占了12席，兩者合計占到了32席，高達(dá)82%。與此同時，純?nèi)祟惢蚪M預(yù)訓(xùn)練的模型占據(jù)了后三名39個席位中的29席，占比高達(dá)74%，幾乎全面聚集在底部。

從架構(gòu)角度看，Transformer解碼器占了前三名的18席，Transformer編碼器占了15席，兩者合計33席，占比85%。而Mamba架構(gòu)（17席）、混合Mamba-MoE架構(gòu)（7席）和StripedHyena架構(gòu)（6席）則主導(dǎo)了后三名。

這個模式傳遞了一個明確信號：在那些最能區(qū)分模型好壞的任務(wù)上，決定成敗的主要因素是預(yù)訓(xùn)練數(shù)據(jù)的覆蓋范圍和架構(gòu)選擇，而不是模型有多大。

十一、實(shí)用選模指南——不同任務(wù)應(yīng)該選哪個模型

基于所有的測試結(jié)果，研究團(tuán)隊(duì)給出了針對不同任務(wù)的實(shí)用選模建議，這部分是論文中最有實(shí)踐價值的內(nèi)容之一。

對于預(yù)算有限、需要輕量級模型的場景，MUTBERT（8600萬參數(shù)，Transformer編碼器，單核苷酸分詞，人類基因組預(yù)訓(xùn)練）是一個出色的選擇。它在13個類別中的8個類別里位居參數(shù)量不超過1億的模型第一，綜合得分達(dá)到0.529，是所有小模型中最強(qiáng)的。

對于組蛋白修飾預(yù)測，GENOMEOCEAN-4B（40億參數(shù)，綜合得分0.545）和GENOMEOCEAN-500M（5億參數(shù)，得分0.537）是領(lǐng)頭羊，且這個類別與模型規(guī)模的相關(guān)性最高，是整個測試中擴(kuò)展規(guī)律最穩(wěn)定的一個類別。

對于TF結(jié)合預(yù)測和調(diào)控元件預(yù)測，CNN-Transformer混合架構(gòu)的ENFORMER（2.5億參數(shù)，專門在人鼠表觀基因組譜上訓(xùn)練）以0.698分穩(wěn)居第一，遠(yuǎn)超同類。它的參數(shù)量僅250M，卻擊敗了所有更大的模型。

對于病毒/噬菌體檢測，GENOMEOCEAN-4B以0.697分領(lǐng)先，GENOMEOCEAN-500M以0.657分緊隨其后，兩者遠(yuǎn)超第三名。這個類別明顯偏向于在元基因組數(shù)據(jù)（包含大量病毒序列的環(huán)境樣本）上訓(xùn)練的模型。

對于植物長非編碼RNA分類，LUCAONE（20億參數(shù)，統(tǒng)一核酸+蛋白質(zhì)預(yù)訓(xùn)練）以0.508分排名第一，盡管它并非專門針對植物訓(xùn)練。最重要的是，在這個任務(wù)上，人類基因組預(yù)訓(xùn)練的模型普遍表現(xiàn)很差，平均只有0.157分，而植物專用模型能達(dá)到0.347分。

對于DNA甲基化預(yù)測，GENERATOR-EUKARYOTE-3B以0.440分排名第一，但這個類別整體難度極高，1樣本條件下沒有任何模型的得分能超過0.04——基本等同于隨機(jī)猜測。

對于染色質(zhì)可及性預(yù)測，GENERATOR-EUKARYOTE-3B（0.728）和OMNI-DNA-1B（0.714）名列前茅，但值得一提的是，即便是只有198萬參數(shù)的JanusDNA-72-W也能達(dá)到0.599分，在這個類別排名第14，這在整個測試中是最驚人的"以小勝大"案例之一。

十二、綜合排行榜的不穩(wěn)定性——一張表解決不了所有問題

研究團(tuán)隊(duì)最終用熱力圖形式展示了所有40個模型在13個類別上的表現(xiàn)，這張圖是整篇論文中最有說服力的一張。每個格子代表一個模型在一個類別上的平均成績，顏色從紅色（差）到綠色（好）過渡。

這張圖最直觀的信息是：沒有任何一個模型能在所有類別上都呈現(xiàn)綠色。每個模型都有自己的強(qiáng)項(xiàng)和弱項(xiàng)，排行榜的前幾名也不例外。ENFORMER在調(diào)控元件預(yù)測和TF結(jié)合上是綠色的，但在DNA甲基化和長非編碼RNA上是紅色的。GENOMEOCEAN系列在病毒/噬菌體任務(wù)上最亮眼，但在某些調(diào)控任務(wù)上就顯得普通。植物專用模型在長非編碼RNA上是綠色的，但在多數(shù)其他類別上表現(xiàn)平平。

研究團(tuán)隊(duì)對比了綜合得分的兩種計算方式：一種是對所有100道題取簡單平均（微平均），另一種是先對13個類別各自取平均再取總平均（宏平均）。兩種方式得出的模型排名高度一致，斯皮爾曼相關(guān)系數(shù)高達(dá)0.988，說明綜合排行榜是穩(wěn)定的。但在個別模型上，兩種算法給出了差異不小的分?jǐn)?shù)——差異最大的往往是那些"偏科"嚴(yán)重的模型，如EVO（在宏平均下?lián)p失了0.044分，因?yàn)樗?2個真核類別上拖了后腿）。

這個發(fā)現(xiàn)對研究團(tuán)隊(duì)的核心論點(diǎn)形成了完美印證：綜合排行榜可以作為參考，但絕不應(yīng)該作為選擇模型的唯一依據(jù)。真正理性的選擇必須基于你關(guān)心的具體任務(wù)類別，去查看該類別的專項(xiàng)成績。

說到底，GENEB這個項(xiàng)目最大的貢獻(xiàn)不只是給出了一個排名，而是徹底改變了這個領(lǐng)域評估AI模型的方式。就像一個混亂已久的武林江湖，終于有了一套公認(rèn)的比武規(guī)則。

歸根結(jié)底，"更大的模型一定更好"的直覺在基因組AI領(lǐng)域并不成立。一個在正確數(shù)據(jù)上訓(xùn)練的小模型，往往能在實(shí)際任務(wù)中輕松擊敗一個在錯誤數(shù)據(jù)上訓(xùn)練的大模型。數(shù)據(jù)的覆蓋范圍、預(yù)訓(xùn)練對象與下游任務(wù)的生物學(xué)匹配程度，才是決定模型實(shí)際價值的第一要素。

而現(xiàn)實(shí)中讓人遺憾的是，相當(dāng)一部分研究團(tuán)隊(duì)在發(fā)布新模型時，既沒有公開完整的代碼，也沒有穩(wěn)定可用的權(quán)重文件，甚至連運(yùn)行所需的硬件要求都語焉不詳。GENEB調(diào)查的53個模型中，有13個（接近四分之一）因?yàn)榭芍貜?fù)性問題無法參與測試。這提醒我們，在熱情追逐更大更強(qiáng)的模型之外，可重復(fù)性和開放性同樣是基礎(chǔ)科學(xué)應(yīng)該堅守的底線。

如果你正在從事基因組相關(guān)的研究，或者對AI如何幫助人類讀懂生命密碼感興趣，強(qiáng)烈建議去看看這篇論文的完整附錄，那里有每個模型在每道題上的詳細(xì)成績，是選模型時最可靠的參考手冊。論文編號是arXiv:2606.04525v2，研究團(tuán)隊(duì)表示GENEB的完整評測結(jié)果將在Hugging Face平臺公開發(fā)布，屆時研究社區(qū)可以隨時查閱和復(fù)現(xiàn)。

Q&A

Q1：GENEB和其他基因組AI評測基準(zhǔn)有什么區(qū)別？

A：GENEB最核心的區(qū)別是覆蓋范圍和統(tǒng)一性。此前的基準(zhǔn)如Nucleotide Transformer任務(wù)、GUE、BEND各自只測試少數(shù)幾個模型，且評測規(guī)則不統(tǒng)一。GENEB將40個模型同時放在100道題上用完全一樣的流程測試，是目前規(guī)模最大、最系統(tǒng)的基因組AI橫向比較研究，能真正揭示模型間的真實(shí)差異。

Q2：MUTBERT為什么能以8600萬參數(shù)擊敗70億參數(shù)的EVO？

A：根本原因是預(yù)訓(xùn)練數(shù)據(jù)的領(lǐng)域錯配。EVO幾乎只在原核生物（細(xì)菌等）的基因組上訓(xùn)練，而GENEB的12個核心類別評估的是真核生物任務(wù)。原核生物沒有剪接機(jī)制、甲基化機(jī)制差異極大，EVO學(xué)到的知識對這些任務(wù)幫助有限，就像讓只會法語的廚師去做中餐，技藝再高也用不上。MUTBERT雖小，但專注于人類基因組，領(lǐng)域匹配度高得多。

Q3：少樣本模式下基因組AI模型的排名為什么和全數(shù)據(jù)模式差這么多？

A：少樣本條件（尤其是每類只有1個或10個樣本）下，模型的排名洗牌非常劇烈，13個類別中有8個的冠軍發(fā)生了更換。主要原因是不同任務(wù)的信號特征可學(xué)習(xí)性差異很大：啟動子和物種分類依賴整體序列統(tǒng)計特征，少數(shù)樣本夠用；而DNA甲基化和病毒檢測依賴精細(xì)的局部模式，少量樣本根本無法提供足夠信息。因此，如果你的實(shí)驗(yàn)場景數(shù)據(jù)量有限，必須單獨(dú)做少樣本評測，不能依賴全數(shù)據(jù)排行榜。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.