網易首頁 > 網易號 > 正文申請入駐

DeepSeek論文發表16天后，國內團隊已經寫出了模型的“生物字典”

2026-02-05 16:53:04　來源: 華大集團BGI

廣東舉報

分享至

*內容來源：機器之心、測序中國微信公眾號

今年1月，DeepSeek發布了一項名為Engram（條件記憶）的技術，在大模型圈子里掀起不小波瀾。

它的核心思想很簡單：別讓模型死記硬背常識，直接給它一個“外掛記憶庫”。

具體做法是：把常見的詞語組合（N-gram），比如“人工智能”、“光合作用”，預先存進一個哈希表，模型需要時查表即可，省下大量算力專注推理。

這個思路，能不能用在其他領域的模型訓推上？答案是：能，且效果驚人。

就在Engram論文發布僅16天后，同樣位于杭州的一支研發團隊，推出Gengram（Genomic Engram）模塊，把“外掛字典”搬進了基因組世界。

代碼鏈接：
https://github.com/zhejianglab/Gengram
模型鏈接：
https://huggingface.co/ZhejiangLab/Gengram
論文鏈接：
https://arxiv.org/abs/2601.22203

傳統方法的困境：

為每個堿基“重復造輪子”

當前，主流的基因組基礎模型，如Deepmind的AlphaGenome等，普遍采用一種叫“單堿基分詞”的策略，也就是把DNA序列拆成一個個單獨的字母（A/T/C/G）來處理。

這聽起來非常符合生物學邏輯，并且操作精度更高，然而代價也是巨大的。

首先是效率低下。要識別一個關鍵功能片段（比如啟動子或剪接位點），模型得靠多層注意力機制，從零開始“拼湊”出像“TATAAAA”這樣的經典堿基組合（Motif）。

其次是容易迷失。在動輒幾萬甚至幾十萬堿基的長序列中，模型常常“只見樹木，不見森林”，何況人類的基因組是一串長達30億字符的連續序列。

用更容易理解的方式來打個比方：人類學習“魑魅魍魎”時，一眼就能理解這是個成語。但傳統的基因組模型卻得先分析每個“鬼”字究竟是什么鬼……既要區分又要預測，最終結果就是既費力，又不準。

Gengram是怎么工作的？

Gengram的核心邏輯承襲自Engram：將“靜態的Motif識別”與“動態的上下文推理”進行解耦處理。

Gengram預先構建了一個可微分的哈希表，存儲所有長度為1到6的DNA片段（稱為k-mer，如“ATG”、“CGTA”）對應的語義向量。這些k-mer很多就是已知的生物學功能單元（比如轉錄因子結合位點），相當于給AI配了一本《基因組學實用短語手冊》。

與其他領域相比，DNA只有4個字母（A/T/C/G）及少量未知堿基（N）構成，整個字符集極小。Gengram無需承擔復雜的Tokenizer壓縮負擔，查表速度極快，幾乎不增加計算開銷。

事實上，由于功能重要性不同，并非所有Motif都需要這本“字典”的加持。為此，Gengram引入了動態門控機制。

模型可以結合上下文語境自主決定何時“查字典”：在遇到外顯子、啟動子等關鍵Motif區域時激活檢索功能；在通過非編碼背景區域時關閉檢索，依賴推理，優化資源。

經團隊測試，這個門控目前已經掌握了“什么時候該查詢參考資料，什么時候該獨立思考”的判斷能力。

小模塊，大提升

事實上，Gengram只是一個僅約2000萬參數的輕量化插件，對于百億級規模的模型來說微不足道，但它帶來的性能提升卻令人振奮。

在8k和32k兩個上下文版本中，同等訓練設定下，應用了Gengram的模型幾乎在所有任務里領先未應用的版本。

其中，剪接位點預測AUC提升了16.1%（從0.776到0.901），表觀遺傳預測任務（H3K36me3）AUC提升了22.6%（從0.656到0.804）。

這種跨越式的性能飛躍，賦予了模型驚人的數據杠桿效應。

在與多款主流DNA基礎模型的橫向測評中，集成Gengram的模型僅需極小規模的訓練數據，和較小的激活參數量，便能在核心任務上媲美乃至超越訓練數據規模領先其數十倍的公開模型，大幅提升了模型訓練的數據能效比。

同時，Gengram展現出了卓越的通用適配能力，能夠跨越Dense（稠密）與MoE（混合專家）等不同模型架構實現無縫部署。

跨稀疏度負載均衡：在Top-2/128、64和32專家配置下，使用與不使用Gengram模塊的負載均衡損失曲線對比，表明其在多種稀疏度設置下均能實現穩定性能

此外，模型開始“涌現”出對DNA物理本質的理解。

當團隊為Gengram局部聚合窗口測試窗口大小策略時，結果顯示：窗口大小參數設置為21bp時，其性能達到峰值。

為什么偏偏是21？

因為DNA雙螺旋結構每10.5個堿基對旋轉一圈，而21個堿基對正好對應兩個完整的螺旋周期。這意味著，每相隔21bp的堿基在物理空間上其實位于螺旋的同一側，具備相似的生化環境和特征。

換句話說，Gengram在沒有學習過任何結構生物學知識的前提下，通過計算自己悟到了DNA序列信息和空間相位規律。

DNA雙螺旋結構示意圖展示了B型DNA的結構參數，DNA雙螺旋每10.5個堿基對旋轉一圈

不同Gengram窗口大小下的驗證損失，由此選擇了21寬度的窗口

范式啟示：

Gengram為AI科學模型提供新探索路徑

Gengram的成功，遠不止于解決基因組建模的特定難題。它更像一個精巧的概念驗證，為如何構建新一代懂科學的AI探索了一種新的模式。

從“暴力記憶”到“結構化知識外掛”：效率范式的轉變。傳統AI模型增強能力主要靠擴張參數與數據，本質是讓網絡更費力地“記住”一切。Gengram則將領域內確鑿的、結構化的先驗知識（如功能Motif）做成一個輕量、可查詢的外部知識庫。這讓核心模型能從繁瑣的模式記憶中解脫，專注于更高級的上下文推理與組合創新。這預示著，未來科學基礎模型的架構，可能是“通用模型核心+多個領域專用插件”的協同形態。

“歸納偏置”注入：生物物理規律的“硬編碼”。通過將B型DNA雙螺旋每10.5個堿基完成一個旋轉周期（即約21bp的雙圈周期）這一結構特性，顯式轉化為模型內部的局部窗口機制，Gengram成功地將這種物理空間相位的周期性作為先驗知識注入模型，使其能夠捕捉特定相位的立體化學模式和蛋白質綁定偏好。

可解釋性的內生設計：讓AI的“思維過程”透明化。模型不再僅僅進行隱式的統計擬合，而是通過顯式的Hash查詢和門控記憶通路，在淺層即展現出對TATA-box、poly(T)等關鍵功能基元的高度敏感性，其內部殘差強度的峰值與基因組功能邊界精準對齊，實現了從“黑盒計算”向“具備生物學認知足跡”的演進。

解決長程依賴的新路徑：從局部最優到全局洞察。實驗證明，Gengram使得僅在8K長度上訓練的模型，卻獲得了處理32K長序列的優異能力。這為基因調控元件預測、表觀遺傳學分析、跨物種進化分析以及復雜的多組學建模等復雜長序列問題，開辟了精細化局部感知驅動全局理解的新途徑。

Gengram建立了一種將領域特有規律轉化為顯式架構約束的創新范式，證明了通過精細化的局部結構化感知可以有效彌補標稱上下文長度的局限，實現低成本且高效的長程依賴建模。

低調的Genos Team

Gengram的發布，讓人們將目光投向了杭州AI版圖的另一塊重要拼圖Genos團隊。這支低調的團隊結合了華大生命科學研究院的組學大數據經驗，與之江實驗室的計算和模型能力。這種交叉創新壁壘，這是單純的計算機科學團隊或生命科學團隊無法比擬的優勢。

論文里的實驗，大多基于人類基因組基礎模型Genos實現，Genos是研發團隊于去年10月發布的，從可公開獲取的信息來看，Genos多數指標都超越了當前的業界頂流Evo-2。目前，Genos已應用于華大基因面向遺傳病臨床檢測的大語言模型GeneT，助力提高遺傳病分析解讀的水平。

如果說DeepSeek證明了通用AI的極限，那么Genos團隊則用行動展示了當AI深度對齊生物學邏輯時，我們離真正讀懂“生命之書”又近了一大步。

讓我知道你“在看”

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.