无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek論文發表16天后,國內團隊已經寫出了模型的“生物字典”

0
分享至

*內容來源:機器之心、測序中國微信公眾號

今年1月,DeepSeek發布了一項名為Engram(條件記憶)的技術,在大模型圈子里掀起不小波瀾。

它的核心思想很簡單:別讓模型死記硬背常識,直接給它一個“外掛記憶庫”。

具體做法是:把常見的詞語組合(N-gram),比如“人工智能”、“光合作用”,預先存進一個哈希表,模型需要時查表即可,省下大量算力專注推理。

這個思路,能不能用在其他領域的模型訓推上?答案是:能,且效果驚人。

就在Engram論文發布僅16天后,同樣位于杭州的一支研發團隊,推出GengramGenomic Engram)模塊,把“外掛字典”搬進了基因組世界



  • 代碼鏈接:

    https://github.com/zhejianglab/Gengram

  • 模型鏈接:

    https://huggingface.co/ZhejiangLab/Gengram

  • 論文鏈接:

    https://arxiv.org/abs/2601.22203

傳統方法的困境:

為每個堿基“重復造輪子”

當前,主流的基因組基礎模型,如Deepmind的AlphaGenome等,普遍采用一種叫“單堿基分詞”的策略,也就是把DNA序列拆成一個個單獨的字母(A/T/C/G)來處理。

這聽起來非常符合生物學邏輯,并且操作精度更高,然而代價也是巨大的。

首先是效率低下。要識別一個關鍵功能片段(比如啟動子或剪接位點),模型得靠多層注意力機制,從零開始“拼湊”出像“TATAAAA”這樣的經典堿基組合(Motif)。

其次是容易迷失。在動輒幾萬甚至幾十萬堿基的長序列中,模型常常“只見樹木,不見森林”,何況人類的基因組是一串長達30億字符的連續序列。

用更容易理解的方式來打個比方:人類學習“魑魅魍魎”時,一眼就能理解這是個成語。但傳統的基因組模型卻得先分析每個“鬼”字究竟是什么鬼……既要區分又要預測,最終結果就是既費力,又不準。

Gengram是怎么工作的?

Gengram的核心邏輯承襲自Engram:將“靜態的Motif識別”與“動態的上下文推理”進行解耦處理

Gengram預先構建了一個可微分的哈希表,存儲所有長度為1到6的DNA片段(稱為k-mer,如“ATG”、“CGTA”)對應的語義向量。這些k-mer很多就是已知的生物學功能單元(比如轉錄因子結合位點),相當于給AI配了一本《基因組學實用短語手冊》。

與其他領域相比,DNA只有4個字母(A/T/C/G)及少量未知堿基(N)構成,整個字符集極小。Gengram無需承擔復雜的Tokenizer壓縮負擔,查表速度極快,幾乎不增加計算開銷。

事實上,由于功能重要性不同,并非所有Motif都需要這本“字典”的加持。為此,Gengram引入了動態門控機制

模型可以結合上下文語境自主決定何時“查字典”:在遇到外顯子、啟動子等關鍵Motif區域時激活檢索功能;在通過非編碼背景區域時關閉檢索,依賴推理,優化資源。

經團隊測試,這個門控目前已經掌握了“什么時候該查詢參考資料,什么時候該獨立思考”的判斷能力。

小模塊,大提升

事實上,Gengram只是一個僅約2000萬參數的輕量化插件,對于百億級規模的模型來說微不足道,但它帶來的性能提升卻令人振奮。

在8k和32k兩個上下文版本中,同等訓練設定下,應用了Gengram的模型幾乎在所有任務里領先未應用的版本。

其中,剪接位點預測AUC提升了16.1%(從0.776到0.901),表觀遺傳預測任務(H3K36me3)AUC提升了22.6%(從0.656到0.804)。

這種跨越式的性能飛躍,賦予了模型驚人的數據杠桿效應。

在與多款主流DNA基礎模型的橫向測評中,集成Gengram的模型僅需極小規模的訓練數據,和較小的激活參數量,便能在核心任務上媲美乃至超越訓練數據規模領先其數十倍的公開模型,大幅提升了模型訓練的數據能效比。

同時,Gengram展現出了卓越的通用適配能力,能夠跨越Dense(稠密)與MoE(混合專家)等不同模型架構實現無縫部署。


跨稀疏度負載均衡:在Top-2/128、64和32專家配置下,使用與不使用Gengram模塊的負載均衡損失曲線對比,表明其在多種稀疏度設置下均能實現穩定性能

此外,模型開始“涌現”出對DNA物理本質的理解。

當團隊為Gengram局部聚合窗口測試窗口大小策略時,結果顯示:窗口大小參數設置為21bp時,其性能達到峰值

為什么偏偏是21?

因為DNA雙螺旋結構每10.5個堿基對旋轉一圈,而21個堿基對正好對應兩個完整的螺旋周期。這意味著,每相隔21bp的堿基在物理空間上其實位于螺旋的同一側,具備相似的生化環境和特征。

換句話說,Gengram在沒有學習過任何結構生物學知識的前提下,通過計算自己悟到了DNA序列信息和空間相位規律


DNA雙螺旋結構示意圖展示了B型DNA的結構參數,DNA雙螺旋每10.5個堿基對旋轉一圈


不同Gengram窗口大小下的驗證損失,由此選擇了21寬度的窗口

范式啟示:

Gengram為AI科學模型提供新探索路徑

Gengram的成功,遠不止于解決基因組建模的特定難題。它更像一個精巧的概念驗證,為如何構建新一代懂科學的AI探索了一種新的模式。

從“暴力記憶”到“結構化知識外掛”:效率范式的轉變。傳統AI模型增強能力主要靠擴張參數與數據,本質是讓網絡更費力地“記住”一切。Gengram則將領域內確鑿的、結構化的先驗知識(如功能Motif)做成一個輕量、可查詢的外部知識庫。這讓核心模型能從繁瑣的模式記憶中解脫,專注于更高級的上下文推理與組合創新。這預示著,未來科學基礎模型的架構,可能是“通用模型核心+多個領域專用插件”的協同形態。

“歸納偏置”注入:生物物理規律的“硬編碼”通過將B型DNA雙螺旋每10.5個堿基完成一個旋轉周期(即約21bp的雙圈周期)這一結構特性,顯式轉化為模型內部的局部窗口機制,Gengram成功地將這種物理空間相位的周期性作為先驗知識注入模型,使其能夠捕捉特定相位的立體化學模式和蛋白質綁定偏好。

可解釋性的內生設計:讓AI的“思維過程”透明化模型不再僅僅進行隱式的統計擬合,而是通過顯式的Hash查詢和門控記憶通路,在淺層即展現出對TATA-box、poly(T)等關鍵功能基元的高度敏感性,其內部殘差強度的峰值與基因組功能邊界精準對齊,實現了從“黑盒計算”向“具備生物學認知足跡”的演進。

解決長程依賴的新路徑:從局部最優到全局洞察實驗證明,Gengram使得僅在8K長度上訓練的模型,卻獲得了處理32K長序列的優異能力。這為基因調控元件預測、表觀遺傳學分析、跨物種進化分析以及復雜的多組學建模等復雜長序列問題,開辟了精細化局部感知驅動全局理解的新途徑。

Gengram建立了一種將領域特有規律轉化為顯式架構約束的創新范式,證明了通過精細化的局部結構化感知可以有效彌補標稱上下文長度的局限,實現低成本且高效的長程依賴建模。

低調的Genos Team

Gengram的發布,讓人們將目光投向了杭州AI版圖的另一塊重要拼圖Genos團隊。這支低調的團隊結合了華大生命科學研究院的組學大數據經驗,與之江實驗室的計算和模型能力。這種交叉創新壁壘,這是單純的 計算機科學團隊或 生命科學團隊 無法比擬的優勢。

論文里的實驗,大多基于人類基因組基礎模型Genos實現,Genos是研發團隊于去年10月發布的,從可公開獲取的信息來看,Genos多數指標都超越了當前的業界頂流Evo-2。目前,Genos已應用于華大基因面向遺傳病臨床檢測的大語言模型GeneT,助力提高遺傳病分析解讀的水平。

如果說DeepSeek證明了通用AI的極限,那么Genos團隊則用行動展示了當AI深度對齊生物學邏輯時,我們離真正讀懂“生命之書”又近了一大步。


讓我知道你“在看”

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
獨家:阿里全面禁用Claude

獨家:阿里全面禁用Claude

智東西
2026-07-03 13:40:26
知名女企業家郭恒華遭刑拘,因涉陳年“非吸”案被持續舉報?有涉案人稱去年已配合調查!她曾參與成立“巾幗系”,爆雷后全身而退

知名女企業家郭恒華遭刑拘,因涉陳年“非吸”案被持續舉報?有涉案人稱去年已配合調查!她曾參與成立“巾幗系”,爆雷后全身而退

每日經濟新聞
2026-07-03 15:39:04
西安賽格商場墜亡事件,看得人后背發涼

西安賽格商場墜亡事件,看得人后背發涼

蔥哥說
2026-07-02 22:06:49
2026中考全部落幕,監考老師集體破防:現在的初中生,真讓人揪心

2026中考全部落幕,監考老師集體破防:現在的初中生,真讓人揪心

夜深愛雜談
2026-07-03 20:18:28
第二次買房,我堅持選了步梯房!入住后發現:和電梯房差別太大了

第二次買房,我堅持選了步梯房!入住后發現:和電梯房差別太大了

美家指南
2026-07-03 15:50:24
高市早苗與莫迪“兄妹情深”卻不肯喝印度水,漱口也不行,日媒爆料專機上裝滿了礦泉水

高市早苗與莫迪“兄妹情深”卻不肯喝印度水,漱口也不行,日媒爆料專機上裝滿了礦泉水

極目新聞
2026-07-03 20:57:42
被淘汰僅2天,65歲德國足球傳奇下場炮轟,失敗主要是因為女人?

被淘汰僅2天,65歲德國足球傳奇下場炮轟,失敗主要是因為女人?

青梅侃史啊
2026-07-03 09:48:36
39歲梅西神作:世界杯20球 歷史第1人!狂刷6大紀錄 全隊樂了

39歲梅西神作:世界杯20球 歷史第1人!狂刷6大紀錄 全隊樂了

葉青足球世界
2026-07-04 06:45:00
1年390萬美元!德拉蒙德確定加盟尼克斯 湖人心儀內線目標被搶

1年390萬美元!德拉蒙德確定加盟尼克斯 湖人心儀內線目標被搶

羅說NBA
2026-07-04 06:40:23
中美脫鉤越發嚴重

中美脫鉤越發嚴重

譚談投研
2026-07-03 20:37:50
一民警在辦理淫穢表演案過程中,多次與涉案女子發生不正當性關系并收10萬好處費,案件怎么判?

一民警在辦理淫穢表演案過程中,多次與涉案女子發生不正當性關系并收10萬好處費,案件怎么判?

法律內參
2026-07-04 01:03:43
輸球不可怕!可怕的是克羅地亞主帥賽后的這番話,真是無奈至極!

輸球不可怕!可怕的是克羅地亞主帥賽后的這番話,真是無奈至極!

田先生籃球
2026-07-03 10:53:42
一場葬禮劃分全球朋友圈!莫迪避而不出,中國為何高調亮明態度?

一場葬禮劃分全球朋友圈!莫迪避而不出,中國為何高調亮明態度?

小蔣愛嘮嗑
2026-07-04 03:19:23
凡是普通人買不起的東西,現在全在塌!

凡是普通人買不起的東西,現在全在塌!

黯泉
2026-07-03 16:52:10
合成橡膠事業奠基人沈之荃院士逝世,浙江大學發布訃告

合成橡膠事業奠基人沈之荃院士逝世,浙江大學發布訃告

極目新聞
2026-07-03 19:43:38
敗筆!澳大利亞第119分鐘換上34歲門將 結果0撲點+被勺子點球羞辱

敗筆!澳大利亞第119分鐘換上34歲門將 結果0撲點+被勺子點球羞辱

我愛英超
2026-07-04 05:20:55
中央網信辦開展“清朗?網絡娛樂團播亂象整治”專項行動

中央網信辦開展“清朗?網絡娛樂團播亂象整治”專項行動

界面新聞
2026-07-03 09:05:20
世界杯一戰成名!曼聯撿漏超級后腰!性價比完爆兩大億級目標

世界杯一戰成名!曼聯撿漏超級后腰!性價比完爆兩大億級目標

瀾歸序
2026-07-04 05:59:49
提醒家人:6種“偽粗糧”別再亂吃,尤其第3種,很多人拿它當早餐

提醒家人:6種“偽粗糧”別再亂吃,尤其第3種,很多人拿它當早餐

阿龍美食記
2026-07-03 13:45:30
熱議男籃19分不敵日本:媒體吐槽看完一肚子火 球迷高呼郭士強下課

熱議男籃19分不敵日本:媒體吐槽看完一肚子火 球迷高呼郭士強下課

狼叔評論
2026-07-03 21:54:14
2026-07-04 07:36:49
華大集團BGI
華大集團BGI
基因科技造福人類
2283文章數 1968關注度
往期回顧 全部

科技要聞

萬億富豪馬斯克 舍不得特斯拉員工敞開用AI

頭條要聞

埃及點球5-3澳大利亞晉級16強 將戰阿根廷vs佛得角勝者

頭條要聞

埃及點球5-3澳大利亞晉級16強 將戰阿根廷vs佛得角勝者

體育要聞

C羅穿已故隊友若塔球衣謝場 眼中含淚

娛樂要聞

海來阿木孕期出軌指控掀起全網熱議

財經要聞

千億茶市場無贏家:瀾滄巨虧 八馬停"蹄"

汽車要聞

方程豹鈦9內飾曝光 用上了長聯屏設計/下半年上市

態度原創

教育
時尚
藝術
家居
房產

教育要聞

高考地理選擇題10大高頻陷阱

從港姐冠軍到浪姐黑馬,她的滿分狀態居然藏在水里

藝術要聞

這位女子,在畫壇默默無聞,作品清新質樸

家居要聞

傳奇筑 日常詩

房產要聞

總裁空缺17個月、現金缺口超1000億:金融局“局外人”入局萬科

無障礙瀏覽 進入關懷版