无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌用上中國“神器”,AI+高質(zhì)量基因測序數(shù)據(jù),讓基因變異無處隱藏

0
分享至


編輯丨王多魚

排版丨水成文

當(dāng)我們在談?wù)?strong>人工智能(AI)如何變革基因組學(xué)時,討論的焦點往往集中在算法模型多么精妙、算力如何強大。但一場由Google Research團隊舉辦的最新線上研討會,卻將聚光燈打向了一個更為基礎(chǔ)、卻常被忽視的要素——基因測序數(shù)據(jù)本身的質(zhì)量


這場名為:Scaling Genomics with Higher Throughput and AI-Driven Variant Calling 的技術(shù)研討會,系統(tǒng)展示了 Google 開發(fā)的一系列高性能 AI 變異檢測工具 DeepVariant、DeepConsensus、DeepSomatic 等的最新進展。引人注目的是,當(dāng)這些頂尖AI工具遇上了來自華大智造/Complete Genomics的DNBSEQ平臺的高質(zhì)量數(shù)據(jù),產(chǎn)生了“1+1>2”的卓越效果。

在進一步解讀之前,我們先快速了解幾個關(guān)鍵指標(biāo),方便理解后續(xù)數(shù)據(jù):

  • Mean Identity(平均序列一致性):簡單來說,就是測出來的 DNA 序列和真實基因組究竟有多像。這個數(shù)字越高,代表測序本身的原始錯誤越少,數(shù)據(jù)越“干凈”。

  • Indel(插入缺失):指? 1-50 bp?的小片段 DNA 的插入(Insertion)和缺失(Deletion),是基因變異的一種類型,也是測序中容易出錯的地方。

  • Homopolymer(同源聚合物):像“AAAAAA”這樣一長串相同堿基的區(qū)域,這里是所有測序技術(shù)的“噩夢區(qū)”,極易出錯。

  • False Negative(假陰性):該檢出的變異實際未檢出,也就是漏檢。

  • False Positive(假陽性):沒有變異的位置檢出變異,也就是錯檢。

明白了這些,讓我們看看這場研討會揭示了哪些關(guān)鍵洞察。

更優(yōu)質(zhì)的起點,更高的天花板

研討會上首先比較了不同測序平臺數(shù)據(jù)的Mean Identity(平均序列一致性)。結(jié)果顯示,在采用先進的泛基因組圖(Pangenome Graph)進行比對時,華大智造最新款超高通量測序儀 DNBSEQ-T7+ 的數(shù)據(jù)獲得了 0.995999 的平均序列一致性,優(yōu)于另一主流平臺 Illumina NovaSeq 的 0.993489。


平均序列一致性比較

如果把 AI 模型比作一位學(xué)生,那么測序數(shù)據(jù)就是它的教材。教材本身錯誤越少(數(shù)據(jù)越干凈),學(xué)生(AI 模型)就越不容易被誤導(dǎo),從而能學(xué)到更準(zhǔn)確的知識,最終在“考試”(變異檢測)中取得更可信的成績。DNBSEQ 平臺提供了更優(yōu)質(zhì)的“教材”,通過更優(yōu)質(zhì)的起點,為后續(xù) AI 分析奠定了更高的天花板。


專屬訓(xùn)練模型,錯誤率顯著降低

Google Research 團隊還做了一次深入實驗:他們不再使用通用模型,而是使用高質(zhì)量的 DNBSEQ-T7+ 數(shù)據(jù),為 DeepVariant 訓(xùn)練了一個 DNBSEQ 專屬模型——DeepVariant DNBSEQ-specific。

這個模型的訓(xùn)練集采用了 GIAB(Genome in a Bottle)標(biāo)準(zhǔn)品(HG001、HG002、HG004、HG005-HG007),并特意將 HG003 樣本和第 20 號染色體(chr20)的數(shù)據(jù)“扣下”,作為從未見過的“考試題”來驗證模型效果。

結(jié)果令人印象深刻:在 HG003 樣本上,DNBSEQ 專屬模型產(chǎn)生的假陽性和假陰性錯誤位點總數(shù)(14183個),顯著少于基于 NovaSeq 數(shù)據(jù)訓(xùn)練的模型(15481 個)。


使用NIST v4.2.1版本變異真集評估(DNBSEQ-T7plus+DeepVariant vs. NovaSeq+DRAGEN)

為了進行更嚴(yán)苛的評估,團隊還請出了最新的“終極考官”——HG002 樣本的 T2T(端粒到端粒)完整基因組變異真集。這個真集包含超過 450 萬個變異位點,遠(yuǎn)超舊版本,能更全面地檢驗性能。

在這個終極測試中,優(yōu)勢進一步拉大:DNBSEQ-T7+ DeepVariant 的總錯誤位點為 64116 個,顯著優(yōu)于 NovaSeq + DRAGEN v4.3 的 71854個,也優(yōu)于 NovaSeq + DeepVariant 的 73213 個。


使用NIST HG002 T2T版本變異真集評估 DNBSEQ-T7plus+DeepVariant vs. NovaSeq+DRAGEN vs. NovaSeq+DeepVariant

結(jié)論很直接:同樣的頂尖 AI 工具 DeepVariant,使用來自不同平臺的測序數(shù)據(jù)訓(xùn)練,產(chǎn)出的“模型成品”質(zhì)量有顯著差異。DNBSEQ 平臺數(shù)據(jù)訓(xùn)練出的模型質(zhì)量更高,變異結(jié)果中假陽性和假陰性位點數(shù)量更少。

攻堅“困難區(qū)域”,表現(xiàn)依然卓越

真正的挑戰(zhàn)在于那些讓所有技術(shù)都頭疼的“困難區(qū)域”。研討會分享的數(shù)據(jù)顯示,在這些區(qū)域,基于 DNBSEQ 的優(yōu)勢更加明顯:

  • 同源聚合物區(qū):在所有同源聚合物區(qū),DNBSEQ + DeepVariant 的 Indel 檢測準(zhǔn)確率比 NovaSeq + DRAGEN 提升了約 55%。這意味著在那些連續(xù) A 或連續(xù) T 的困難區(qū)域,DNBSEQ 能更準(zhǔn)確地判斷是否發(fā)生了堿基的插入或缺失。


同源聚合物區(qū)Indel變異檢測錯誤的比較(DNBSEQ-T7plus+DeepVariant vs. NovaSeq+DRAGEN)

  • 復(fù)雜結(jié)構(gòu)變異區(qū):在片段重復(fù)(Segmental Duplication)和復(fù)雜拷貝數(shù)變異(CNV)區(qū),DNBSEQ + DeepVariant 的錯誤位點數(shù)量比 NovaSeq + DRAGEN 減少了約 30%。


復(fù)雜結(jié)構(gòu)變異區(qū)域檢測錯誤的比較(DNBSEQ-T7plus+DeepVariant vs. NovaSeq+DRAGEN)

其原因在于,兩者的測序化學(xué)原理(DNA 納米球與聯(lián)合探針錨定聚合 vs. 可逆末端終止)不同,使得 DNBSEQ 在這些特定區(qū)域的背景錯誤率天然更低,從而為 AI 模型提供了更清晰的“信號”、帶來了更優(yōu)的變異檢測性能。

平臺間一致性高,表現(xiàn)穩(wěn)定

研討會還評估了華大智造于 2025 年新發(fā)布的另一款平臺DNBSEQ-T1+,相比主打高通量的 DNBSEQ-T7+,DNBSEQ-T1+ 主打靈活性。結(jié)果顯示,無論是更高通量的 T7+,還是更靈活的 T1+,其數(shù)據(jù)訓(xùn)練出的模型在變異檢測性能上均保持一致的高水平,且都優(yōu)于對比方案。


使用NIST HG002 T2T版本變異真集評估(DNBSEQ-T1plus+DeepVariant vs. NovaSeq+DRAGEN 4.5)

這意味著,DNBSEQ 平臺在不同型號和通量下,都能提供穩(wěn)定、可靠的高質(zhì)量數(shù)據(jù),滿足從大規(guī)模種群項目到小型快速研究的不同需求,而無需擔(dān)心數(shù)據(jù)質(zhì)量波動影響分析結(jié)果。

重新定義性能邊界,數(shù)據(jù)質(zhì)量是基石

這場研討會傳達(dá)了一個明確而重要的信號——在泛基因組參考圖譜人工智能這兩大前沿技術(shù)的推動下,基因組變異檢測的性能邊界正在被不斷刷新。然而,無論上層的算法如何演進,底層測序數(shù)據(jù)的質(zhì)量,始終是決定最終分析高度的基石。

Google Research 此次系統(tǒng)性的評估表明,DNBSEQ 測序平臺所提供的高準(zhǔn)確性、低錯誤率的數(shù)據(jù),能夠顯著提升以 DeepVariant 為代表的 AI 變異檢測工具的性能,尤其是在最富挑戰(zhàn)性的基因組區(qū)域。這為追求最高數(shù)據(jù)質(zhì)量和分析精準(zhǔn)度的基因組學(xué)研究者,提供了一個強有力的技術(shù)組合選擇。

這些評估結(jié)果提示我們,AI 在基因組學(xué)領(lǐng)域的競賽,不僅發(fā)生在算法和算力層面,更發(fā)生在數(shù)據(jù)產(chǎn)生的源頭。當(dāng) AI 模型擁有了更清澈的“眼睛”,它才能為我們看清生命密碼中更細(xì)微、更真實的奧秘。

值得一提的是,Google Research團隊聯(lián)合華大智造中國科學(xué)院大學(xué)的研究人員,在預(yù)印本平臺bioRxiv發(fā)表了題為:PanVariants: Best Practice for Pangenome-based Variant Calling Pipeline and Framework 的研究論文。


該研究建立了一個基于泛基因組的變異檢測的穩(wěn)健框架和最佳實踐流程——PanVariants,實現(xiàn)了對新變異的靈敏發(fā)現(xiàn)以及單核苷酸變異(SNV)、插入缺失(indel)和結(jié)構(gòu)變異(SV)的高精度檢測,有力支持了未來基因組學(xué)從線性向泛基因組參考的轉(zhuǎn)變。


DNBSEQ+PanVariants 實現(xiàn)了對 NovaSeq+DRAGEN 的變異檢測性能的超越

論文鏈接

https://doi.org/10.64898/2026.04.22.720142

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
出乎意料!特朗普原定訪華計劃作廢,中方官宣,特意增加停留時間

出乎意料!特朗普原定訪華計劃作廢,中方官宣,特意增加停留時間

黑鷹觀軍事
2026-05-11 16:30:09
京滬高鐵宣布,漲價!

京滬高鐵宣布,漲價!

中國基金報
2026-05-11 19:58:07
突發(fā)!韓股跳水

突發(fā)!韓股跳水

證券時報
2026-05-12 10:04:04
最聰明的養(yǎng)老方式:死守這5條“不要臉”鐵律

最聰明的養(yǎng)老方式:死守這5條“不要臉”鐵律

小鹿姐姐情感說
2026-05-11 14:57:42
特朗普訪華前,兩大鄰國突然對華出手,要切斷中國“經(jīng)濟命脈”

特朗普訪華前,兩大鄰國突然對華出手,要切斷中國“經(jīng)濟命脈”

鐵甲觀
2026-05-11 13:12:42
外交部介紹美國總統(tǒng)特朗普訪華安排和中方期待

外交部介紹美國總統(tǒng)特朗普訪華安排和中方期待

每日經(jīng)濟新聞
2026-05-12 06:06:54
國家德比時亞馬爾造型吸睛,愛馬仕胸包大約7000至13000歐元

國家德比時亞馬爾造型吸睛,愛馬仕胸包大約7000至13000歐元

懂球帝
2026-05-12 09:44:11
研究表明:性生活次數(shù)不達(dá)標(biāo),不管男女容易早衰且癌癥風(fēng)險增高!

研究表明:性生活次數(shù)不達(dá)標(biāo),不管男女容易早衰且癌癥風(fēng)險增高!

黯泉
2026-05-03 20:25:37
連續(xù)2場上演輸2追3!梁靖崑被王皓調(diào)侃:梁教授這很符合你的專業(yè)

連續(xù)2場上演輸2追3!梁靖崑被王皓調(diào)侃:梁教授這很符合你的專業(yè)

風(fēng)過鄉(xiāng)
2026-05-12 10:30:02
劉三姐“全裸演出”引爭議,張藝謀惹怒全網(wǎng)

劉三姐“全裸演出”引爭議,張藝謀惹怒全網(wǎng)

李東陽朋友圈
2026-05-10 12:12:45
終于確認(rèn),特朗普將登上訪華專機,英媒斷言:美國的時代已經(jīng)結(jié)束

終于確認(rèn),特朗普將登上訪華專機,英媒斷言:美國的時代已經(jīng)結(jié)束

知法而形
2026-05-11 13:08:11
乘客拒付40元高速費 00后車主又把其拉回起點:可以雙輸 但不能單贏

乘客拒付40元高速費 00后車主又把其拉回起點:可以雙輸 但不能單贏

中國能源網(wǎng)
2026-05-11 15:05:05
女學(xué)霸發(fā)明“咯噔字體”,老師低分警告:別用個性挑戰(zhàn)考試底線

女學(xué)霸發(fā)明“咯噔字體”,老師低分警告:別用個性挑戰(zhàn)考試底線

蝴蝶花雨話教育
2026-05-07 00:05:04
賣掉格力換來的416億,被他們“敗”光了!

賣掉格力換來的416億,被他們“敗”光了!

犀利強哥
2026-05-11 08:30:22
關(guān)窗!關(guān)燈!深圳多地突然大量出現(xiàn),頭皮發(fā)麻!網(wǎng)友崩潰:住30幾層都逃不掉

關(guān)窗!關(guān)燈!深圳多地突然大量出現(xiàn),頭皮發(fā)麻!網(wǎng)友崩潰:住30幾層都逃不掉

南方都市報
2026-05-12 08:03:14
唐裝穿在身,曼聯(lián)在對桑德蘭賽前身穿中國特色的賽前服裝入場

唐裝穿在身,曼聯(lián)在對桑德蘭賽前身穿中國特色的賽前服裝入場

懂球帝
2026-05-12 01:17:05
中國政府獎學(xué)金留學(xué)人員抵達(dá)平壤,正式開啟在朝留學(xué)生活

中國政府獎學(xué)金留學(xué)人員抵達(dá)平壤,正式開啟在朝留學(xué)生活

大風(fēng)新聞
2026-05-11 08:36:09
不要被電視劇騙了!真實的七十年代,可比你想象中的還要精彩!

不要被電視劇騙了!真實的七十年代,可比你想象中的還要精彩!

浩渺青史
2026-05-10 19:14:06
里子面子都丟了,森林北自曝身體出了問題,汪峰的體面被撕碎

里子面子都丟了,森林北自曝身體出了問題,汪峰的體面被撕碎

素衣讀史
2025-11-19 16:09:14
梁靖崑:幸福嘍!明星老婆特意去倫敦見證奪冠,離婚復(fù)婚后超寵妻

梁靖崑:幸福嘍!明星老婆特意去倫敦見證奪冠,離婚復(fù)婚后超寵妻

阿訊說天下
2026-05-12 12:32:35
2026-05-12 15:07:00
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科學(xué)研究
9366文章數(shù) 145077關(guān)注度
往期回顧 全部

科技要聞

納德拉法庭爆料:拒當(dāng)“AI時代的IBM”

頭條要聞

45歲獨身男子病逝15萬存款被指遭民政局轉(zhuǎn)走 當(dāng)?shù)鼗貞?yīng)

頭條要聞

45歲獨身男子病逝15萬存款被指遭民政局轉(zhuǎn)走 當(dāng)?shù)鼗貞?yīng)

體育要聞

總是掉鏈子的“倒霉蛋”,闖進了歐戰(zhàn)決賽

娛樂要聞

劉濤曬媽祖誕辰活動照 評論區(qū)變許愿池

財經(jīng)要聞

黃仁勛真是被白宮徹底封殺了

汽車要聞

吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達(dá)

態(tài)度原創(chuàng)

數(shù)碼
親子
手機
教育
軍事航空

數(shù)碼要聞

Omdia稱2025年全球游戲顯示器出貨4100萬臺,同比增50.2%

親子要聞

鄭州月子中心監(jiān)控被調(diào)出,親嘴摳鼻喂嬰兒,看完直接惡心到吐!

手機要聞

熱度不減:消息稱三星上調(diào)5月Galaxy S26標(biāo)準(zhǔn)/Ultra機型產(chǎn)量

教育要聞

過來人忠告:初中掉隊的孩子90%都栽在一個習(xí)慣,現(xiàn)在改還來得及

軍事要聞

知情人士披露:美國或考慮恢復(fù)對伊朗軍事行動

無障礙瀏覽 進入關(guān)懷版