![]()
編譯 | 張晴丹
年輕的科研人員容易陷入一個思維定式:想要做科研,必須先自己產(chǎn)生數(shù)據(jù),數(shù)據(jù)等同于經(jīng)費(fèi),經(jīng)費(fèi)等同于門檻。無數(shù)青年學(xué)者被困在這個閉環(huán)里寸步難行。
資金緊張、資源有限、人脈不足,這是許多人面臨的共同困境。然而,有一座被忽視的“金礦”就藏在公共數(shù)據(jù)庫中,等待著擁有新眼光的人去挖掘。
一位年輕的病毒學(xué)家Rhys Parry,無意間走上了一條非傳統(tǒng)的科研之路。他沒有花費(fèi)巨額經(jīng)費(fèi)去測序,沒有耗時數(shù)年去采樣,而是靠著一臺筆記本電腦和一雙善于發(fā)現(xiàn)的眼睛,從全世界公開可下載的“二手?jǐn)?shù)據(jù)”中“榨”出了令人驚喜的科學(xué)發(fā)現(xiàn)。
最終,Parry不僅發(fā)了論文,還拿下了國家級項(xiàng)目,走出了一條屬于普通科研人的突圍之路。近日,他在《自然》雜志的“職業(yè)專欄”發(fā)文,分享自己的經(jīng)歷。
對于所有渴望證明自己卻苦于資源不足的科研人員來說,或許答案就藏在那些已經(jīng)被儲存卻鮮被重訪的數(shù)據(jù)之中。
![]()
Rhys Parry 圖源:昆士蘭大學(xué)
3000份數(shù)據(jù),一次意外的發(fā)現(xiàn)
2018年,在澳大利亞昆士蘭大學(xué)的實(shí)驗(yàn)室里,博士生Parry正在與埃及伊蚊細(xì)胞系打交道。這是一種常見的蚊子細(xì)胞,用于研究蚊媒傳播的疾病。然而,在一次常規(guī)的實(shí)驗(yàn)觀察中,他發(fā)現(xiàn)了一個異常——細(xì)胞系中似乎存在著一種以前從未記錄過的病毒。
這個發(fā)現(xiàn)本身并不驚人。事實(shí)上,昆蟲細(xì)胞經(jīng)常攜帶持續(xù)性的、未被注意的病毒感染,就像老房子里總會有一些不請自來的“住客”。但真正讓這位年輕研究者感到好奇的是,這種新病毒無法感染哺乳動物細(xì)胞,而且出人意料的是,它竟然能適度降低登革熱病毒的復(fù)制水平。
這個結(jié)果瞬間點(diǎn)亮了整個研究的意義。
登革熱,一種由蚊子傳播的急性傳染病,每年威脅著全球數(shù)億人的健康。如果有一種昆蟲特異性病毒能夠干擾登革熱的傳播,那將意味著什么?這極有可能成為人類理解甚至阻斷蚊媒傳播疾病的關(guān)鍵鑰匙。
博導(dǎo)、分子病毒學(xué)家Sassan Asgari敏銳地捕捉到了這個發(fā)現(xiàn)的潛力,并鼓勵Parry:“去查查我們實(shí)驗(yàn)室的其他數(shù)據(jù)集,把搜索范圍擴(kuò)大。”Asgari想知道,這種病毒在自家實(shí)驗(yàn)室及其他實(shí)驗(yàn)室的埃及伊蚊細(xì)胞中究竟有多普遍。
于是,一場跨越全球數(shù)據(jù)海洋的探險就此開始。
![]()
分析埃及伊蚊的現(xiàn)有數(shù)據(jù)集,幫助Rhys Parry鑒定出了一種新病毒。圖源:James Gathany
幸運(yùn)的是,全球各地從事蚊子研究的科研人員,早已將大量轉(zhuǎn)錄組數(shù)據(jù)共享。這些數(shù)據(jù)散落在不同的數(shù)據(jù)庫中,像一顆顆無人撿拾的石頭。Parry下載了大約3000個數(shù)據(jù)集,并日復(fù)一日地整理、對比、分析,在海量信息中抽絲剝繭,一點(diǎn)點(diǎn)還原出這種病毒在全球范圍內(nèi)的分布與進(jìn)化歷史。
他沒有飛往任何一個國家,沒有采集一個樣本,憑借3000個數(shù)據(jù)集、一臺筆記本電腦,就完成了一次全球范圍內(nèi)的病毒流行病學(xué)調(diào)查。而這,僅僅是他在二手?jǐn)?shù)據(jù)挖掘之路上的第一步。
從“舊數(shù)據(jù)”中發(fā)現(xiàn)新現(xiàn)象
博士生涯接近尾聲時,一次偶然的機(jī)會,他在網(wǎng)上點(diǎn)開了昆士蘭大學(xué)病毒學(xué)家Alexander Khromykh實(shí)驗(yàn)室已發(fā)表的數(shù)據(jù)集。Khromykh的研究方向是病毒感染期間細(xì)胞外囊泡中非編碼RNA的作用,這是一個聽起來相當(dāng)小眾的領(lǐng)域。
然而,就在這些已被分析過、發(fā)表過的數(shù)據(jù)中,Parry看到了一些“不對勁”的地方:病毒似乎在以一種前所未見的方式切割細(xì)胞RNA。
這不是原作者“漏掉”了什么。原作者與Parry的研究問題完全不同,他們的分析框架也完全不同。就像一個畫家專注于畫面的色彩,而一個建筑師卻從中看到了結(jié)構(gòu)。同樣的數(shù)據(jù),在不同的問題視角下,呈現(xiàn)出截然不同的面貌。
于是,Parry給Khromykh寫了一封郵件介紹自己的新發(fā)現(xiàn),并奏效了。一封郵件換來了一次交談,然后促成了雙方的一項(xiàng)合作。如今,他和Khromykh已經(jīng)成為一個國家資助項(xiàng)目的共同研究者,而那個項(xiàng)目的基石正是從“舊數(shù)據(jù)”中發(fā)現(xiàn)的“新現(xiàn)象”。
Parry表示:“根據(jù)我的經(jīng)驗(yàn),大多數(shù)研究人員都很高興看到他們的數(shù)據(jù)被這樣使用。我發(fā)出的一些郵件促成了合作,另一些則讓作者分享了原始發(fā)表論文中未包含的元數(shù)據(jù)。有時,原作者擁有你所不具備的樣本或設(shè)備,能夠以你無法實(shí)現(xiàn)的方式對結(jié)果進(jìn)行驗(yàn)證;他們順手做的一個小實(shí)驗(yàn),或許就能證實(shí)某種關(guān)聯(lián),進(jìn)而成為你下一份申請的初步數(shù)據(jù)。”
挖掘“二手?jǐn)?shù)據(jù)”不是“次等科學(xué)”
這個故事的核心,指向一個讓人驚訝的事實(shí):海量的公共數(shù)據(jù)正在被閑置。
以美國國立衛(wèi)生研究院下屬的國家生物技術(shù)信息中心管理的序列讀段檔案庫(SRA)為例,其擁有超過50PB的數(shù)據(jù),而其中大部分在被存儲之后,很少被再次使用。2022年,一個名為Serratus的項(xiàng)目將這些海量讀數(shù)與病毒參考基因組進(jìn)行比對,識別出數(shù)千個新的病毒序列,將已知RNA病毒的多樣性擴(kuò)展了一個數(shù)量級。
Parry強(qiáng)調(diào),數(shù)千個新病毒從舊數(shù)據(jù)中發(fā)現(xiàn)。這些開創(chuàng)性的努力,展示了當(dāng)人們真正重視并深耕二手?jǐn)?shù)據(jù)分析時,它所撬動的可能性遠(yuǎn)超我們的想象。
這種模式并非基因組學(xué)領(lǐng)域獨(dú)有。放眼整個科學(xué)界,臨床試驗(yàn)數(shù)據(jù)集、生態(tài)學(xué)調(diào)查記錄、醫(yī)學(xué)影像檔案……大量高質(zhì)量資源都可在網(wǎng)上公開獲取,正等待著被重新“拾取”。而絕大多數(shù)已發(fā)表的分析通常只是觸及了數(shù)據(jù)所能揭示信息的表面,就像只讀了小說的第一章,卻以為知道了整個故事。
資助機(jī)構(gòu)和出版商要求研究人員歸檔數(shù)據(jù),初衷是為了確保結(jié)果的可重復(fù)性和可驗(yàn)證性。但歸檔數(shù)據(jù)的用途遠(yuǎn)不止于此。每個數(shù)據(jù)集都包含超出其生成者所發(fā)現(xiàn)之外范圍的關(guān)聯(lián)。Parry認(rèn)為,新方法會出現(xiàn),新假設(shè)會涌現(xiàn),研究領(lǐng)域的變遷可能讓舊數(shù)據(jù)煥發(fā)新生。“我們有機(jī)會為現(xiàn)有數(shù)據(jù)帶來新的視角,發(fā)現(xiàn)新的關(guān)聯(lián),并在理想情況下驗(yàn)證它們。”
最有趣的重新分析往往涉及整合不同類型的數(shù)據(jù),比如蛋白質(zhì)組學(xué)與轉(zhuǎn)錄組學(xué),或者衛(wèi)星圖像與調(diào)查數(shù)據(jù)。Parry建議,從那些你理解其基礎(chǔ)科學(xué)原理的數(shù)據(jù)集開始,但要能提出原作者未曾提出的問題。不過第一步永遠(yuǎn)是要檢查元數(shù)據(jù)。如果需要費(fèi)力挖掘才能理解相關(guān)系統(tǒng)、處理方式、時間點(diǎn)、重復(fù)實(shí)驗(yàn)以及實(shí)驗(yàn)平臺,那么重新分析這些數(shù)據(jù)可能并不值得。
當(dāng)然,并非所有數(shù)據(jù)集或所有分析都能產(chǎn)出新東西。Parry自己也承認(rèn):“我下載了數(shù)千個數(shù)據(jù)集,最終一無所獲。”但搜索的成本很低,而陰性結(jié)果和陽性結(jié)果一樣能提供信息。一次執(zhí)行良好的二次分析可以發(fā)表、被引用,并作為初步數(shù)據(jù)使用,與任何其他科學(xué)產(chǎn)出地位相當(dāng)。
為了表彰在嚴(yán)謹(jǐn)?shù)亩螖?shù)據(jù)分析領(lǐng)域作出杰出貢獻(xiàn)的研究者,一個名為“研究寄生蟲獎”的獎項(xiàng)誕生了——它由美國賓夕法尼亞大學(xué)支持并在2025年由GigaScience和GigaByte期刊贊助。但Parry認(rèn)為“寄生蟲”這個類比并不恰當(dāng)。
![]()
關(guān)于“研究寄生蟲獎”的介紹 圖源:PSB
“當(dāng)一名研究人員存入數(shù)據(jù)以支持可重復(fù)性,而另一個人利用這些數(shù)據(jù)發(fā)現(xiàn)了新東西,這不是剝削,而是科學(xué)在按預(yù)期方式運(yùn)作。而且雙方都受益:二次分析者發(fā)表了論文,而原始數(shù)據(jù)的生成者則獲得了新的引用、潛在的合作者,以及其工作影響力的新證據(jù)。”Parry說。
當(dāng)然,Parry也表示,他并不是建議用重新分析取代原始數(shù)據(jù)的生成。但對于那些無法獲取人脈網(wǎng)絡(luò)和大量資源的年輕科研人員來說,已經(jīng)發(fā)表的數(shù)據(jù)是一座“金礦”,可以為他們提供一種以極低甚至零成本來發(fā)表論文和申請資助生成數(shù)據(jù)的方法。“只需要一個問題、一臺安裝了R或Python編程語言的筆記本電腦,以及一雙愿意重新審視舊數(shù)據(jù)的眼睛。”
https://www.nature.com/articles/d41586-026-00434-x
https://doi.org/10.1128/JVI.00224-18
本文經(jīng)授權(quán)轉(zhuǎn)載自微信公眾號“科學(xué)網(wǎng)”,編輯:方圓。
![]()
特 別 提 示
1. 進(jìn)入『返樸』微信公眾號底部菜單“精品專欄“,可查閱不同主題系列科普文章。
2.『返樸』提供按月檢索文章功能。關(guān)注公眾號,回復(fù)四位數(shù)組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.