![]()
編譯 | 張晴丹
年輕的科研人員容易陷入一個思維定式:想要做科研,必須先自己產生數據,數據等同于經費,經費等同于門檻。無數青年學者被困在這個閉環里寸步難行。
資金緊張、資源有限、人脈不足,這是許多人面臨的共同困境。然而,有一座被忽視的“金礦”就藏在公共數據庫中,等待著擁有新眼光的人去挖掘。
一位年輕的病毒學家Rhys Parry,無意間走上了一條非傳統的科研之路。他沒有花費巨額經費去測序,沒有耗時數年去采樣,而是靠著一臺筆記本電腦和一雙善于發現的眼睛,從全世界公開可下載的“二手數據”中“榨”出了令人驚喜的科學發現。
最終,Parry不僅發了論文,還拿下了國家級項目,走出了一條屬于普通科研人的突圍之路。近日,他在《自然》雜志的“職業專欄”發文,分享自己的經歷。
對于所有渴望證明自己卻苦于資源不足的科研人員來說,或許答案就藏在那些已經被儲存卻鮮被重訪的數據之中。
![]()
Rhys Parry 圖源:昆士蘭大學
3000份數據,一次意外的發現
2018年,在澳大利亞昆士蘭大學的實驗室里,博士生Parry正在與埃及伊蚊細胞系打交道。這是一種常見的蚊子細胞,用于研究蚊媒傳播的疾病。然而,在一次常規的實驗觀察中,他發現了一個異常——細胞系中似乎存在著一種以前從未記錄過的病毒。
這個發現本身并不驚人。事實上,昆蟲細胞經常攜帶持續性的、未被注意的病毒感染,就像老房子里總會有一些不請自來的“住客”。但真正讓這位年輕研究者感到好奇的是,這種新病毒無法感染哺乳動物細胞,而且出人意料的是,它竟然能適度降低登革熱病毒的復制水平。
這個結果瞬間點亮了整個研究的意義。
登革熱,一種由蚊子傳播的急性傳染病,每年威脅著全球數億人的健康。如果有一種昆蟲特異性病毒能夠干擾登革熱的傳播,那將意味著什么?這極有可能成為人類理解甚至阻斷蚊媒傳播疾病的關鍵鑰匙。
博導、分子病毒學家Sassan Asgari敏銳地捕捉到了這個發現的潛力,并鼓勵Parry:“去查查我們實驗室的其他數據集,把搜索范圍擴大。”Asgari想知道,這種病毒在自家實驗室及其他實驗室的埃及伊蚊細胞中究竟有多普遍。
于是,一場跨越全球數據海洋的探險就此開始。
![]()
分析埃及伊蚊的現有數據集,幫助Rhys Parry鑒定出了一種新病毒。圖源:James Gathany
幸運的是,全球各地從事蚊子研究的科研人員,早已將大量轉錄組數據共享。這些數據散落在不同的數據庫中,像一顆顆無人撿拾的石頭。Parry下載了大約3000個數據集,并日復一日地整理、對比、分析,在海量信息中抽絲剝繭,一點點還原出這種病毒在全球范圍內的分布與進化歷史。
他沒有飛往任何一個國家,沒有采集一個樣本,憑借3000個數據集、一臺筆記本電腦,就完成了一次全球范圍內的病毒流行病學調查。而這,僅僅是他在二手數據挖掘之路上的第一步。
從“舊數據”中發現新現象
博士生涯接近尾聲時,一次偶然的機會,他在網上點開了昆士蘭大學病毒學家Alexander Khromykh實驗室已發表的數據集。Khromykh的研究方向是病毒感染期間細胞外囊泡中非編碼RNA的作用,這是一個聽起來相當小眾的領域。
然而,就在這些已被分析過、發表過的數據中,Parry看到了一些“不對勁”的地方:病毒似乎在以一種前所未見的方式切割細胞RNA。
這不是原作者“漏掉”了什么。原作者與Parry的研究問題完全不同,他們的分析框架也完全不同。就像一個畫家專注于畫面的色彩,而一個建筑師卻從中看到了結構。同樣的數據,在不同的問題視角下,呈現出截然不同的面貌。
于是,Parry給Khromykh寫了一封郵件介紹自己的新發現,并奏效了。一封郵件換來了一次交談,然后促成了雙方的一項合作。如今,他和Khromykh已經成為一個國家資助項目的共同研究者,而那個項目的基石正是從“舊數據”中發現的“新現象”。
Parry表示:“根據我的經驗,大多數研究人員都很高興看到他們的數據被這樣使用。我發出的一些郵件促成了合作,另一些則讓作者分享了原始發表論文中未包含的元數據。有時,原作者擁有你所不具備的樣本或設備,能夠以你無法實現的方式對結果進行驗證;他們順手做的一個小實驗,或許就能證實某種關聯,進而成為你下一份申請的初步數據。”
挖掘“二手數據”不是“次等科學”
這個故事的核心,指向一個讓人驚訝的事實:海量的公共數據正在被閑置。
以美國國立衛生研究院下屬的國家生物技術信息中心管理的序列讀段檔案庫(SRA)為例,其擁有超過50PB的數據,而其中大部分在被存儲之后,很少被再次使用。2022年,一個名為Serratus的項目將這些海量讀數與病毒參考基因組進行比對,識別出數千個新的病毒序列,將已知RNA病毒的多樣性擴展了一個數量級。
Parry強調,數千個新病毒從舊數據中發現。這些開創性的努力,展示了當人們真正重視并深耕二手數據分析時,它所撬動的可能性遠超我們的想象。
這種模式并非基因組學領域獨有。放眼整個科學界,臨床試驗數據集、生態學調查記錄、醫學影像檔案……大量高質量資源都可在網上公開獲取,正等待著被重新“拾取”。而絕大多數已發表的分析通常只是觸及了數據所能揭示信息的表面,就像只讀了小說的第一章,卻以為知道了整個故事。
資助機構和出版商要求研究人員歸檔數據,初衷是為了確保結果的可重復性和可驗證性。但歸檔數據的用途遠不止于此。每個數據集都包含超出其生成者所發現之外范圍的關聯。Parry認為,新方法會出現,新假設會涌現,研究領域的變遷可能讓舊數據煥發新生。“我們有機會為現有數據帶來新的視角,發現新的關聯,并在理想情況下驗證它們。”
最有趣的重新分析往往涉及整合不同類型的數據,比如蛋白質組學與轉錄組學,或者衛星圖像與調查數據。Parry建議,從那些你理解其基礎科學原理的數據集開始,但要能提出原作者未曾提出的問題。不過第一步永遠是要檢查元數據。如果需要費力挖掘才能理解相關系統、處理方式、時間點、重復實驗以及實驗平臺,那么重新分析這些數據可能并不值得。
當然,并非所有數據集或所有分析都能產出新東西。Parry自己也承認:“我下載了數千個數據集,最終一無所獲。”但搜索的成本很低,而陰性結果和陽性結果一樣能提供信息。一次執行良好的二次分析可以發表、被引用,并作為初步數據使用,與任何其他科學產出地位相當。
為了表彰在嚴謹的二次數據分析領域作出杰出貢獻的研究者,一個名為“研究寄生蟲獎”的獎項誕生了——它由美國賓夕法尼亞大學支持并在2025年由GigaScience和GigaByte期刊贊助。但Parry認為“寄生蟲”這個類比并不恰當。
![]()
關于“研究寄生蟲獎”的介紹 圖源:PSB
“當一名研究人員存入數據以支持可重復性,而另一個人利用這些數據發現了新東西,這不是剝削,而是科學在按預期方式運作。而且雙方都受益:二次分析者發表了論文,而原始數據的生成者則獲得了新的引用、潛在的合作者,以及其工作影響力的新證據。”Parry說。
當然,Parry也表示,他并不是建議用重新分析取代原始數據的生成。但對于那些無法獲取人脈網絡和大量資源的年輕科研人員來說,已經發表的數據是一座“金礦”,可以為他們提供一種以極低甚至零成本來發表論文和申請資助生成數據的方法。“只需要一個問題、一臺安裝了R或Python編程語言的筆記本電腦,以及一雙愿意重新審視舊數據的眼睛。”
https://www.nature.com/articles/d41586-026-00434-x
https://doi.org/10.1128/JVI.00224-18
本文經授權轉載自微信公眾號“科學網”,編輯:方圓。
![]()
特 別 提 示
1. 進入『返樸』微信公眾號底部菜單“精品專欄“,可查閱不同主題系列科普文章。
2.『返樸』提供按月檢索文章功能。關注公眾號,回復四位數組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.