"你的下一個重大發現,可能藏在別人的硬盤里。"
當Rhys Parry在澳大利亞昆士蘭大學的實驗室里,盯著那臺普通的筆記本電腦屏幕時,他或許沒想到,自己即將用零采樣、零測序、零 wet lab的方式,完成一項足以改變學術生涯的研究。
![]()
沒有昂貴的試劑盒,沒有熬夜的PCR,沒有為搶儀器而設置的凌晨鬧鐘。他只是下載了3000個公開數據集,用R語言和Python寫了一堆代碼——然后,一篇論文誕生了,一個國家項目到手了,一條屬于普通科研人的突圍之路,就這么走通了。
這不是科幻,這是2026年《自然》雜志職業專欄正在向全球青年學者推薦的"科研新范式"。
一、一次"意外"的發現:蚊子細胞里的病毒密碼
故事要從2018年那個平凡的下午說起。
博士生Parry正在擺弄埃及伊蚊細胞系——這種實驗材料在蚊媒病毒研究領域,就像小白鼠在遺傳學實驗室一樣常見。但就在一次常規觀察中,他發現了異常:細胞里藏著一種從未被記錄的病毒。
更神奇的是,這種病毒雖然感染不了哺乳動物細胞,卻能抑制登革熱病毒的復制。
![]()
登革熱,每年威脅全球數億人健康的"熱區殺手"。如果有一種昆蟲特異性病毒能干擾它的傳播?這簡直是打開了一扇新大門。
導師Sassan Asgari敏銳地捕捉到了這個信號的含金量:"別只盯著咱們實驗室,去查查全世界的數據。"
于是,Parry開始了他的"數據考古"之旅。
二、3000個數據集,一臺筆記本,一場"零成本"的全球流行病學調查
接下來的日子,Parry的生活變成了這樣:
沒有飛往東南亞的采樣之旅
沒有與當地疾控部門的繁瑣協調
沒有數萬元的測序賬單
只有下載、清洗、比對、分析
他從全球各地的公開數據庫中,搜集了約3000個埃及伊蚊轉錄組數據集。這些數據散落在NCBI的SRA檔案庫、各種補充材料、機構倉庫里,像被遺棄在數字海洋中的珍珠。
"大多數數據在被上傳后,就再也沒有被打開過。"Parry在《自然》的文章中寫道。
但他打開了。日復一日,他在海量信息中抽絲剝繭,最終繪制出了這種新病毒的全球分布圖譜和進化歷史。
這相當于完成了一次覆蓋多國的病毒流行病學調查——而成本,只是一臺筆記本電腦的電費。
三、舊數據里的"新大陸":當別人的論文成為你的金礦
博士快畢業時,Parry的"數據嗅覺"變得更加敏銳。
一次偶然的機會,他點開了同校教授Alexander Khromykh實驗室已發表的數據集。這項研究原本關注的是"病毒感染期間細胞外囊泡中的非編碼RNA"——聽起來相當小眾,已經被原作者分析完畢,論文也早已見刊。
但Parry看到了不一樣的東西:病毒正在以一種前所未見的方式切割細胞RNA。
這不是原作者"漏掉"了發現。而是不同的問題視角,讓同樣的數據呈現出不同的面貌。
就像同一個城市,游客看到的是風景,建筑師看到的是結構,社會學家看到的是階層。數據從來不說話,它只回應那些懂得提問的人。
Parry給Khromykh發了封郵件。一封郵件,變成了一次交談,然后是一項合作,最終是一個國家資助項目的共同研究席位。
"大多數研究人員都很高興看到他們的數據被這樣使用,"Parry說,"原作者順手做的一個小實驗,或許就能證實你的猜想,成為你下一份申請的初步數據。"
四、50PB的"沉睡金礦":為什么99%的數據只被用過一次?
讓我們看一組震撼的數字:
美國NCBI的序列讀段檔案庫(SRA),存儲著超過50PB的數據。
什么概念?如果把這些數據刻成光盤,疊起來的高度能超過珠峰。但諷刺的是,其中大部分數據在上傳后,幾乎再也沒有被訪問過。
2022年,Serratus項目做了一件瘋狂的事:將這50PB數據與病毒參考基因組批量比對。結果?識別出數千個新病毒序列,將已知RNA病毒的多樣性擴展了一個數量級。
這些病毒一直都在那里,只是沒人去看。
Parry指出,這種現象不限于基因組學:
臨床試驗數據集在倉庫里積灰
生態學調查記錄等待著第二次解讀
醫學影像檔案藏著未被發現的模式
"絕大多數已發表的分析,只是觸及了數據所能揭示信息的表面,就像只讀了小說的第一章,卻以為知道了整個故事。"
五、"研究寄生蟲"?不,這是科學的最佳打開方式
有人給這種研究方式起了一個刺耳的名字:"研究寄生蟲"(Research Parasite)。美國賓夕法尼亞大學甚至設立了一個同名獎項,專門表彰在二次數據分析領域做出杰出貢獻的學者。
但Parry強烈反對這個標簽。
![]()
"當一名研究人員存入數據以支持可重復性,而另一個人利用這些數據發現了新東西,這不是剝削,而是科學在按預期方式運作。"
這是一個雙贏的游戲:
二次分析者:發表論文、獲得資助、建立合作
原始數據生產者:獲得新引用、潛在合作者、影響力證據
數據共享的初衷是"可重復性",但它的價值遠超于此。新方法會出現,新假設會涌現,研究領域的變遷會讓舊數據煥發新生。
"我們有機會為現有數據帶來新的視角,發現新的關聯,并在理想情況下驗證它們。"
六、實操指南:如何開啟你的"數據淘金"之旅?
如果你是一名資源有限的青年學者,或者只是想換個角度做科研,Parry給出了具體建議:
1. 選對數據源
從那些你理解其基礎科學原理的數據集開始。蛋白質組學、轉錄組學、影像數據、生態調查記錄……選擇與你的專業背景契合的領域。
2. 先查元數據
這是最關鍵的一步。如果元數據殘缺不全——你不知道樣本怎么處理、什么時間點采集、重復實驗如何設計、用什么平臺測序——那么重新分析這些數據可能得不償失。
3. 提出新問題
核心心法:原作者想解決的問題,不是你想解決的問題。
Khromykh關心的是非編碼RNA,Parry關心的是病毒切割機制。同樣的數據,不同的問題,不同的發現。
4. 整合多維度
最有趣的重新分析往往涉及數據融合:
蛋白質組學 + 轉錄組學
衛星圖像 + 地面調查
臨床數據 + 基因組數據
交叉地帶,最容易誕生意外之喜。
5. 接受"一無所獲"
Parry坦言:"我下載了數千個數據集,最終一無所獲。"
但搜索成本極低,而陰性結果和陽性結果一樣能提供信息。更重要的是,一旦有所發現,其性價比遠超傳統實驗。
七、寫給中國科研人的思考
在這個內卷加劇、經費緊張的時代,Parry的故事給了我們幾點啟示:
第一,打破"數據=經費=門檻"的思維定式。
很多青年學者被困在這個閉環里:沒有經費→無法產生數據→無法發論文→無法申請經費。但公共數據提供了一個零成本破局點。
第二,"二手數據"不是次等科學。
Serratus項目從舊數據中發現數千新病毒,Parry用二手數據拿下國家項目。在《自然》看來,這是"最聰明的科研方式"之一。
第三,數據素養正在成為核心競爭力。
未來的科研競爭,不僅是實驗技能的比拼,更是數據挖掘能力、計算能力、跨學科整合能力的較量。會寫代碼的生物學家,會懂生物學的數據科學家,將擁有巨大優勢。
結語:你的發現,可能就在別人的硬盤里
Rhys Parry的故事,不是鼓勵大家放棄實驗科學,而是提醒每一個科研人:
在這個數據爆炸卻利用率極低的時代,機遇可能以意想不到的形式出現。
它不需要你擁有頂級實驗室,不需要你背靠大樹,不需要你耗盡積蓄購買試劑。它只需要:
一個好問題
一臺裝了R或Python的筆記本
一雙愿意重新審視舊數據的眼睛
正如《自然》雜志所建議的:最聰明的科研,或許是學會"重新利用"別人的數據。
畢竟,科學的本質不是重復造輪子,而是在已知中發現未知,在舊物中看見新生。
下一個改變你學術生涯的發現,也許就藏在某個公開數據庫的角落里,等待著被下載、被解讀、被賦予新的生命。
而你,會是那個發現它的人嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.