當統計學成為遮羞布
2026年初春,一篇關于明星減肥藥的論文悄然從學術期刊上消失。這篇研究曾信誓旦旦地宣稱,兩種藥物聯用能讓患者多減掉4%的體重——在GLP-1類藥物席卷全球醫藥市場的當下,這個數字足以讓臨床醫生眼前一亮。
但貝勒醫學院的統計學家David Allison在審閱時發現了蹊蹺。他反復研讀論文的統計方法,卻始終無法復現作者的結論。更令人困惑的是,當他試圖理解作者究竟采用了何種分析路徑時,竟發現這套方法在邏輯上根本無法推導出論文所聲稱的結果。
![]()
半年多的調查拉鋸后,期刊最終撤回了這篇論文。所有作者都不同意這個決定,他們正在準備辯護信。但這已無關緊要。
真正值得警惕的不是這一篇論文的命運,而是它背后那個正在失控的龐大陰影。
三年暴漲六倍的學術奇觀
讓我們看一組數字:2021年,全球基于美國FDA不良事件報告系統的研究論文約有100篇。三年后,這個數字飆升至600篇。這不是某個新興領域的自然爆發,而是一場有組織的學術淘金熱。
FAERS系統原本是個好東西。這個由美國藥監部門維護的數據庫,收錄了二十年來數千萬條藥物副作用報告,為上市后的藥品安全監管提供了重要依據。法國藥理學家Charles Khouri估計,市面上六成到七成的藥品說明書修訂,都源于這類藥物警戒數據庫的監測發現。
![]()
但金礦一旦被發現,挖礦的人就蜂擁而至。
這套系統的致命誘惑在于它的開放性。任何人都可以免費下載數據,任何藥物都可以成為研究對象,任何副作用組合都可以被檢驗。當數據庫的規模達到數百萬種藥物與數百萬種不良事件的量級時,統計學上的"顯著發現"就變成了可以批量制造的工業產品。
這本質上是一種合法的學術博彩:只要檢驗的次數足夠多,總能湊出一個看似有意義的p值。
更隱蔽的陷阱在于數據本身的缺陷。FAERS依賴自愿上報,沒有人知道實際發生的副作用有多少比例被記錄。一種被媒體反復報道的"網紅藥",其副作用報告量可能遠超那些同樣廣泛使用但缺乏話題性的老藥。這種報告偏倚不是技術誤差,而是系統性的信息扭曲,卻極少被論文作者認真對待。
流水線生產的"科學發現"
Khouri和他的合作者深入分析了這股論文洪流的共同特征。他們發現了令人驚訝的標準化痕跡。
正常的藥物安全研究通常選用一種成熟的不成比例分析方法,因為多種方法并用往往是冗余的。但灌水論文偏偏熱衷于堆砌方法,仿佛方法越多,結論就越可靠。他們還發明了一種名為"鏡像圖"的可視化工具,把同樣的時間信息在同一幅圖里畫兩遍,美其名曰展示"發病時間規律",實則毫無信息增量。
但真正暴露底牌的,是這些論文普遍缺乏一個核心要素:研究問題。
規范的學術研究始于一個具體的臨床疑問。為什么懷疑這種藥會導致這種副作用?基于什么生物學機制或前期觀察?這些FAERS批量論文往往跳過這一步,直接把藥物扔進數據庫,讓算法去挖掘"信號",再把挖掘結果包裝成科學發現。
![]()
這種無的放矢的研究模式,偶爾會產出令人啼笑皆非的"成果"。比如有論文通過數據分析"發現",治療肺動脈高壓的藥物西地那非,與肺動脈高壓存在統計關聯。這就像通過大數據發現"醫院與疾病高度相關"一樣,把因果關系徹底顛倒了。研究者對藥物基本適應癥的無知,在這種"發現"中暴露無遺。
產能爆發的背后推手
論文數量的異常曲線,往往指向評價體系的畸形激勵。
Khouri團隊的文獻計量分析揭示了一個尖銳的地理分布:近期發表的相關論文中,近八成來自中國研究機構。而在2021年之前,中國作者在這個細分領域幾乎空白。這種從零到壟斷的跨越,很難用學術興趣的自然轉移來解釋。
更具體的線索來自作者署名。某所高校的一位研究者獨力貢獻了27篇相關論文,其中7篇發表在頂級專業期刊上。同校同事緊隨其后,另一所高校也有多人上榜。這種集中產能,遠超個人學術興趣的范疇,更像是生產線上的分工協作。
英國學者Matt Spick將這種現象置于更宏觀的背景下審視。他追蹤了包括FAERS在內的五個公共數據庫,發現它們的論文產出曲線呈現相似的異常模式。這與另一個案例高度吻合:美國全國健康營養調查數據庫NHANES,在2021年至2024年間同樣經歷了單關聯研究論文的井噴。
Spick指出,一旦數據庫上網,論文工廠的制約因素就只剩下 imagination 和投稿速度。數據下載是即時的,分析腳本可以復用,論文框架能夠模板化。再輔以生成式AI的文本潤色,一條零成本、高產出的學術產業鏈就此成型。
這不是孤立的學術失范,而是一場技術賦能的系統性沖擊。
期刊的防御與潰敗
最先感受到壓力的是學術期刊的編輯們。
《藥物安全專家觀點》的主編在2024年夏天下達了禁令:不再接受未經邀請的FAERS數據分析投稿。出版方的解釋很直白——投稿量"顯著上升",即使投入額外資源進行預審,拒稿率仍超過八成,系統已不堪重負。具有諷刺意味的是,這位主編本人也署名發表了多篇基于FAERS的論文。
《藥理學前沿》選擇了另一條路。他們要求所有基于公共數據集的研究必須提供外部獨立驗證,試圖用提高門檻的方式過濾掉流水線產品。新政實施后效果顯著:739篇投稿被拒,僅9篇通過新規發表。
但這些措施只能阻擋未來的潮水,對已淹沒岸邊的洪水無能為力。
撤稿機制在此陷入了尷尬的沉默。
現有的學術糾錯體系擅長處理明確的造假:數據篡改、圖片拼接、抄襲剽竊,這些都有清晰的判定標準。但FAERS論文使用的是真實數據,運行的是正版軟件,輸出的統計指標格式規范。它們的問題不在于真偽,而在于無意義——沒有研究假說支撐的統計顯著性,就像沒有地基的建筑,外觀完整卻經不起推敲。
Khouri坦承,試圖以造假為由撤稿幾乎不可能。"結果是無意義的,存在p值操縱和高假陽性風險。這些是無用的論文,但它們不是假的。"
大概吧。
無毒的污染物
"無用但非假",這個定性精準地描述了此類論文的特殊危害。
它們不會直接毒害讀者,不會像造假論文那樣導致實驗室重復實驗時的事故。但它們以另一種方式破壞著學術生態的根基。
第一重危害在臨床一線。醫學文獻中的安全警告具有真實的威懾力。患者會因此停藥,醫生會因此改變處方習慣。如果一篇FAERS論文聲稱某類暢銷減肥藥與自殺傾向相關,即使這個"信號"只是媒體關注度造成的報告偏倚疊加統計噪音,其傳播仍可能引發不必要的恐慌,讓真正需要藥物治療的患者錯失干預時機。
第二重危害在科研資源分配。當虛假的"信號"進入文獻,就可能觸發后續的驗證研究。臨床試驗的設計、執行、資金消耗,本應用于探索真正未知的醫學問題,卻被浪費在證偽數據挖掘的幻覺上。
更深層的損害在于認知環境的污染。同行評審的精力被海量低質投稿稀釋,有價值的研究在噪聲中難以辨識,臨床決策所依賴的證據基礎被泥沙俱下的事實堆砌所動搖。
這不是學術不端,而是一種新型的文獻污染。它利用的是開放科學的善意設計,鉆的是評價體系的漏洞,留下的是難以清除的長期殘留。
結構性困局與出路
問題的根源不在于某個數據庫被濫用,而在于"發表或出局"的學術生存法則。
當職稱晉升、基金申請、人才帽子都以論文數量為硬通貨時,一篇耗時數月、精心設計的臨床觀察研究,與一篇用現成數據、模板化分析、一周成稿的數據庫挖掘論文,在統計表格上可能貢獻相同的分值。這種激勵機制天然地獎勵短平快的產出,懲罰需要長期投入的深耕。
技術變革正在放大這種扭曲。生成式AI降低了寫作門檻,開放數據庫消除了數據獲取成本,統計軟件的自動化功能減少了技術壁壘。學術生產的門檻從未如此之低,而質量控制的手段卻未能同步進化。
堵住FAERS這一個口子,灌水者會涌向NHANES,涌向任何下一個被發現的數據寶庫。
那篇被撤回的GLP-1論文提供了一個觀察窗口。它并非典型的數據庫灌水作,作者來自正規學術機構,研究設計也相對完整。但它與那些流水線產品共享同一種深層病理:用復雜的數據操作替代清晰的因果邏輯,用統計顯著性包裝缺乏理論根基的"發現"。
Allison在回顧這個案例時提到,這涉及一個新興的研究領域——治療反應異質性。他認為這個領域亟需方法學的規范,"讓人們理解什么是合理和合規的研究方法"。
但規范一個領域容易,規范整個學術生產的激勵結構困難得多。
Spick提出了一個尖銳的元科學問題:我們應該允許毫無意義的科學研究發表嗎?這個問題至今沒有共識。但在爭論繼續的同時,數以千計的類似論文正在進入索引系統,被引用,被納入綜述,潛移默化地塑造著醫學知識的版圖。
它們不是謊言,卻正在構成一種比謊言更隱蔽的知識污染。
尾聲:重建學術的價值錨點
FAERS危機是一面鏡子,映照出開放科學時代的新挑戰。
數據共享本是為了加速發現、造福公眾,卻在特定的激勵環境下異化為論文制造業的原材料。技術賦能讓"生產"變得無比高效,卻讓"創造"的價值更加稀缺。
解決之道不在于關閉數據庫,而在于重建評價體系的重心。一篇論文的學術價值,應當由它回應的問題質量來衡量,而非由它消耗的數據體量或運行的統計檢驗次數來判定。
在算法能夠批量生成符合格式規范的"研究"的時代,人類研究者的核心競爭力恰恰在于提出真問題的能力,在于對臨床現象的敏銳觀察,在于對生物學機制的深刻理解。這些無法被模板化的素質,應當成為學術評價的真正標尺。
否則,我們終將面對一個文獻爆炸卻知識貧瘠的未來:數據庫越來越多,論文越來越厚,而真正推動醫學進步的真知灼見,卻淹沒在統計噪音的汪洋之中。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.