![]()
作者|戴維·施皮格爾霍爾特 (David Spiegelhalter)
英國皇家學會院士,劍橋大學統計學榮休教授,英國皇家統計學會前會長,當代最具影響力的統計學家與風險交流專家之一。曾長期任教于劍橋大學統計實驗室,并于 2016—2023 年出任劍橋大學溫頓風險與證據交流中心主任,致力于提升公眾對定量證據的理解、呈現與使用能力。其研究涵蓋貝葉斯統計、醫學統計、風險評估與不確定性分析,對醫療決策、公共衛生和政策評估產生了重要影響,其論文全球引用逾十萬次,曾入選“高被引研究者”。
2011年,美國著名社會心理學家達里爾·貝姆在著名心理學期刊上發表了一篇重要論文。在論文相關的實驗中,達里爾·貝姆找來了100名學生,讓他們坐在電腦屏幕前。屏幕上有兩塊“窗簾”,達里爾·貝姆讓這些學生猜測哪塊窗簾后面藏有圖像。之后窗簾會被“打開”,展現出正確答案。學生們需要連續猜36次。該實驗最特殊的一個地方在于,受試者給出答案以后,圖像出現在哪塊窗簾后面完全隨機,因此研究者認為,所有正確答案都來自受試者的超感官知覺,即第六感。
![]()
《統計的藝術 》
[英] 戴維·施皮格爾霍爾特 著
韓瀟瀟 譯 周靜 審校
中信出版集團
2026年2月
達里爾·貝姆在論文中提到,零假設為“不存在第六感”,所以選擇正確的概率預計為50%。但實驗結果顯示,當窗簾后面的圖像為色情圖像時,受試者的正確率可以達到53%,這一結果的P值為0.01。另外,該論文還包含了另外8項第六感實驗的結果,受試者人數超過了1,000,研究跨度達10年以上,9項研究中一共有8項都取得了具有統計顯著性的結果。難道說第六感真的存在嗎?這些研究能夠令人信服嗎?
雖然目前為止,本書已經介紹了很多優秀的統計實驗,這些實驗既蘊含著研究者的卓越智慧和精心設計,又體現出了研究者對統計工具的局限性和潛在風險的清楚認知,但你要知道,現實情況不會一直那么美好。現在,我們就來看看,當統計學被濫用時會發生什么。達里爾·貝姆的故事我們稍后再講。
如今,人們之所以格外關注統計實驗的質量,是因為科學界之前曾出現過一場舉世震驚的丑聞事件,該事件被認為是科學界可重復性危機(reproducibility crisis)的罪魁禍首。
可重復性危機
第10章中我們曾提到,約翰·約安尼季斯曾于2005年發表過這樣一個令人瞠目的觀點:大多數已發表的研究結論都是錯的。之后有越來越多的研究者認為,那些已發表的科學論文的確有很多都不可靠。科學家們無法復現同行的研究實驗,這意味著那些原始結論根本沒有它們表現出來的那樣可信。這種現象最初主要集中在醫學和生物學領域,后來又逐漸蔓延到了心理學以及其他社會科學當中,盡管我們并不清楚弄虛作假的論文的真實比例。
雖然約翰·約安尼季斯做出如此判斷的根據是某個理論模型,但我們也可以通過實際操作去驗證這一說法,即以同樣的方法去復現過往的實驗,看看能否取得類似的實驗結果。“可重復性計劃”是一個重要的合作項目,合作者們以更大的樣本規模對100項心理研究進行了重復實驗,因此理論上來說,如果這些研究結論為真,那該項目能夠以更高的檢驗效能去識別這些真實效應。最終合作者們發現,雖然有97%的原始研究取得了具有統計顯著性的結果,但其中只有36%能在重復實驗中得到復現。
可悲的是,各媒體在報道這一結論時,經常會認為這意味著有63%的具有“統計顯著性”的科學結論實際為假——他們還會落入“嚴格按照統計顯著性去判斷實驗結論是否可靠”的陷阱。美國著名統計學家、博主安德魯·格爾曼曾指出,“具有統計顯著性”與“不具有統計顯著性”之間的差異本身就不具有統計顯著性。事實上,只有23%的原始實驗與重復實驗之間的差異具有統計顯著性,我們在估計弄虛作假的論文的比例時,使用這一數字似乎更為恰當一些。
與其用“統計顯著性”去判斷“科學發現”的可靠程度,我們還不如把注意力放在實驗效應的大小上。可重復性計劃發現,雖然平均來看,重復實驗效應的方向和原始實驗相同,但其大小卻只有原始實驗的一半。這反映出了科學文獻中長期存在的一個重要偏差:只要某項研究的效應足夠“大”,那么哪怕結果帶有一定的運氣成分,它也更有可能被發表在重要期刊之上。如果用均值回歸現象來類比,這種現象或許可以被稱為“零假設回歸”——被夸大的原始實驗效應,會朝著零假設的方向下滑。
可重復性危機是一個相當復雜的問題,其根源在于研究人員面臨的科研壓力過大——他們必須想方設法做出“科學發現”,然后將其發表在著名期刊上,但這一切都取決于他們能否獲取具有統計顯著性的研究結果。我們不能單獨去怪罪某個機構或某個人。另外,之前在討論假設檢驗時我們也曾提到,就算統計實驗的每一步都完美無瑕,其結果和結論也不能保證為真,也就是說,會有相當一部分具有統計顯著性的結果實際上為假陽性(見圖10-5)。現在的問題在于,大多數統計實驗根本和“完美”兩個字沾不上邊。
PPDAC分析流程中的每個階段都有可能會出現嚴重的統計問題。比如在一開始的“提出問題”階段,我們就可能會設定一個無法用現有信息解答的問題,例如,如果我們想研究“為什么過去的十年當中,英國少女懷孕率出現了大幅下降”,那當前數據就無法給出解釋。
第二個階段,即“做出規劃”階段,也可能會出現以下這些問題:
傾向于選擇方便廉價的樣本,而不是具有代表性的樣本,比如選前民意調查中的電話調查。
調查時使用引導性問題或誤導性問題,比如“您認為網絡購物大約可以節省多少錢?”
沒有設定恰當的對比,比如只通過志愿者的情況來評估順勢療法的效果。
設定的樣本規模過小,檢驗效能過低,這意味著如果備擇假設為真,那我們能夠正確將其檢測出來的概率過低。
未能正確判斷數據的干擾因素,沒有進行盲法試驗,等等。
正如費希爾那句名言所說的一樣:“實驗完成后再去咨詢統計學家的意見,就相當于患者死亡后再給他們體檢。此時我們唯一能做的,或許就是告訴你實驗的死因。”
在“收集數據”階段,最常見的問題包括回復率太低、有人中途退出研究項目、招募進度比預期慢很多、難以快速對所有數據編碼,等等。所有這些可預見的問題都可以通過小規模試點試驗的方法來提前解決。
“分析數據”階段最容易出問題的地方,就是“不小心犯了錯”。雖然我們都有可能在編碼、制表過程中犯錯,但這些錯誤的后果很難和下面這些案例“相提并論”。
著名經濟學家卡門·萊因哈特與肯尼思·羅戈夫曾于2010年合作發表了一篇論文,該論文對“人們對經濟緊縮政策的態度”產生了很大影響。然而后來一名博士生偶然發現,這兩個人的論文不小心遺漏了五個國家的數據分析,而這僅僅是因為一個小小的電子表格錯誤。
全球投資公司安盛羅森堡的一名程序員曾因敲錯代碼,導致某個統計模型計算出來的風險系數過低,大約只有實際值的萬分之一,公司客戶因此損失了2.17億美元。2011年,美國證券交易委員會以“未能及時向投資者報告模型錯誤”為名讓安盛羅森堡進行等額賠償,同時額外開出了2,500萬美元的罰款,這導致公司一共損失了2.42億美元。
另外,有時雖然計算結果完全正確,但使用的統計模型卻存在問題。例如:
開展“整群隨機對照試驗”時,錯誤地按照個體隨機對照試驗分析數據。整群隨機對照試驗指的是將一整群人(比如某個全科診所的所有病人)同時分配到某一組別當中。
分別在基準狀態、干預狀態測試兩個組別的數據,如果一組人在兩種狀態下的差異達到了統計顯著性,另一組人則沒有,就得出結論認為兩組人之間存在差異。正確的做法是,對兩組之間的差異進行統計檢驗——這在統計學中又被稱為“交互作用檢驗”。
將“不具有統計顯著性”誤解為“實驗沒有產生任何效應”。例如在第10章提到的酒精與死亡風險的研究中,年齡在50~64歲之間、每周飲酒15~20個酒精單位的男性,死亡風險會顯著降低;而那些飲酒稍多或稍少一些的男性,死亡風險的降幅與0之間不存在顯著差異。雖然論文聲稱,這些群體的飲酒結果存在重要區別,但從置信區間來看,這些區別完全可以忽略不計。再次提醒大家,“具有統計顯著性的結果”與“不具有統計顯著性的結果”之間的差異,不一定具有統計顯著性。
在“得出結論”這一步驟,最明目張膽的做法就是對實驗結果進行多次顯著性檢驗,但只報告最具有統計顯著性的那次結果,并借此強調實驗結論的可靠性。我們已經在前文中看到,這種做法能夠極大增加發現具有統計顯著性的P值的機會,就連“死魚復生”都不是問題。這相當于電視臺在播放足球比賽時,只轉播某個球隊的進球鏡頭,但不轉播失球鏡頭:這種選擇性報道不可能讓我們獲得真實且全面的信息。
如此一來,我們很難分清實驗設計的失誤到底是因為研究人員能力有所欠缺,還是因為研究者在故意誤導大家。更令人憂心的是,這種現象并不少見。在美國甚至有人因為“利用子集分析,選擇性報道具有統計顯著性的實驗結果”而被刑事定罪。斯科特·哈科寧曾擔任美國制藥公司InterMune首席執行官,這家公司曾為研究“特發性肺纖維化”新藥的療效而開展了一項臨床試驗。試驗結果表明,該藥物的整體療效并不顯著,但在輕度至中度的患者(子集)中,死亡風險的降幅卻很顯著。斯科特·哈科寧據此向投資者發布了一份新聞稿,報道了該研究成果,并表示自己相信這項研究能夠帶來巨大回報。盡管他并沒有說任何謊話,只是選擇性報道了部分事實,但陪審團還是于2009年認定他犯有電信詐騙罪,理由是他有欺詐投資者的意圖。政府原本的訴求是判處他10年監禁,以及2萬美元罰款,但法庭最終判處他6個月的軟禁,以及3年緩刑。后來的臨床試驗發現,該藥物對這部分子集患者不存在任何療效。
統計實驗中的不端行為可能是有意的,也可能是無意的。為了說明科學界同行評議和審稿制度的嚴重缺陷,“德國飲食與健康研究所”的約翰內斯·博安農曾故意設計了一項有問題的實驗。該實驗中,受試者被隨機分成3組,各組人員分別按照標準飲食、低碳水飲食、低碳水飲食外加巧克力的要求進餐。他們在三周的時間里接受了一系列的測試,研究結果表明,巧克力組的體重降幅比低碳水組的降幅高出10%,其P值為0.04。這份具有統計顯著性的研究結果被投遞給一家期刊,結果該期刊認為這篇論文是一篇“極其優秀的稿件”,并向研究者回復說,只要支付600歐元的出版費,“它就可以在我們出版社的頂級期刊上發表出來”。意料之中的是,該研究一經發表便引起了眾多媒體的爭相報道,甚至有媒體寫出了“巧克力可以加快減肥進度”這樣的標題。
令媒體沒想到的是,這項研究從頭到尾都是一場騙局。“約翰內斯·博安農”的真名是約翰·博安農;他本來的職業也不是科學家,而是記者;所謂的“德國飲食與健康研究所”根本不存在,該研究唯一真實的東西就是數據——這些數據未經任何篡改或捏造。但問題是,每組中的受試者只有5名;統計顯著性檢驗進行了很多次;論文只報道了具有統計顯著性的結果。
媒體報道后,論文作者立即承認了作假行為,并說出了自己的真實目的。然而,并非所有統計作假都是為了揭露同行評議制度的缺陷。
蓄意欺詐
故意作假的現象確實存在,只不過大家覺得這種現象應當相對少見。一項匿名的調查研究發現,大約有2%的科學家承認自己曾經偽造過數據,但美國國家科學基金會、美國科研誠信辦公室處理過的“故意作假”案件卻相當之少,完全不符合調查結果,哪怕2%已經是被低估的數值了。
用統計學方法去辨別統計作假行為,聽上去好像也很合理。賓夕法尼亞大學的心理學家尤里·西蒙松曾對某些隨機試驗的統計量進行了深入研究,結果發現這些本應帶有很強隨機性的統計量,實際上卻表現出了極為夸張的相似性或差異性。例如他注意到,某篇論文中引用的三個標準差都是25.11,但這三個標準差實際上來自不同的小組(每組均為15人)。尤里·西蒙松設法找到了原始數據,并利用數據模擬證明三個標準差完全一樣的概率微乎其微——后來該研究項目的負責人主動辭職了。
西里爾·伯特是一名來自英國的心理學家,因對智商遺傳性的研究而聞名于世。然而在其去世之后,人們開始懷疑他的研究涉嫌作假,因為人們發現,盡管研究涉及的雙胞胎兒童數量在不斷增加,但各雙胞胎智商的相關系數卻一直沒有什么變化(每對雙胞胎都會在不同的環境中長大):1943年的相關系數為0.770,1955年為0.771,1966年仍然為0.771。雖然人們懷疑數據有假,但他死后所有的研究記錄都被燒毀了,其數據是否經過偽造至今仍存有爭議。支持他的人認為,這些數字肯定是不小心寫錯了,他應該不會做出如此明目張膽的作假行為。
如果統計研究只涉及無心過錯、有意作假,那問題倒也好解決,盡管這些問題本質上確實很嚴重。比如,我們可以提高教育質量,仔細檢查數據,重復多次實驗,公開研究數據,等等,最后一章我們還會詳細討論該問題。但除此之外,我們還面臨一個更嚴峻、更困難的問題,有些人認為這一問題才是可重復性危機的核心原因。
可疑學術行為
就算數據完全真實,實驗分析恰當合理,統計量和P值的計算準確無誤,如果我們不知道研究人員得出結論的具體過程,也很難正確理解實驗結果的含義。
我們已經看到了研究人員選擇性報告具有統計顯著性的結果所帶來的種種問題,但更重要的是,在整個研究過程當中,研究人員有時會有意識或無意識地根據數據的反饋結果做出各種細微的“改進措施”,比如對實驗設計、停止收集數據的時間、排除哪些數據、對哪些因素進行分層分析、重點關注哪些組別與結果、如何對連續變量分組、如何處理缺失數據等諸多細節的改動。尤里·西蒙松將這些決策稱為“研究者自由度”,而安德魯·格爾曼則以更為詩意的方式將其稱為“小徑分岔的花園”。所有這些改動都有可能會提高“獲得具有統計顯著性的實驗結果”的概率,所以都屬于“可疑學術行為”的范疇。
因此,我們有必要將探索性研究(exploratory studies)和驗證性研究(confirmatory studies)區分開來。顧名思義,探索性研究的調查方式較為靈活,通常以探索更多可行性、提出更多假設為目的,而后續那些為了檢驗假設可靠性的研究就是驗證性研究。在探索性研究中,我們可以根據需要適當調整實驗細節,但驗證性研究應當嚴格按照預先規劃好的、最好是公開透明的方案逐步進行。雖然這兩種研究都可以用P值來衡量證據對結論的支持程度,但二者應當明確區分開來,并以完全不同的方式加以解釋。
那些想方設法去獲取具有統計顯著性結果的行為,通常又被稱為“P值操縱”。P值操縱最簡單的思路就是進行多次檢驗,但只報告具有統計顯著性的結果。不過除此之外,研究者們還可以通過很多更“巧妙”的方法來行使所謂的“研究者自由度”。
聽披頭士的歌曲《當我64歲時》,能讓人返老還童?
大多數人都會覺得這絕無可能。但是尤里·西蒙松和他的同事一起,在一些“統計小伎倆”的幫助下,得出了一個具有統計顯著性的陽性結果。
該實驗找來了一群賓夕法尼亞大學的本科生,這些學生被隨機分成幾組,分別收聽披頭士樂隊的《當我64歲時》、Mr. Scruff的《克林巴》,以及Wiggles的《燙手山芋》。聽完之后,學生們需要回答自己的出生日期、個人感受,以及其他一些奇奇怪怪的問題。
尤里·西蒙松和他的同事一起,用他們能想到的各種技巧和方法去反復分析數據,并不斷招募新的受試者,直到他們發現某個具有統計顯著性的相關性結論為止。受試人數達到34之后,在受試者年齡和他們收聽的音樂之間沒有顯著關系的情況下,僅通過《當我64歲時》和《克林巴》兩首歌的對比,研究人員就得到了P值<0.05的回歸分析結果(對父親的年齡進行了分層分析)。當然,他們只報告了具有統計顯著性的分析結果,而沒有提到他們對實驗做出的諸多調整、使用的各種技巧,以及對實驗結果的選擇性報道——直到論文結尾處,他們才將真相說了出來。這類學術不端行為如今被統稱為“根據結果構建假設”,即在確定結果的情況下提出假設。
學術不端行為有多普遍?
2012年,一項針對2,155名美國心理學家的調查顯示,只有2%的人承認自己偽造過數據。但一份包含10項可疑學術行為的調查問卷表明:
35%的人表示自己有過“雖然實驗結論中提到這是一項意外發現,但其實在實驗開始前我們就預料到了該結果”的行為;
58%的人表示自己有過“一邊收集數據,一邊進行顯著性檢驗。當出現具有統計顯著性的結果時,立即停止數據收集”的行為;
67%的人表示自己有過“沒有公開全部實驗結果”的行為;
94%的人承認,在列出來的10項可疑學術行為中,至少有1項符合自身情況。
令人遺憾的是,這些人普遍認為以上行為相當合理——畢竟誰都想報告一個新奇有趣的、出人意料的發現。這種現象的癥結就在于,探索性研究和驗證性研究的界限過于模糊。包括“根據結果構建假設”在內的諸多行為,在探索性研究中其實都不存在太大問題,畢竟探索性研究的目的就是發現更多想法,提出更多假設,以供其他人驗證。但在以驗證假設為目的的驗證性研究當中,這些行為應該被嚴格禁止。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.