![]()
系列簡介
這是我們一系列原創(chuàng)技術(shù)貼,從易到難,每天學(xué)習(xí)一點。所有內(nèi)容均為疾控數(shù)據(jù)分析、科研論文相關(guān),或者說很多和現(xiàn)在的熱門監(jiān)測預(yù)警相關(guān),所以我們這個系列就叫“監(jiān)測預(yù)警基礎(chǔ)”。
今天是第20節(jié),經(jīng)過2節(jié)課的預(yù)熱,我們終于來到了最近3-4節(jié)的主題——Serfling回歸,快學(xué)起來吧。
在傳染病監(jiān)測領(lǐng)域,我們常常面臨一個核心問題:如何判斷當(dāng)前的發(fā)病人數(shù)、或者說死亡人數(shù)是否“異常”?是正常的季節(jié)性波動,還是某種傳染病比如流感的悄然襲擊?
60年前,一位美國流行病學(xué)家用一套簡潔而強大的統(tǒng)計模型,給出了經(jīng)久不衰的答案。今天,我們就來深入剖析這個監(jiān)測領(lǐng)域的經(jīng)典工具——Serfling回歸模型。
![]()
Serfling回歸模型,由Robert Serfling博士于1963年創(chuàng)立,是歷史上首個被系統(tǒng)用于量化流感相關(guān)超額死亡率的統(tǒng)計模型。
它的核心思路非常直觀:
1.尋找“常態(tài)”:收集過去多年每周的死亡數(shù)據(jù)。
2.剝離“流感”:手動剔除歷史上明確是流感高峰的時期,剩下的數(shù)據(jù)被視為“無流感干擾的本底狀態(tài)”。
3.建模預(yù)測:用這些“干凈”的數(shù)據(jù)擬合一個模型,這個模型能刻畫死亡率的長期趨勢和固定季節(jié)波動。
4.照亮“異常”:將這個模型外推到全年,生成一條連續(xù)的“預(yù)期死亡基線”。這條線回答了一個關(guān)鍵的假設(shè)性問題:“如果今年完全沒有流感,死亡情況本應(yīng)如何?”
最后,將實際觀測到的死亡數(shù),與這條理論基線進(jìn)行比較。持續(xù)超出基線的部分,就被估算為流感帶來的“超額死亡”,當(dāng)然,所有這些死亡,你都可以理解為發(fā)病。
![]()
本質(zhì)是“基線模型”:該方法的核心思想是利用正弦和余弦函數(shù)的循環(huán)回歸特性,處理時間序列中的季節(jié)性或循環(huán)波動的情況,它不預(yù)測未來,而是定義“常態(tài)”,它的全部工作就是建立一條合理的基準(zhǔn)線,所有監(jiān)測都始于與這條線的比較。
內(nèi)核是“反事實推斷”:這是其最深刻的內(nèi)涵。它通過統(tǒng)計方法構(gòu)建了一個未曾發(fā)生的“反事實世界”(無特殊異常的世界),并將現(xiàn)實與之對比,從而量化出疾病的具體影響。
精髓在于“分離”:它將時間序列數(shù)據(jù)中的信號分離為三部分:
趨勢(緩慢變化)
季節(jié)(規(guī)律波動)
超額(異常信號)
模型捕捉前兩者,剩下的突出部分就可能是超額。
一個生動的比喻:Serfling模型就像一位嚴(yán)謹(jǐn)?shù)臍v史氣象學(xué)家。他先研究過去幾十年非臺風(fēng)季節(jié)的風(fēng)力數(shù)據(jù),總結(jié)出四季的正常風(fēng)力變化規(guī)律,然后,他用這個規(guī)律去審視全年數(shù)據(jù)。當(dāng)他在某個夏秋之交,發(fā)現(xiàn)實際風(fēng)速持續(xù)、顯著地超過了正常規(guī)律預(yù)測的值時,他就可以斷言:“這里有一個臺風(fēng)信號,它的‘破壞力’可以用超過正常值的部分來衡量。”
![]()
原始論文中,Serfling使用最小二乘法擬合以下模型:
![]()
讓我們拋開公式,理解其操作邏輯:
第一步:準(zhǔn)備數(shù)據(jù)
收集至少5-7年的每周發(fā)病人數(shù),
第二步:定義“基線期”(關(guān)鍵!)
在歷史數(shù)據(jù)中,手工標(biāo)記并剔除所有明確的流感流行周。Serfling本人剔除了每年死亡率最高的約10%的周。剩下的數(shù)據(jù),就是構(gòu)建模型的“凈土”。
第三步:擬合模型
用“凈土”數(shù)據(jù)擬合一個方程:發(fā)病情況 = 長期趨勢 + 季節(jié)性波浪
“季節(jié)性波浪”通常用一對正弦-余弦函數(shù)來完美模擬其平滑、周期性的波動。這一步在統(tǒng)計軟件中可輕松完成。
第四步:繪制基線,設(shè)定閾值
將上述方程用于預(yù)測全年每一周(包括之前被剔除的流感季),得到貫穿全年的預(yù)期發(fā)病基線。在此基線上方,計算一個流行病閾值線(通常為基線預(yù)測值的95%置信區(qū)間上限)。
第五步:比較與計算
將當(dāng)前實際的發(fā)病曲線與預(yù)測基線、閾值線繪制在同一張圖上。
何時暴發(fā)?實際曲線持續(xù)突破閾值線時,提示流行開始。
負(fù)擔(dān)多重?將流行期內(nèi),實際曲線與基線之間區(qū)域的“面積”(死亡數(shù)的累計差值)加總,即得到超額死亡總數(shù)。
具體來說,就是將擬合方程的病例基線95% 置信區(qū)間的上限作為流行閾值,觀察值大于流行閾值的時間定義為流行期,該期內(nèi)觀察值與擬合基線的差值即為超額病例數(shù),用超額病例數(shù)與流行期擬合基線病例數(shù)的比值反映超額幅度即超額占比。
好的,就先這樣吧,具體如何操作,下一節(jié)我們以實際例子詳細(xì)講述一下怎么操作。
![]()
![]()
編輯:普通疾控人 | 審核:詩酒趁年華
文章來源 | 原創(chuàng)
說明 | 轉(zhuǎn)載只為分享,如有侵權(quán)聯(lián)系刪除
?版權(quán)聲明 | 部分信息和圖片來自公開網(wǎng)絡(luò)
轉(zhuǎn)載請注明
再次轉(zhuǎn)載請注明出處
![]()
科普健康 | 宣傳疾控
本號為多位疾控機構(gòu)從業(yè)者運營
重點關(guān)注國內(nèi)外健康事件
致力于疾控科普
在做好科普服務(wù)大眾的同時
做好疾控機構(gòu)的宣傳
讓更多的人了解疾控,擁抱健康
歡迎加「小編」微信(cdcjkr126com)
本文具體說明
本文為原創(chuàng)內(nèi)容,文章為個人理解所學(xué),不涉及疫情信息及內(nèi)部保密數(shù)據(jù),發(fā)表的目的為自我總結(jié)及給有需求的人士學(xué)習(xí)使用。如有不妥之處,歡迎聯(lián)系小編修改、刪除。
更多精彩視頻,盡在“CDC疾控人”視頻號
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.