近日新聞報道,時間是統計學家的敵人。即便在人工智能系統時代,如果一個天氣模型只建立在過去的數據和統計原理之上,在氣候變化背景下,它也可能難以準確預測未來的降雨量,原因很簡單:情況本身在變化。
![]()
2024年10月西班牙洪災的慘烈畫面,很多人都還記得。這場災害造成200多人死亡,成為西班牙自1962年洪災以來死亡人數最多的一次洪水事件。
隨著人工智能方法不斷普及,有人或許會疑惑,為什么準備仍然不足。以法國氣象局使用的歐洲中期天氣預報中心模型為例,該模型近來已引入一個名為AIFS的人工智能模型,以提升預報表現。
那么,在氣象學和氣候學已經廣泛部署人工智能方法的情況下,為什么瓦倫西亞洪災仍未能被提前預判?在進入正題之前,我想先說明一個關鍵點:我不是氣候學家,也不以此自居。因此,我不會詳細討論那些我掌握還不夠充分的氣象現象。
![]()
但我熟悉時間序列數據研究。借助這個氣象事件的可預測性問題,我想解釋一個統計學界至今仍在研究的重要問題:數據漂移。首先,需要對這一氣候事件做一點形式化描述。
![]()
如果今天是9月15日,那么明天布雷斯特下雨的可能性就遠高于尼斯。也就是說,“下雨”這一事件在布雷斯特的概率明顯高于尼斯。
但如果明天布雷斯特真的下雨,出現極強降雨的可能性其實很低。相對而言,如果明天尼斯下雨,它發展成地中海型降雨事件的可能性就高于布雷斯特。因此,在已知“明天會下雨”的前提下,尼斯出現強降雨的概率高于布雷斯特。
![]()
我們不可能完全掌握這種分布,也就是說,不可能精確知道某一地點在某一時刻降下某一雨量的概率。不過,科學家手中確實有一系列工具,可以學習并預測這些事件。
降雨分布的一個例子是:在下雨日,某一降雨量出現的概率。在這個例子中,一天內降雨12毫米的概率為5%;如果降雨達到40毫米或以上,就屬于極端而罕見的事件。
這些工具大多由統計學家開發。他們會觀察過去的數據,嘗試復現其行為模式,以便預測未來數據。以這里討論的問題為例:地中海沿岸城市需要預測極端天氣過程,尤其是降水量,以便提前部署非常措施,例如向居民發送提示降雨或洪水風險的短信。
為此,研究者會收集目標區域周邊多個地理點位的氣象觀測數據,包括氣溫、氣壓、風速、風向等。通過訓練算法,讓它利用當天的數據去預測未來兩三天內發生地中海型降雨事件的概率;如果判斷可能發生,還要進一步預測降水量。行政部門隨后可以結合其他模型——無論是物理模型還是統計模型——來評估當地不同區域的洪水風險。
遺憾的是,隨著氣候變化,氣候本身也在改變。對統計學家來說,這句話的含義是:“一個基于過去數據訓練出來的模型,今天還能否正確預測明天的降雨量?”
現在假設,我們用這些數據訓練一個模型來預測未來兩天的累計降雨量:把J日的各種指標輸入模型,希望得到J+1日和J+2日的累計降雨量。直覺上,這個模型幾乎不可能給出超過200毫米的結果,而且這種直覺是現實的:它為什么要這么做呢?統計模型并不是用來“思考”全新情況的,它的任務是復現已經從數據中學到的行為,也就是那些在統計意義上本來就可能在過去出現過的模式。
![]()
圖示為西班牙瓦倫西亞附近圖里斯氣象站兩天累計降雨量的月度最大值,其中包括2024年和2025年的數據。數據來自西班牙國家氣象局。
如果我們用2007年至2023年的數據訓練模型,再讓它去預測2024年10月16日和17日的降雨量,那么結果很可能會嚴重失準。更準確地說,模型會低估降雨量,而這可能讓地方政府產生虛假的安全感。
![]()
圖示為降雨分布滑移的示意圖,這種變化在瓦倫西亞的數據中并不明顯。可以看到,1960年時,降雨量主要集中在200毫米至300毫米之間;到2020年,則主要分布在250毫米至400毫米之間。
這種隨時間發生的滑移現象,并不只存在于氣候學中,但在這一領域尤為關鍵,因為近些年它已造成大量人員傷亡。
在醫療健康領域,許多因素都會影響數據,而且這些因素可能隨時間變化,例如污染源、接種疫苗的人數、吸煙人數等。
![]()
在數字平臺領域,內容平臺的推薦系統也必須適應流行趨勢的變化。此外,分布滑移并不只涉及時間變化。比如,一項在美國大學生群體中得出的神經科學研究結果,應用到印度40多歲人群身上時,是否仍然成立?
總的來說,某些因素——例如人口或氣候——隨時間演變,給統計學家帶來了真正的挑戰。就氣象學而言,目前已經存在所謂的“混合系統”,即把對系統物理機制的理解與基于歷史數據的統計方法結合起來。這種混合方式提升了預報表現,但至少在目前,模型在應對極端氣候事件時仍然面臨困難。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.