Cloudflare的一個(gè)故障導(dǎo)致X、ChatGPT、游戲平臺(tái)癱瘓,并暴露了數(shù)字可靠性的脆弱幻象。
作者:KBSSidhu2025年11月18日
![]()
互聯(lián)網(wǎng) “中樞神經(jīng)” 驟然斷裂
下午午睡醒來(lái)時(shí),還沒(méi)拿起手機(jī)就感覺(jué)不對(duì)勁。我的推特信息流一直無(wú)法刷新——難道我的賬號(hào)被封了嗎?Wi-Fi網(wǎng)絡(luò)非常穩(wěn)定;Gmail打開(kāi)毫無(wú)延遲,谷歌搜索也響應(yīng)迅速。然而,令我震驚的是,就連ChatGPT也異常安靜。這種令人不安的寂靜僅僅是開(kāi)始。幾個(gè)小時(shí)之內(nèi),全貌便清晰地呈現(xiàn)在我眼前:一場(chǎng)席卷全球的數(shù)字災(zāi)難正在發(fā)生。2025年11月17日,Cloudflare——長(zhǎng)期以來(lái)被視為現(xiàn)代互聯(lián)網(wǎng)無(wú)形卻又堅(jiān)不可摧的支柱——遭遇了災(zāi)難性的系統(tǒng)性故障,導(dǎo)致各大平臺(tái)陷入癱瘓,并暴露了一個(gè)不容忽視的殘酷真相:全球數(shù)字基礎(chǔ)設(shè)施極其脆弱,任何一個(gè)“值得信賴”的服務(wù)提供商出現(xiàn)故障,都可能導(dǎo)致數(shù)十億人的網(wǎng)絡(luò)癱瘓。
多米諾骨牌效應(yīng)由此開(kāi)始
這場(chǎng)危機(jī)爆發(fā)于美國(guó)東部時(shí)間早上6點(diǎn)左右,當(dāng)時(shí)Cloudflare的全球網(wǎng)絡(luò)基礎(chǔ)設(shè)施開(kāi)始出現(xiàn)連鎖故障。幾分鐘之內(nèi),其影響便顯而易見(jiàn)。作為全球?qū)崟r(shí)信息樞紐的社交媒體平臺(tái)X(前身為T(mén)witter)宕機(jī),數(shù)萬(wàn)用戶無(wú)法加載帖子或訪問(wèn)信息流。與此同時(shí),OpenAI的ChatGPT平臺(tái)也出現(xiàn)了類(lèi)似的故障,并向用戶顯示“請(qǐng)解除對(duì)challenges.cloudflare.com的屏蔽以繼續(xù)”的警告信息——這無(wú)疑是在承認(rèn)安全系統(tǒng)出現(xiàn)故障。但此次故障造成的破壞遠(yuǎn)不止于此。
包括《英雄聯(lián)盟》和《Valorant》在內(nèi)的在線游戲平臺(tái)同時(shí)出現(xiàn)故障,導(dǎo)致數(shù)百萬(wàn)玩家無(wú)法訪問(wèn)。熱門(mén)設(shè)計(jì)平臺(tái)Canva也一度無(wú)法使用。PayPal和UberEats的支付處理和訂單提交功能也出現(xiàn)間歇性故障。此次故障的影響范圍令人震驚:短短幾分鐘內(nèi),一次技術(shù)故障就導(dǎo)致數(shù)十項(xiàng)關(guān)鍵互聯(lián)網(wǎng)服務(wù)的運(yùn)行中斷,影響了多個(gè)大洲的數(shù)百萬(wàn)用戶。
真是莫大的諷刺:追蹤故障的平臺(tái)也宕機(jī)了
頗具黑色幽默的是,這場(chǎng)危機(jī)的嚴(yán)重性也因此凸顯出來(lái):用戶用來(lái)查詢常用服務(wù)是否中斷的平臺(tái)Downdetector本身也癱瘓了。這不僅僅是一個(gè)引人注目的新聞事件,更是現(xiàn)代數(shù)字基礎(chǔ)設(shè)施相互關(guān)聯(lián)的脆弱性的警鐘。當(dāng)用戶瘋狂搜索信息時(shí),原本用于提供這些信息的基礎(chǔ)設(shè)施也崩潰了,造成了信息真空,加劇了混亂和恐慌。
故障的連鎖反應(yīng)清晰地展現(xiàn)了當(dāng)時(shí)的局面:當(dāng)Cloudflare的核心網(wǎng)絡(luò)出現(xiàn)問(wèn)題時(shí),其影響會(huì)立即波及到所有依賴于Cloudflare內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)和分布式拒絕服務(wù)(DDoS)防護(hù)服務(wù)的業(yè)務(wù)。這些并非邊緣服務(wù),而是Cloudflare為全球數(shù)百萬(wàn)網(wǎng)站和應(yīng)用程序提供的基礎(chǔ)架構(gòu)層。
問(wèn)題出在哪:神秘的嚴(yán)重故障
美國(guó)東部時(shí)間早上7點(diǎn)03分,Cloudflare的狀態(tài)頁(yè)面本身就出現(xiàn)了故障跡象——其CSS樣式失效,導(dǎo)致頁(yè)面幾乎無(wú)法辨認(rèn)。諷刺的是,Cloudflare的團(tuán)隊(duì)只能通過(guò)故障的狀態(tài)儀表盤(pán)發(fā)布公告,稱(chēng) “正在繼續(xù)調(diào)查該問(wèn)題”。該公司的公開(kāi)溝通依然寥寥無(wú)幾,且反應(yīng)遲緩,并未對(duì)此次災(zāi)難性故障給出任何初步解釋。
隨后的調(diào)查很可能會(huì)揭示現(xiàn)代基礎(chǔ)設(shè)施漏洞的本質(zhì):由無(wú)數(shù)相互依賴的技術(shù)層構(gòu)建的復(fù)雜系統(tǒng),任何一個(gè)配置錯(cuò)誤、軟件部署故障、路由錯(cuò)誤或意外的系統(tǒng)交互都可能引發(fā)全球性中斷。Cloudflare自身也承認(rèn)其基礎(chǔ)設(shè)施中出現(xiàn)了大范圍的500錯(cuò)誤,Cloudflare控制面板和API也出現(xiàn)故障,這表明此次故障并非邊緣問(wèn)題,而是根本性的,觸及了服務(wù)的核心運(yùn)行能力。
數(shù)字脆弱性的令人不安的模式
這次宕機(jī)并非孤立事件。它是2025年以來(lái)日益頻繁、影響不斷擴(kuò)大的互聯(lián)網(wǎng)基礎(chǔ)設(shè)施故障亂象中的最新一章。就在幾周前,AWS的大規(guī)模宕機(jī)表明,即使是最先進(jìn)的云服務(wù)提供商也可能出現(xiàn)故障。今年早些時(shí)候的CrowdStrike事件則揭示了部署在數(shù)百萬(wàn)臺(tái)Windows服務(wù)器上的安全軟件如何可能無(wú)意中導(dǎo)致全球基礎(chǔ)設(shè)施崩潰。而現(xiàn)在,Cloudflare——一家旨在提供安全性、性能和可靠性的公司——也表明,即使是最值得信賴的數(shù)字基礎(chǔ)設(shè)施托管商也存在發(fā)生災(zāi)難性故障的風(fēng)險(xiǎn)。
隱藏的依賴危機(jī)
此次網(wǎng)絡(luò)中斷的規(guī)模和同步性暴露了一個(gè)大多數(shù)互聯(lián)網(wǎng)用戶從未思考過(guò)的核心架構(gòu)真相:互聯(lián)網(wǎng)上那些顯而易見(jiàn)的服務(wù)——X、ChatGPT、游戲平臺(tái)、支付處理商——并非獨(dú)立實(shí)體。實(shí)際上,它們就像是龐大共享基礎(chǔ)設(shè)施服務(wù)“公寓樓”中的租戶。Cloudflare運(yùn)營(yíng)著這個(gè)隱喻體系中最關(guān)鍵的“樓宇”之一。該公司的內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)服務(wù)在全球范圍內(nèi)緩存和分發(fā)內(nèi)容,以確保快速可靠的訪問(wèn)。其DDoS防護(hù)服務(wù)抵御惡意流量攻擊。其DNS解析服務(wù)幫助設(shè)備在互聯(lián)網(wǎng)上找到其他設(shè)備。
當(dāng)Cloudflare的系統(tǒng)出現(xiàn)故障時(shí),就好像一座大型城市的電網(wǎng)、管道和安保系統(tǒng)同時(shí)癱瘓了一樣。各個(gè)公寓住戶——比如X、OpenAI和《英雄聯(lián)盟》——即使各自的系統(tǒng)運(yùn)行正常,但如果共享的基礎(chǔ)設(shè)施癱瘓,他們也無(wú)法進(jìn)入自己的家。
為什么一個(gè)故障會(huì)引發(fā)全球危機(jī)?
此次故障背后的技術(shù)真相揭示了現(xiàn)代互聯(lián)網(wǎng)發(fā)展過(guò)程中一些令人不安的事實(shí)。Cloudflare為數(shù)百萬(wàn)個(gè)網(wǎng)站和應(yīng)用程序提供安全服務(wù)。當(dāng)訪客嘗試訪問(wèn)受Cloudflare保護(hù)的網(wǎng)站時(shí),他們的連接首先會(huì)經(jīng)過(guò)Cloudflare的基礎(chǔ)設(shè)施。如果該基礎(chǔ)設(shè)施出現(xiàn)故障——哪怕只有幾秒鐘——也會(huì)導(dǎo)致數(shù)百萬(wàn)個(gè)潛在連接同時(shí)中斷。這種故障是瞬間發(fā)生的,而且影響范圍極廣。
此外,這種架構(gòu)的出現(xiàn)并非出于陰謀,而是出于經(jīng)濟(jì)考量和實(shí)際需要。Cloudflare的服務(wù)確實(shí)物有所值:它們通過(guò)將內(nèi)容緩存到更靠近用戶的位置來(lái)提升網(wǎng)站速度,抵御復(fù)雜的網(wǎng)絡(luò)攻擊,并提供能夠正確路由流量的DNS服務(wù)。大多數(shù)網(wǎng)站和應(yīng)用程序無(wú)法獨(dú)立實(shí)現(xiàn)這些功能,因此它們會(huì)將部分功能外包給Cloudflare等服務(wù)提供商。對(duì)單個(gè)公司而言,這種選擇或許無(wú)可厚非,但從整體來(lái)看,它卻造成了系統(tǒng)性問(wèn)題,一旦出現(xiàn)單點(diǎn)故障,就會(huì)引發(fā)連鎖災(zāi)難。
更廣泛的反思
11月17日的網(wǎng)絡(luò)中斷不僅僅是一次技術(shù)事故,它反映了現(xiàn)代數(shù)字文明架構(gòu)的系統(tǒng)性脆弱性。互聯(lián)網(wǎng)最初被設(shè)計(jì)成一個(gè)去中心化的網(wǎng)絡(luò),旨在抵御核戰(zhàn)爭(zhēng)的威脅,如今卻演變成一個(gè)中心化的生態(tài)系統(tǒng),少數(shù)幾家公司——AWS、Cloudflare、GoogleCloud、Azure——控制著一切賴以生存的基礎(chǔ)架構(gòu)。
此次事件對(duì)服務(wù)提供商和用戶都提出了棘手的問(wèn)題。對(duì)于像Cloudflare這樣的基礎(chǔ)設(shè)施公司而言,這要求他們進(jìn)行嚴(yán)格的根本原因分析并改進(jìn)冗余機(jī)制。對(duì)于互聯(lián)網(wǎng)用戶和企業(yè)而言,這需要他們正視風(fēng)險(xiǎn):在風(fēng)險(xiǎn)如此之高的情況下,完全依賴單一基礎(chǔ)設(shè)施提供商是否可接受?對(duì)于政策制定者和監(jiān)管機(jī)構(gòu)而言,這引發(fā)了關(guān)于關(guān)鍵數(shù)字基礎(chǔ)設(shè)施是否應(yīng)受到更嚴(yán)格監(jiān)管和冗余要求的思考。
修復(fù)與恢復(fù)
故障結(jié)束后,數(shù)百萬(wàn)用戶經(jīng)歷了數(shù)小時(shí)與日常通信、創(chuàng)作、商務(wù)和娛樂(lè)所依賴的服務(wù)斷開(kāi)連接。Cloudflare的工程團(tuán)隊(duì)努力應(yīng)對(duì)危機(jī),但該公司最初并未提供明確的全面修復(fù)時(shí)間表,也未對(duì)根本原因做出明確解釋。此次事件鮮明地提醒我們,每一個(gè)看似流暢的數(shù)字體驗(yàn)背后都隱藏著錯(cuò)綜復(fù)雜的依賴關(guān)系、漏洞和隨時(shí)可能暴露的單點(diǎn)故障。
互聯(lián)網(wǎng)已經(jīng)變得如此復(fù)雜,如此錯(cuò)綜復(fù)雜,又如此依賴于少數(shù)幾家占據(jù)主導(dǎo)地位的基礎(chǔ)設(shè)施提供商,以至于即使是其中最“安全可靠”的提供商也可能出現(xiàn)故障——而一旦發(fā)生故障,沖擊波會(huì)瞬間、無(wú)差別地、災(zāi)難性地席卷全球數(shù)字生態(tài)系統(tǒng)。對(duì)我而言,在那令人不安的時(shí)刻,我感覺(jué)自己終于從一場(chǎng)真正的噩夢(mèng)中醒來(lái)——這場(chǎng)噩夢(mèng)雖然只持續(xù)了幾個(gè)小時(shí),卻仿佛漫長(zhǎng)得如同永恒。
本文編譯自substack,原文作者KBS Sidhu
https://kbssidhu.substack.com/p/breaking-when-the-internets-critical
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.