在數(shù)字經(jīng)濟(jì)時(shí)代,數(shù)據(jù)中心被賦予了一個(gè)近乎神圣的使命:永不停機(jī)。
“99.999%”的可用性承諾,意味著全年停機(jī)時(shí)間不超過(guò)5.26分鐘。這是寫(xiě)在SLA里的金色條款,是云服務(wù)商引以為傲的技術(shù)勛章,是企業(yè)CIO們每年花費(fèi)數(shù)百萬(wàn)預(yù)算購(gòu)買(mǎi)的那份“確定性”。
為了這五個(gè)9,工程師們?cè)O(shè)計(jì)了2N冗余架構(gòu),部署了雙路市電+柴油發(fā)電機(jī)+儲(chǔ)能電池的多層保障,配備了精密空調(diào)和24×7的運(yùn)維團(tuán)隊(duì),甚至將服務(wù)器防震技術(shù)做到能在地震波峰值時(shí)將設(shè)備振動(dòng)響應(yīng)降低80%-90%。
然而,日前,位于中東地區(qū)的幾個(gè)數(shù)據(jù)中心,以一種最原始、最猝不及防的方式,撕碎了這份由技術(shù)和資本精心編織的確定性。
當(dāng)“物體”從天而降
初步報(bào)告顯示,數(shù)據(jù)中心遭到“物體”襲擊,引發(fā)火災(zāi)。幾乎同一時(shí)間,另一處數(shù)據(jù)中心也報(bào)告了電力和網(wǎng)絡(luò)連接問(wèn)題。隨后的事故調(diào)查確認(rèn),此次服務(wù)中斷與地區(qū)沖突相關(guān),物理基礎(chǔ)設(shè)施成為了“池魚(yú)”。
這一事件,將數(shù)據(jù)中心行業(yè)長(zhǎng)期回避的一個(gè)命題推到了聚光燈下:在所謂的“不可抗力”面前,我們用冗余堆砌的數(shù)字堡壘,究竟有多脆弱?
長(zhǎng)期以來(lái),行業(yè)談?wù)摰娘L(fēng)險(xiǎn)是有邊界的。我們計(jì)算過(guò)極端高溫對(duì)制冷系統(tǒng)的壓力測(cè)試;我們演練過(guò)臺(tái)風(fēng)暴雨中柴油發(fā)電機(jī)燃油管進(jìn)水的應(yīng)急預(yù)案;我們甚至研究過(guò)地震波來(lái)臨時(shí)服務(wù)器滑軌的阻尼系數(shù)。我們用N+2冗余應(yīng)對(duì)電力故障,用異地災(zāi)備防范區(qū)域性自然災(zāi)害,用AI預(yù)測(cè)性運(yùn)維捕捉設(shè)備老化的蛛絲馬跡。
但我們很少談?wù)摦?dāng)威脅來(lái)自防空識(shí)別區(qū)之外,當(dāng)“物體”不受任何SLA約束地從天而降,當(dāng)數(shù)據(jù)中心的物理坐標(biāo)本身成為某種意義上的“原罪”。
邊界之外的威脅
此次事件的殘酷之處在于,它擊中的是數(shù)據(jù)中心安全模型中一個(gè)近乎“真空”的維度。
參考數(shù)據(jù)中心安全的經(jīng)典框架,防護(hù)方向通常分為五類(lèi):物理環(huán)境安全、安全基礎(chǔ)設(shè)施、采集層安全、網(wǎng)絡(luò)層安全、應(yīng)用層安全。
物理環(huán)境安全關(guān)注的是什么?是生物識(shí)別門(mén)禁、是紅外雙鑒探測(cè)器、是抗震防雷防火。即便最全面的數(shù)據(jù)中心安全檢查清單,也將重點(diǎn)放在“防止對(duì)物理站點(diǎn)的未授權(quán)訪(fǎng)問(wèn)”。這里的“未授權(quán)”,指向的是持假證件的入侵者,是試圖翻越圍欄的破壞分子,是內(nèi)部威脅和外部黑客。
沒(méi)有人想到需要防范飛行物。
但今天,當(dāng)一個(gè)數(shù)據(jù)中心的停擺源于所在區(qū)域的整體局勢(shì)動(dòng)蕩,當(dāng)恢復(fù)運(yùn)營(yíng)的時(shí)間表不再取決于工程師修復(fù)服務(wù)器的速度,而是取決于外交的進(jìn)展,那“99.999%”的承諾,便成了懸在半空中的一句空話(huà)。
無(wú)奈的“不可抗力”
在商業(yè)合同中,“不可抗力”是一個(gè)常見(jiàn)的免責(zé)條款。它通常包括戰(zhàn)爭(zhēng)、暴動(dòng)、嚴(yán)重的自然災(zāi)害等超出控制范圍的事件。數(shù)據(jù)中心運(yùn)營(yíng)商在與客戶(hù)簽訂SLA時(shí),往往會(huì)保留這一條款。
但有意思的是,在過(guò)去的營(yíng)銷(xiāo)敘事中,“不可抗力”幾乎是一個(gè)被遺忘的詞匯。廠(chǎng)商更愿意強(qiáng)調(diào)的是技術(shù)的無(wú)所不能:雙活架構(gòu)可以做到數(shù)據(jù)中心級(jí)切換,分布式系統(tǒng)能夠容忍節(jié)點(diǎn)故障,云原生設(shè)計(jì)天生具有韌性。仿佛只要錢(qián)花到位,就沒(méi)有什么能讓業(yè)務(wù)停下來(lái)。
這種敘事?tīng)I(yíng)造了一個(gè)“數(shù)字世界絕對(duì)安全”的幻象。然而現(xiàn)實(shí)是,數(shù)據(jù)中心首先是物理存在,然后才是數(shù)字存在。它坐落在某塊土地上,接入當(dāng)?shù)氐碾娋W(wǎng),依賴(lài)周邊的交通和通信,受制于所在區(qū)域的整體安全環(huán)境。當(dāng)更宏觀(guān)的秩序被打破,所有微觀(guān)層面的技術(shù)冗余都會(huì)失效。
這并非否定工程師們的努力。恰恰相反,正是無(wú)數(shù)技術(shù)人員的日夜堅(jiān)守,才讓數(shù)據(jù)中心的可用性從99%提升到99.99%,再到99.999%。每一次技術(shù)迭代都在縮小不確定性。但我們不得不承認(rèn),在“不可抗力”這個(gè)維度上,技術(shù)的邊界是清晰的。
筆者觀(guān)點(diǎn)
近日的中東幾個(gè)數(shù)據(jù)中心經(jīng)歷了短暫而劇烈的停頓。對(duì)當(dāng)?shù)赜脩?hù)而言,可能是無(wú)法訪(fǎng)問(wèn)的幾個(gè)小時(shí),可能是數(shù)據(jù)丟失的幾秒鐘。對(duì)全球行業(yè)觀(guān)察者而言,這是一個(gè)值得深思的樣本。
我們生活在一個(gè)高度依賴(lài)數(shù)字基礎(chǔ)設(shè)施的時(shí)代。銀行、醫(yī)療、交通、能源,無(wú)一不建基在數(shù)據(jù)中心的穩(wěn)定運(yùn)行之上。這種依賴(lài)本身,就是一種脆弱性。而脆弱性的暴露,往往不在風(fēng)和日麗時(shí),而在風(fēng)雨交加處。
今天,我們談?wù)摂?shù)據(jù)中心的無(wú)奈,不是為技術(shù)辯護(hù),也不是為服務(wù)商開(kāi)脫。而是想借這個(gè)切口,提醒所有數(shù)字世界的建設(shè)者和使用者:技術(shù)有邊界,算力有禁區(qū),“五個(gè)9”的承諾有它的適用前提。
認(rèn)清這種無(wú)奈,不是為了放棄努力,而是為了讓努力更有方向。正如一位數(shù)據(jù)中心從業(yè)者所說(shuō):“我們無(wú)法阻止每一顆可能落下的石子,但我們可以確保,當(dāng)風(fēng)暴過(guò)去,系統(tǒng)能以最快的速度重啟。”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.