![]()
美東時(shí)間4月13日中午11:45,Downdetector(宕機(jī)檢測(cè)網(wǎng)站)的告警曲線突然陡峭上揚(yáng)——Claude的故障報(bào)告在30分鐘內(nèi)從 baseline 飆到4000+,又在12:15左右斷崖回落。整個(gè)過(guò)程像一次急促的心電圖異常,來(lái)得快,去得也快。
但Anthropic在狀態(tài)頁(yè)面的定性讓人意外:他們把這次30分鐘的登錄故障標(biāo)記為"重大 outage"。
這種措辭和實(shí)際影響之間的錯(cuò)位,恰恰是觀察AI基礎(chǔ)設(shè)施的一個(gè)切口。
01 | 30分鐘故障,4000人報(bào)案
根據(jù)Downdetector的實(shí)時(shí)數(shù)據(jù),這次 outage 的峰值出現(xiàn)在12:00前后,報(bào)告數(shù)量突破4000條。主要癥狀集中在登錄環(huán)節(jié)——用戶輸入賬號(hào)后無(wú)法進(jìn)入Claude.ai主界面,Claude Code(編程工具)同樣受到影響。
Anthropic的響應(yīng)速度倒是在線。11:45左右用戶開(kāi)始集中反饋,12:15前后狀態(tài)頁(yè)面就更新了第一條確認(rèn):"已定位問(wèn)題,正在部署修復(fù)。"到12:25,Downdetector報(bào)告數(shù)已跌至300區(qū)間,接近日常基線。
從首次告警到恢復(fù)常態(tài),滿打滿算40分鐘。實(shí)際影響窗口更短,多數(shù)用戶在30分鐘內(nèi)重新連上了服務(wù)。
但Anthropic的措辭升級(jí)耐人尋味。他們?cè)跔顟B(tài)頁(yè)面先后用了"Identified"(已定位)、"Investigating elevated errors"(調(diào)查錯(cuò)誤率上升),最終歸檔時(shí)卻打上"Major Outage"標(biāo)簽。一位長(zhǎng)期追蹤云服務(wù)穩(wěn)定性的編輯在報(bào)道中直言:「Claude 其實(shí)經(jīng)常這樣,短則10分鐘,長(zhǎng)不過(guò)15分鐘,用戶剛想罵街就好了。」
頻繁、短暫、快速自愈——這幾乎成了Claude outage 的固定模式。
02 | "重大"的定義權(quán)在誰(shuí)手里?
云服務(wù)廠商對(duì)事故定級(jí)有一套內(nèi)部標(biāo)準(zhǔn),通常看影響范圍、持續(xù)時(shí)長(zhǎng)、數(shù)據(jù)完整性三個(gè)維度。但對(duì)外溝通時(shí),措辭選擇本身就是公關(guān)策略。
Anthropic把30分鐘登錄故障標(biāo)為"重大",可能的解釋有幾種:一是登錄環(huán)節(jié)涉及認(rèn)證系統(tǒng),觸發(fā)了最高級(jí)別告警閾值;二是同期可能有付費(fèi)企業(yè)客戶投訴,內(nèi)部升級(jí)了 severity;三是公司處于融資關(guān)鍵期,對(duì)穩(wěn)定性敘事格外敏感,寧可高估也不留把柄。
反過(guò)來(lái)想,如果換作Google或微軟,同樣規(guī)模的故障會(huì)不會(huì)只算"Partial Degradation"(部分降級(jí))?大廠有用戶基數(shù)做緩沖, outage 的"重大"門檻天然更高。Anthropic作為Claude的單一產(chǎn)品公司,每一次故障都直接等于品牌危機(jī),定級(jí)偏保守可以理解。
但這種保守也有代價(jià)。當(dāng)"重大"被頻繁使用,它的警示效力會(huì)衰減。用戶看到狀態(tài)頁(yè)面一片紅,點(diǎn)進(jìn)去發(fā)現(xiàn)只是登錄卡了半分鐘,幾次之后就會(huì)養(yǎng)成"狼來(lái)了"的心態(tài)。
更隱蔽的問(wèn)題是:短 outage 的累積損傷很難量化。
一位依賴Claude做代碼審查的開(kāi)發(fā)者曾在Reddit吐槽:「它沒(méi)徹底崩,但總在我想提交前五分鐘抽風(fēng)。你說(shuō)這算故障嗎?技術(shù)上不算,但我的 workflow 確實(shí)被切碎了。」這種"微中斷"不會(huì)出現(xiàn)在Downdetector上,卻真實(shí)侵蝕著生產(chǎn)力工具的核心價(jià)值——可預(yù)期性。
03 | 后端架構(gòu)的猜測(cè)空間
報(bào)道中提出了一個(gè)開(kāi)放問(wèn)題:Anthropic的后端是不是有什么結(jié)構(gòu)性瓶頸,導(dǎo)致這些"小抽風(fēng)"反復(fù)發(fā)生?
從外部只能推測(cè)。Claude的 outage 有幾個(gè)特征:持續(xù)時(shí)間短(10-30分鐘)、恢復(fù)自動(dòng)性強(qiáng)、集中在登錄/認(rèn)證層。這指向幾種可能:負(fù)載均衡的瞬時(shí)過(guò)載、身份驗(yàn)證服務(wù)的冷啟動(dòng)延遲、或者多區(qū)域部署時(shí)的緩存同步故障。
對(duì)比OpenAI的服務(wù)狀態(tài)歷史,ChatGPT的 outage 通常更長(zhǎng)但更少——2024年幾次大規(guī)模故障都持續(xù)數(shù)小時(shí),涉及推理層而非接入層。兩種模式?jīng)]有絕對(duì)優(yōu)劣,但反映了不同的架構(gòu)取舍:Anthropic可能在追求更快的故障隔離,代價(jià)是更頻繁的邊界抖動(dòng);OpenAI則傾向于用冗余換穩(wěn)定,但故障時(shí)影響面更大。
一個(gè)值得注意的細(xì)節(jié)是,這次 outage 期間,Anthropic沒(méi)有啟用狀態(tài)頁(yè)面的訂閱通知功能。用戶想獲取更新,只能手動(dòng)刷新——這在"重大 outage"的定級(jí)下顯得略有脫節(jié)。是通知系統(tǒng)本身也受波及,還是運(yùn)營(yíng)流程的遺漏?狀態(tài)頁(yè)面沒(méi)有解釋。
04 | 用戶端的真實(shí)體感
Downdetector的數(shù)據(jù)是情緒化的。4000條報(bào)告里,有多少是重復(fù)點(diǎn)擊的誤報(bào),有多少是跟風(fēng)湊熱鬧,很難拆分。但社交媒體上的反饋提供了更細(xì)顆粒的視角。
一位用戶在X(原Twitter)上寫(xiě)道:「我以為是我VPN的問(wèn)題,換了三個(gè)節(jié)點(diǎn)才發(fā)現(xiàn)是Claude itself。」這種歸因混亂是SaaS產(chǎn)品的經(jīng)典痛點(diǎn)——用戶的第一反應(yīng)永遠(yuǎn)是懷疑本地環(huán)境,直到官方確認(rèn)才會(huì)轉(zhuǎn)向。
另一位用戶則展示了更務(wù)實(shí)的應(yīng)對(duì):「崩了就切GPT-4,反正我有三個(gè)訂閱。現(xiàn)在的問(wèn)題是,我越來(lái)越不記得哪個(gè)任務(wù)該用哪個(gè)模型了。」這觸及了AI工具競(jìng)爭(zhēng)的一個(gè)隱性維度:切換成本。當(dāng)備選方案足夠多,單次 outage 的品牌傷害被稀釋,但用戶的忠誠(chéng)度也在同步稀釋。
Anthropic顯然意識(shí)到了這一點(diǎn)。他們?cè)诨謴?fù)后的更新中罕見(jiàn)地追加了一句:「我們將提供額外更新,盡快。」這種承諾式收尾在過(guò)往的狀態(tài)公告中并不常見(jiàn),可能是對(duì)"重大"定級(jí)的配套安撫。
但截至報(bào)道發(fā)稿,這個(gè)"額外更新"尚未出現(xiàn)。
outage 結(jié)束了,定性卻留下了懸念。當(dāng)一家AI公司把30分鐘的登錄故障稱為"重大",它是在誠(chéng)實(shí)面對(duì)基礎(chǔ)設(shè)施的脆弱,還是在為更頻繁的中斷預(yù)演敘事?下一次Downdetector曲線陡峭上揚(yáng)時(shí),用戶會(huì)不會(huì)已經(jīng)學(xué)會(huì)了先等15分鐘再?zèng)Q定要不要生氣?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.