2026年的春天,Claude用戶集體見證了一場教科書級別的"翻車"。
2月到4月,Claude Opus連續摔了三次:默認算力悄悄下調、緩存Bug導致"失憶"、系統提示詞變更損害代碼質量。GitHub上一個Issue炸出了6,852個真實會話的數據——思考深度下降67%,文件讀取效率下降70%,幻覺率幾乎翻倍。
BridgeBench的排名從第2跌到第10。
一個被普遍認為是"最接近AGI"的AI助手,在三個月內,變成了一個"懶得讀文件就動手猜"的擺爛選手。
然后呢?
4月23日,Anthropic發布了詳細的技術事故報告,承認了三個問題、解釋了原因、說明了修復方案,并且給所有用戶重置了用量限額。
這不是小事。在此之前,沒有任何一個AI廠商,曾經用工程事故報告的標準格式,對公眾完整還原過一次產品故障的全貌。
GPT-4o在2024年11月就降過一次。
OpenAI悄悄替換了底層模型,響應速度快了,但benchmark成績大幅下滑。OpenAI沒有發任何事故報告,沒有解釋原因,沒有任何公開的道歉。
Gemini 3.1也有過類似的"能力回歸"——Google同樣沒有發任何說明。
只有Claude,選擇了完整還原。
GitHub Issue #42796是這一切的起點。AMD AI總監Stella Laurenzo,她不是隨便抱怨兩句,而是把6,852個會話的數據全掏出來:思考長度、文件讀取次數、幻覺率、月度賬單變化,每一項都有數字支撐。
這不是投訴,這是工程報告。
然后Anthropic的Claude Code負責人Boris Cherny在GitHub和Hacker News上直接回復,承認了調整,解釋了原因,并且最終在4月23日發布了完整的事后分析。
這個事后分析的內容包括:
- 三個獨立問題分別是什么
- 每一個是何時引入的
- 為什么會發生
- 怎么修復的
- 未來怎么防止
這份報告,放在任何傳統軟件公司,都是一份合格的工程事故復盤文檔。
而Anthropic把它公開了。
有人會說:這有什么好夸的?產品摔了,修好了,難道不是應該的嗎?
不是的。
大模型時代,有一個所有人都心知肚明但沒人愿意說的事實:模型的"智能"是一個黑箱,而且是一個隨時可以被調低的黑箱。
Claude的思考深度是一個可配置的effort參數。這意味著:只要改一行配置,Claude就可以從"深度思考"變成"快速回答"。用戶支付了同樣的訂閱費,但收到的服務可以是不一樣的。
GPT-4o的11月事件證明了,廠商可以在不通知用戶的情況下,用一個更小的模型替換原來的模型,而且速度還更快,用戶短期內根本感覺不出來。
Gemini 3.1的案例也說明了,即使基準成績出現大幅回歸,廠商也可以選擇不承認。
在這個行業現實里,Anthropic選擇發布完整的事故報告,本質上是在說:我們愿意接受監督。
這不是表態,這是行動。
事故報告里有一句話很值得琢磨:
"將medium設為默認是錯誤的權衡。"
"錯誤的權衡"——Anthropic承認了,3月3日把默認effort從high調到medium,不是因為技術做不到,而是因為在"減少延遲"和"保持深度思考"之間,他們選了前者。這是一個商業決策,一個被驗證是錯誤的商業決策。
他們說了。
對比一下行業里更常見的做法:不解釋、不承認、不修復,或者修復了但不告訴用戶是什么時候修的、為什么發生的。
大模型的"智能"不是物理常量,它是一個可以被調節的參數。你以為你在用一個穩定的產品,實際上你是在租用一個隨時可以被修改的能力。
在這個現實里,有一家廠商愿意把"我們調低了你的智能"這件事說出來,并且承認這是錯誤的——這個行為本身,比很多AI廠商過去幾年做的所有"負責任AI"聲明加起來都更有實質意義。
當然,承認錯誤不等于已經建立信任。
Anthropic在三個月內摔了三次——平均每個月一次。縱然每一次都有合理的解釋,但"合理的解釋"積累三次,就構成了一個令人不安的問題:為什么Anthropic沒有在第一次摔的時候就建立起防止第二、第三次摔的機制?
effort默認值的調整發生在3月3日,但直到4月23日才發完整事故報告。這中間有50天的信息空白。
用戶在社區里投訴、Issue被頂上Hacker News、技術媒體開始報道——然后Anthropic才出來說話。
這說明Anthropic的事后響應機制是健全的,但事前預防機制是欠缺的。
大模型的復雜度,已經超過了任何單一團隊能夠完全預測所有交互效果的極限。這是整個行業面對的現實,不是Anthropic一家的問題。但解決方案不是"事后解釋",而是"事前透明"——在模型能力發生重大變化時,主動告知用戶,而不是等用戶自己發現。
這一次,Anthropic做到了事后透明。下一次,行業需要的是事前透明。
從用戶視角看這次事件,有一個很實際的結論:
不要迷信任何單一模型。
Claude 4月在代碼任務上摔得很重,但Kimi和DeepSeek在某些場景下依然穩定。模型能力是動態的,工具箱也應該是動態的。
同時,這次事件也揭示了一個長期被忽視的風險:長對話中的模型可靠性,不是線性提升的。
Claude的緩存Bug導致"失憶"這件事說明:上下文越來越長,并不意味著模型表現越來越好。有時候,系統層面的變化,反而會讓長對話變成模型表現最差的場景。
一個具體的建議:如果你的工作流依賴長對話驗證,每次開始新會話前,做一次上下文完整性檢查——讓模型復述它認為你們已經達成一致的結論,你會驚訝于有多少次它會"想不起來"。
說回開頭那個問題:Claude降智了,我為什么反而更放心了?
因為我看到了一家AI廠商,在面對產品事故時,選擇了透明還原,而不是沉默或者狡辯。
GPT-4o降智了,OpenAI沒說話。Gemini降智了,Google沒說話。Claude降智了,Anthropic說了很多,而且說的是實話。
我不期待AI廠商永遠不犯錯。沒有任何軟件系統可以做到這一點。
我期待的是:犯錯之后,廠商愿意說清楚發生了什么,愿意承認自己的判斷失誤,愿意告訴用戶未來怎么防止。
Claude的這次事故報告,是大模型行業迄今為止最接近這個標準的一份文件。
降智是事實。但事故報告的透明度,是另一個事實。
這兩個事實放在一起,我更愿意相信Anthropic,而不是那兩家選擇沉默的廠商。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.