網易首頁 > 網易號 > 正文申請入駐

Claude降智這件事，反而讓我對AI更放心了

2026-04-25 09:56:26　來源: AI效率筆記

河南舉報

分享至

2026年的春天，Claude用戶集體見證了一場教科書級別的"翻車"。

2月到4月，Claude Opus連續摔了三次：默認算力悄悄下調、緩存Bug導致"失憶"、系統提示詞變更損害代碼質量。GitHub上一個Issue炸出了6,852個真實會話的數據——思考深度下降67%，文件讀取效率下降70%，幻覺率幾乎翻倍。

BridgeBench的排名從第2跌到第10。

一個被普遍認為是"最接近AGI"的AI助手，在三個月內，變成了一個"懶得讀文件就動手猜"的擺爛選手。

然后呢？

4月23日，Anthropic發布了詳細的技術事故報告，承認了三個問題、解釋了原因、說明了修復方案，并且給所有用戶重置了用量限額。

這不是小事。在此之前，沒有任何一個AI廠商，曾經用工程事故報告的標準格式，對公眾完整還原過一次產品故障的全貌。

GPT-4o在2024年11月就降過一次。

OpenAI悄悄替換了底層模型，響應速度快了，但benchmark成績大幅下滑。OpenAI沒有發任何事故報告，沒有解釋原因，沒有任何公開的道歉。

Gemini 3.1也有過類似的"能力回歸"——Google同樣沒有發任何說明。

只有Claude，選擇了完整還原。

GitHub Issue #42796是這一切的起點。AMD AI總監Stella Laurenzo，她不是隨便抱怨兩句，而是把6,852個會話的數據全掏出來：思考長度、文件讀取次數、幻覺率、月度賬單變化，每一項都有數字支撐。

這不是投訴，這是工程報告。

然后Anthropic的Claude Code負責人Boris Cherny在GitHub和Hacker News上直接回復，承認了調整，解釋了原因，并且最終在4月23日發布了完整的事后分析。

這個事后分析的內容包括：
- 三個獨立問題分別是什么
- 每一個是何時引入的
- 為什么會發生
- 怎么修復的
- 未來怎么防止

這份報告，放在任何傳統軟件公司，都是一份合格的工程事故復盤文檔。

而Anthropic把它公開了。

有人會說：這有什么好夸的？產品摔了，修好了，難道不是應該的嗎？

不是的。

大模型時代，有一個所有人都心知肚明但沒人愿意說的事實：模型的"智能"是一個黑箱，而且是一個隨時可以被調低的黑箱。

Claude的思考深度是一個可配置的effort參數。這意味著：只要改一行配置，Claude就可以從"深度思考"變成"快速回答"。用戶支付了同樣的訂閱費，但收到的服務可以是不一樣的。

GPT-4o的11月事件證明了，廠商可以在不通知用戶的情況下，用一個更小的模型替換原來的模型，而且速度還更快，用戶短期內根本感覺不出來。

Gemini 3.1的案例也說明了，即使基準成績出現大幅回歸，廠商也可以選擇不承認。

在這個行業現實里，Anthropic選擇發布完整的事故報告，本質上是在說：我們愿意接受監督。

這不是表態，這是行動。

事故報告里有一句話很值得琢磨：

"將medium設為默認是錯誤的權衡。"

"錯誤的權衡"——Anthropic承認了，3月3日把默認effort從high調到medium，不是因為技術做不到，而是因為在"減少延遲"和"保持深度思考"之間，他們選了前者。這是一個商業決策，一個被驗證是錯誤的商業決策。

他們說了。

對比一下行業里更常見的做法：不解釋、不承認、不修復，或者修復了但不告訴用戶是什么時候修的、為什么發生的。

大模型的"智能"不是物理常量，它是一個可以被調節的參數。你以為你在用一個穩定的產品，實際上你是在租用一個隨時可以被修改的能力。

在這個現實里，有一家廠商愿意把"我們調低了你的智能"這件事說出來，并且承認這是錯誤的——這個行為本身，比很多AI廠商過去幾年做的所有"負責任AI"聲明加起來都更有實質意義。

當然，承認錯誤不等于已經建立信任。

Anthropic在三個月內摔了三次——平均每個月一次。縱然每一次都有合理的解釋，但"合理的解釋"積累三次，就構成了一個令人不安的問題：為什么Anthropic沒有在第一次摔的時候就建立起防止第二、第三次摔的機制？

effort默認值的調整發生在3月3日，但直到4月23日才發完整事故報告。這中間有50天的信息空白。

用戶在社區里投訴、Issue被頂上Hacker News、技術媒體開始報道——然后Anthropic才出來說話。

這說明Anthropic的事后響應機制是健全的，但事前預防機制是欠缺的。

大模型的復雜度，已經超過了任何單一團隊能夠完全預測所有交互效果的極限。這是整個行業面對的現實，不是Anthropic一家的問題。但解決方案不是"事后解釋"，而是"事前透明"——在模型能力發生重大變化時，主動告知用戶，而不是等用戶自己發現。

這一次，Anthropic做到了事后透明。下一次，行業需要的是事前透明。

從用戶視角看這次事件，有一個很實際的結論：

不要迷信任何單一模型。

Claude 4月在代碼任務上摔得很重，但Kimi和DeepSeek在某些場景下依然穩定。模型能力是動態的，工具箱也應該是動態的。

同時，這次事件也揭示了一個長期被忽視的風險：長對話中的模型可靠性，不是線性提升的。

Claude的緩存Bug導致"失憶"這件事說明：上下文越來越長，并不意味著模型表現越來越好。有時候，系統層面的變化，反而會讓長對話變成模型表現最差的場景。

一個具體的建議：如果你的工作流依賴長對話驗證，每次開始新會話前，做一次上下文完整性檢查——讓模型復述它認為你們已經達成一致的結論，你會驚訝于有多少次它會"想不起來"。

說回開頭那個問題：Claude降智了，我為什么反而更放心了？

因為我看到了一家AI廠商，在面對產品事故時，選擇了透明還原，而不是沉默或者狡辯。

GPT-4o降智了，OpenAI沒說話。Gemini降智了，Google沒說話。Claude降智了，Anthropic說了很多，而且說的是實話。

我不期待AI廠商永遠不犯錯。沒有任何軟件系統可以做到這一點。

我期待的是：犯錯之后，廠商愿意說清楚發生了什么，愿意承認自己的判斷失誤，愿意告訴用戶未來怎么防止。

Claude的這次事故報告，是大模型行業迄今為止最接近這個標準的一份文件。

降智是事實。但事故報告的透明度，是另一個事實。

這兩個事實放在一起，我更愿意相信Anthropic，而不是那兩家選擇沉默的廠商。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

字節養的“蝦”與1500億賬本背后

鈦媒體APP 2026-04-25 16:44:18
0 跟貼 0
Anthropic實驗火了！Claude替人類做了186筆買賣，用Opus能多賺70%

新智元 2026-04-25 19:04:24
1 跟貼 1

卡帕西都整破防了：AI Coding沒門檻，可部署環節真嗯啊的難

量子位 2026-03-27 12:12:46
0 跟貼 0

DeepSeek-V4報告亮了！V4發布延遲的秘密，終于曝光了

新智元 2026-04-25 13:42:06
33 跟貼 33
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

Token消耗砍半！神州數碼端出“養蝦”三件套，專治AI打工人

雷科技 2026-04-25 22:18:36
0 跟貼 0

這屆流量的情緒密碼是什么？

虎嗅APP 2026-04-26 03:46:12
0 跟貼 0
DeepSeek過于樸素了

虎嗅APP 2026-04-25 17:32:05
105 跟貼 105

“手搓”應用全民化，大廠打響新一輪卡位戰

鈦媒體APP 2026-04-24 17:23:25
8 跟貼 8
Claude Design 真正沖擊的，不是設計師，而是公司里那層“把想法翻成東西”的中間人力

熱點研究 2026-04-22 19:59:08
25 跟貼 25
美國一實驗室高管遺物中發現文件，曝光美長期在研究不明飛行物

主持人鈺峰 2026-04-25 09:04:26
0 跟貼 0
不會寫代碼的文科生耗時一月，用AI靈光做應用軟件賺了三萬元

星視頻 2026-04-22 15:21:34
0 跟貼 0
誰說工科生只會寫代碼？

中國網資訊 2026-04-22 10:15:39
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
龍蝦軍團有了最強「視力」！一眼看圖直接寫代碼-1

機器之心Pro 2026-04-02 16:56:32
0 跟貼 0
烏克蘭前線士兵骨瘦如柴照片披露被指最長斷糧17天

澎湃新聞 2026-04-25 14:48:31
25441 跟貼 25441
制作直升機遙控模型，阿帕奇AH-64

制造科技 2026-04-22 16:29:03
0 跟貼 0
2026年全國腫瘤防治宣傳周丨戴維：肺結節早篩早診與個體化手術決策

CHTV百姓健康 2026-04-23 08:38:00
0 跟貼 0
美能源出口創新高二戰以來首次接近成為原油凈出口國

紅星新聞 2026-04-25 12:32:20
8676 跟貼 8676
特工男攜帶重要文件被跟蹤，裝扮成盲人成功脫險

飛鳥潛影 2026-04-24 00:00:00
0 跟貼 0
蘇超最新積分榜出爐！

無錫博報 2026-04-25 21:51:59
104 跟貼 104
中央發布重磅文件，2026房價現2個信號，大家做好準備！

阿虹在農村 2026-04-23 17:14:23
1 跟貼 1
找到了！伊朗真正的內鬼，根本就不是人！中國也要當心

老攬才是我的外號 2026-04-25 14:59:40
1 跟貼 1
今日交通案例快刷

AKA灰叔 2026-04-24 18:34:21
0 跟貼 0
美國富豪非洲打獵被5頭大象踩死

看看新聞Knews 2026-04-25 19:38:18
3683 跟貼 3683
救人的哥走了50余輛出租車自發送行

極目新聞 2026-04-25 15:18:34
2340 跟貼 2340
蘋果不講武德！iPhone18 屏幕偷偷縮水，強逼用戶買Pro版？

極果酷玩 2026-04-23 12:53:41
12 跟貼 12
半掛模型玩具車買菜，要是超重了怎么辦，雷軍都不敢這么設計！

宇宙搞笑生活 2026-04-23 14:10:00
4 跟貼 4
內地旅客買6000港元蟲草磨粉后結賬竟變成7.1萬

看看新聞Knews 2026-04-25 19:24:12
2967 跟貼 2967
簡直是霸王條款！男子花21999元網購三星三折疊手機被要求必須當面激活才能簽收

閃電新聞 2026-04-25 08:55:39
2222 跟貼 2222
商務部：取消對歐盟兩家金融機構相關反制措施

界面新聞 2026-04-24 22:08:41
568 跟貼 568
臥底攜帶絕密文件來接頭，怎料接頭點全都是特務

飛鳥潛影 2026-04-22 00:00:00
0 跟貼 0
從攤位被擋到全網撐腰，長沙后湖這個煎餅攤前隊伍越排越長，女攤主有個樸素簡單的愿望

瀟湘晨報 2026-04-25 21:02:19
1 跟貼 1
“月薪1.6萬招放羊工”走紅，老板最新發聲→

中國青年報 2026-04-25 08:56:27
2137 跟貼 2137
泡泡瑪特：4月30日發售兩款Labubu冰箱，售價5999元，每款全球限量發售999臺

魯中晨報 2026-04-24 20:08:07
3309 跟貼 3309
“記者臥底桂林六日游低價團”后續：地接旅行社被罰30萬并停業整頓

極目新聞 2026-04-24 08:03:58
550 跟貼 550
尾號9999999手機號將以26.6833萬起拍價再次拍賣，月租僅9元，2個月前51萬余元起拍無人接盤

極目新聞 2026-04-25 18:36:08
1688 跟貼 1688
無錫一高校食堂的巧克力香蕉火了，被指外形抽象！回應：不切才能體現新鮮

南寧新聞網 2026-04-26 07:19:00
19 跟貼 19
感情是否依賴物質基礎，現實案例為你揭曉，答案令人深思

趣味加工廠 2026-04-24 00:00:00
0 跟貼 0
證書能直接當高工用了

新浪財經 2026-04-26 03:43:56
0 跟貼 0

AI效率筆記

專注AI工具測評與效率提升。

397文章數 10關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

游戲

教育

家居

公開課

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

Claude降智這件事，反而讓我對AI更放心了

DeepSeek V4發布！黃仁勛預言的"災難"降臨

2萬海員在霍爾木茲海峽成"活靶子":或隨時被炸成灰燼

2萬海員在霍爾木茲海峽成"活靶子":或隨時被炸成灰燼

那一刻開始，兩支球隊的命運悄然改變了

《我們的爸爸2》第一季完美爸爸翻車了

90%訂單消失，中東旺季沒了

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

毛澤東寫小字，太瀟灑了

索尼新規主機斷網不讓玩：內部人士回應了！

學校管理：“管”出規范，“理”出活力

自然肌理 溫潤美學

2026款樂道L90亮相北京車展樂道L80正式官宣

自然肌理溫潤美學