網易首頁 > 網易號 > 正文 申請入駐

Claude降智這件事,反而讓我對AI更放心了

0
分享至

2026年的春天,Claude用戶集體見證了一場教科書級別的"翻車"。

2月到4月,Claude Opus連續摔了三次:默認算力悄悄下調、緩存Bug導致"失憶"、系統提示詞變更損害代碼質量。GitHub上一個Issue炸出了6,852個真實會話的數據——思考深度下降67%,文件讀取效率下降70%,幻覺率幾乎翻倍。

BridgeBench的排名從第2跌到第10。

一個被普遍認為是"最接近AGI"的AI助手,在三個月內,變成了一個"懶得讀文件就動手猜"的擺爛選手。

然后呢?

4月23日,Anthropic發布了詳細的技術事故報告,承認了三個問題、解釋了原因、說明了修復方案,并且給所有用戶重置了用量限額。

這不是小事。在此之前,沒有任何一個AI廠商,曾經用工程事故報告的標準格式,對公眾完整還原過一次產品故障的全貌。

GPT-4o在2024年11月就降過一次。

OpenAI悄悄替換了底層模型,響應速度快了,但benchmark成績大幅下滑。OpenAI沒有發任何事故報告,沒有解釋原因,沒有任何公開的道歉。

Gemini 3.1也有過類似的"能力回歸"——Google同樣沒有發任何說明。

只有Claude,選擇了完整還原。

GitHub Issue #42796是這一切的起點。AMD AI總監Stella Laurenzo,她不是隨便抱怨兩句,而是把6,852個會話的數據全掏出來:思考長度、文件讀取次數、幻覺率、月度賬單變化,每一項都有數字支撐。

這不是投訴,這是工程報告。

然后Anthropic的Claude Code負責人Boris Cherny在GitHub和Hacker News上直接回復,承認了調整,解釋了原因,并且最終在4月23日發布了完整的事后分析。

這個事后分析的內容包括:
- 三個獨立問題分別是什么
- 每一個是何時引入的
- 為什么會發生
- 怎么修復的
- 未來怎么防止

這份報告,放在任何傳統軟件公司,都是一份合格的工程事故復盤文檔。

而Anthropic把它公開了。

有人會說:這有什么好夸的?產品摔了,修好了,難道不是應該的嗎?

不是的。

大模型時代,有一個所有人都心知肚明但沒人愿意說的事實:模型的"智能"是一個黑箱,而且是一個隨時可以被調低的黑箱。

Claude的思考深度是一個可配置的effort參數。這意味著:只要改一行配置,Claude就可以從"深度思考"變成"快速回答"。用戶支付了同樣的訂閱費,但收到的服務可以是不一樣的。

GPT-4o的11月事件證明了,廠商可以在不通知用戶的情況下,用一個更小的模型替換原來的模型,而且速度還更快,用戶短期內根本感覺不出來。

Gemini 3.1的案例也說明了,即使基準成績出現大幅回歸,廠商也可以選擇不承認。

在這個行業現實里,Anthropic選擇發布完整的事故報告,本質上是在說:我們愿意接受監督。

這不是表態,這是行動。

事故報告里有一句話很值得琢磨:

"將medium設為默認是錯誤的權衡。"

"錯誤的權衡"——Anthropic承認了,3月3日把默認effort從high調到medium,不是因為技術做不到,而是因為在"減少延遲"和"保持深度思考"之間,他們選了前者。這是一個商業決策,一個被驗證是錯誤的商業決策。

他們說了。

對比一下行業里更常見的做法:不解釋、不承認、不修復,或者修復了但不告訴用戶是什么時候修的、為什么發生的。

大模型的"智能"不是物理常量,它是一個可以被調節的參數。你以為你在用一個穩定的產品,實際上你是在租用一個隨時可以被修改的能力。

在這個現實里,有一家廠商愿意把"我們調低了你的智能"這件事說出來,并且承認這是錯誤的——這個行為本身,比很多AI廠商過去幾年做的所有"負責任AI"聲明加起來都更有實質意義。

當然,承認錯誤不等于已經建立信任。

Anthropic在三個月內摔了三次——平均每個月一次。縱然每一次都有合理的解釋,但"合理的解釋"積累三次,就構成了一個令人不安的問題:為什么Anthropic沒有在第一次摔的時候就建立起防止第二、第三次摔的機制?

effort默認值的調整發生在3月3日,但直到4月23日才發完整事故報告。這中間有50天的信息空白。

用戶在社區里投訴、Issue被頂上Hacker News、技術媒體開始報道——然后Anthropic才出來說話。

這說明Anthropic的事后響應機制是健全的,但事前預防機制是欠缺的。

大模型的復雜度,已經超過了任何單一團隊能夠完全預測所有交互效果的極限。這是整個行業面對的現實,不是Anthropic一家的問題。但解決方案不是"事后解釋",而是"事前透明"——在模型能力發生重大變化時,主動告知用戶,而不是等用戶自己發現。

這一次,Anthropic做到了事后透明。下一次,行業需要的是事前透明。

從用戶視角看這次事件,有一個很實際的結論:

不要迷信任何單一模型。

Claude 4月在代碼任務上摔得很重,但Kimi和DeepSeek在某些場景下依然穩定。模型能力是動態的,工具箱也應該是動態的。

同時,這次事件也揭示了一個長期被忽視的風險:長對話中的模型可靠性,不是線性提升的。

Claude的緩存Bug導致"失憶"這件事說明:上下文越來越長,并不意味著模型表現越來越好。有時候,系統層面的變化,反而會讓長對話變成模型表現最差的場景。

一個具體的建議:如果你的工作流依賴長對話驗證,每次開始新會話前,做一次上下文完整性檢查——讓模型復述它認為你們已經達成一致的結論,你會驚訝于有多少次它會"想不起來"。

說回開頭那個問題:Claude降智了,我為什么反而更放心了?

因為我看到了一家AI廠商,在面對產品事故時,選擇了透明還原,而不是沉默或者狡辯。

GPT-4o降智了,OpenAI沒說話。Gemini降智了,Google沒說話。Claude降智了,Anthropic說了很多,而且說的是實話。

我不期待AI廠商永遠不犯錯。沒有任何軟件系統可以做到這一點。

我期待的是:犯錯之后,廠商愿意說清楚發生了什么,愿意承認自己的判斷失誤,愿意告訴用戶未來怎么防止。

Claude的這次事故報告,是大模型行業迄今為止最接近這個標準的一份文件。

降智是事實。但事故報告的透明度,是另一個事實。

這兩個事實放在一起,我更愿意相信Anthropic,而不是那兩家選擇沉默的廠商。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“真大方,還拍給外人看”,女兒蹭枕頭,家長放網上,網友卻毛了

“真大方,還拍給外人看”,女兒蹭枕頭,家長放網上,網友卻毛了

蝴蝶花雨話教育
2026-04-21 00:05:03
私人賬戶收款要小心,2026監管新規,普通人必看

私人賬戶收款要小心,2026監管新規,普通人必看

芳姐侃社會
2026-04-24 22:40:35
上海原市委書記徐匡迪,書法飛白夾絲神似張裕釗,網友:南宮碑體

上海原市委書記徐匡迪,書法飛白夾絲神似張裕釗,網友:南宮碑體

石辰搞笑日常
2026-04-26 02:37:39
央視首次曝光:全球最強光刻機亮相,中國再次打破西方技術封鎖

央視首次曝光:全球最強光刻機亮相,中國再次打破西方技術封鎖

小叨娛樂
2026-04-24 20:01:42
”經濟學家吳曉求教授說:“老百姓都沒收入了,還在刺激消費!這種做法是錯誤的!

”經濟學家吳曉求教授說:“老百姓都沒收入了,還在刺激消費!這種做法是錯誤的!

張曉磊
2025-11-07 11:34:05
再見,曼聯!9000萬“大核”決定離隊!斥資2.4億簽下“新中軸”

再見,曼聯!9000萬“大核”決定離隊!斥資2.4億簽下“新中軸”

頭狼追球
2026-04-25 13:27:55
英超34輪戰罷 爭5再無懸念 熱刺絕殺保留保級希望 阿森納重返榜首

英超34輪戰罷 爭5再無懸念 熱刺絕殺保留保級希望 阿森納重返榜首

智道足球
2026-04-26 07:29:37
馬刺新妖刀一戰創8紀錄!末節10分還隔扣羅威 米奇:天賦肉眼可見

馬刺新妖刀一戰創8紀錄!末節10分還隔扣羅威 米奇:天賦肉眼可見

顏小白的籃球夢
2026-04-26 07:16:39
伊朗:處決伊爾凡·基亞尼

伊朗:處決伊爾凡·基亞尼

南方都市報
2026-04-25 18:07:27
廣東東莞一校花太漂亮 身高169CM 體重51公斤 五官精致到無懈可擊

廣東東莞一校花太漂亮 身高169CM 體重51公斤 五官精致到無懈可擊

王二哥老搞笑
2026-04-19 22:13:34
中央5臺直播乒乓球時間表:4月25日CCTV5轉播國乒!附乒壇動態

中央5臺直播乒乓球時間表:4月25日CCTV5轉播國乒!附乒壇動態

林子說事
2026-04-25 17:48:24
角色扮演界的“泥石流”回歸:低成本cos,讓人一看一個不吱聲

角色扮演界的“泥石流”回歸:低成本cos,讓人一看一個不吱聲

絳紫藝術
2026-04-20 19:16:21
芯片觀察者:美國先將中國芯片鎖死在28nm,然后打擊成熟芯片擴產

芯片觀察者:美國先將中國芯片鎖死在28nm,然后打擊成熟芯片擴產

蜉蝣說
2026-04-24 11:38:51
終于知道采購吃回扣是怎么被發現的了,網友分享真實,太開眼了

終于知道采購吃回扣是怎么被發現的了,網友分享真實,太開眼了

夜深愛雜談
2026-03-13 22:02:43
小玥兒 12 歲生日,沒了馬筱梅精心策劃,連一句公開祝福都沒有

小玥兒 12 歲生日,沒了馬筱梅精心策劃,連一句公開祝福都沒有

萌姐
2026-04-24 22:15:51
河南一男子因病偏癱,覺得虧欠妻子主動離婚,女兒擺酒席慶祝:他們開心就好,離婚不離家,母親繼續照顧父親,房車等全部財產都在母親名下

河南一男子因病偏癱,覺得虧欠妻子主動離婚,女兒擺酒席慶祝:他們開心就好,離婚不離家,母親繼續照顧父親,房車等全部財產都在母親名下

洪觀新聞
2026-04-20 16:20:08
上港隊長王燊超:娶了申花球迷,37歲仍征戰中超,恩師盼他回崇明

上港隊長王燊超:娶了申花球迷,37歲仍征戰中超,恩師盼他回崇明

妙知
2026-04-26 08:23:39
1979年越南女兵炸毀我軍坦克,羅興元端起高壓噴火槍,將千度烈焰灌進了十米外的地道

1979年越南女兵炸毀我軍坦克,羅興元端起高壓噴火槍,將千度烈焰灌進了十米外的地道

寄史言志
2026-04-24 22:21:06
郭冬臨現狀:住北京老房子,身形消瘦、臉頰凹陷,59歲無兒無女

郭冬臨現狀:住北京老房子,身形消瘦、臉頰凹陷,59歲無兒無女

娛說瑜悅
2026-04-23 16:04:39
邁阿密國際vs新英格蘭革命:梅西、蘇亞雷斯、德保羅首發出戰

邁阿密國際vs新英格蘭革命:梅西、蘇亞雷斯、德保羅首發出戰

懂球帝
2026-04-26 07:15:36
2026-04-26 09:04:49
AI效率筆記
AI效率筆記
專注AI工具測評與效率提升。
397文章數 10關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

2萬海員在霍爾木茲海峽成"活靶子":或隨時被炸成灰燼

頭條要聞

2萬海員在霍爾木茲海峽成"活靶子":或隨時被炸成灰燼

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

藝術
游戲
教育
家居
公開課

藝術要聞

毛澤東寫小字,太瀟灑了

索尼新規主機斷網不讓玩:內部人士回應了!

教育要聞

學校管理:“管”出規范,“理”出活力

家居要聞

自然肌理 溫潤美學

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版