我翻了6000多條日志,發現Claude推理深度暴跌67%這不是感覺,是數據官方怎么說?一個新詞火了:"AI縮水式通脹"一天中最差的時段:下午5點用戶情緒崩潰:數據不會說謊那我們該怎么辦?寫在最后
昨天我在Reddit上刷到一個帖子,標題很簡單:"Claude變蠢了?"
底下幾百條回復,幾乎都在說同一件事:最近用Claude,感覺它沒以前聰明了。
有人說它回答更快了,但經常漏掉關鍵步驟。有人說它不再仔細讀代碼了。還有人說,它在長任務里更容易"提前結束",像是默認事情已經完成了。
我一開始覺得這可能只是個例。畢竟和AI協作這事兒,有時候確實挺玄學的——prompt寫得不好,或者任務本身就不適合,都可能出問題。
但當我看到一個GitHub Issue的時候,我意識到這事兒沒那么簡單。
有人挖了6000多條會話日志,發現了一個讓人震驚的數字:Claude的推理深度,下降了67%。
這個分析來自GitHub上的一個Issue(#42796)。
作者分析了6,852個Claude Code會話文件,包括17,871個thinking blocks和234,760次工具調用。
數據不會說謊。
推理深度的變化:
- 1月底:平均約2,200字符
- 2月底:下降到約720字符
- 3月后:穩定在約600字符
下降幅度:67%。
更關鍵的是,這個變化不是突然發生的,而是從2月中旬開始逐步下降。
Read:Edit比例的變化:
- 1月底:6.6(每編輯一次,平均讀取6.6次)
- 3月后:2.0(每編輯一次,只讀取2次)
這意味著什么?
以前Claude在改代碼之前,會先讀目標文件、讀相關文件、grep搜索用法、讀頭文件和測試,然后才動手。現在呢?讀一下當前文件,直接改。
結果就是:改錯的地方、破壞周圍代碼、違反項目規范。
Anthropic沒有直接承認"模型變弱了"。
Claude Code的開發負責人Boris給出的解釋是:這些變化來自系統層的調整,包括工具調用方式、推理策略和資源分配機制。
他們引入了一個叫"自適應推理"(adaptive thinking)的機制。模型會根據任務復雜度,動態決定要用多少推理資源。
聽起來挺合理的:簡單任務少思考,復雜任務多思考,提升整體效率。
但問題在于:效率優化和能力削弱,在用戶體驗上沒有區別。
當一個模型開始更少閱讀上下文、更快給出答案、更頻繁地提前結束任務,用戶感受到的不是優化,是敷衍。
社區里開始流行一個詞:"AI shrinkflation"(AI縮水式通脹)。
這個詞來自經濟學術語,指商品的大小或數量減少,而價格不變。
放在AI語境下,意思很直接:模型實際給用戶的能力變少了,但模型名稱和價格沒變。
更讓人不舒服的是時間點。
4月7日,Anthropic發布了Claude Mythos Preview,被稱為"能力躍遷的一代"。但這個模型不開放給公眾,只授權給亞馬遜、蘋果、谷歌、微軟等12家巨頭用于網絡安全。
一邊是"更強的新模型"只給少數人用,一邊是"體感變差的舊模型"讓大眾用。
于是,一個猜測開始在社區流傳:把舊模型削了再抬新模型,一捧一踩,新模型的升級幅度就顯得更大了。
這個邏輯沒有直接證據,但它正在被越來越多用戶相信。
數據分析還發現了一個有意思的現象:Claude的性能波動和時間段有關。
時段(PST): 下午5點 | 估算思考深度: 423字符 | 說明: 最差
時段(PST): 晚上7點 | 估算思考深度: 373字符 | 說明: 第二差
時段(PST): 晚上10-11點 | 估算思考深度: 759-988字符 | 說明: 恢復
下午5點PST是什么概念?是美國西海岸下班時間,東海岸晚上8點。
這個時候,平臺負載最高,思考深度最低。
這說明了什么?
思考深度不再是固定的"預算",而是和平臺負載掛鉤。負載高的時候,模型"想得少";負載低的時候,模型"想得多"。
用戶在為同樣的訂閱費買單,但得到的服務質量卻在波動。
分析還對比了用戶在變化前后的詞匯使用:
詞匯: "great" | 變化前: 3.00/千詞 | 變化后: 1.57/千詞 | 變化: -47%
詞匯: "stop" | 變化前: 0.32/千詞 | 變化后: 0.60/千詞 | 變化: +87%
詞匯: "simplest" | 變化前: 0.01/千詞 | 變化后: 0.09/千詞 | 變化: +642%
"simplest"這個詞的使用增加了642%。這是用戶在觀察和命名模型的新行為:選擇最簡單的路徑,而不是正確的路徑。
正負情緒比從4.4:1下降到3.0:1,情緒崩潰了32%。
說實話,作為用戶,我們能做的有限。但至少有幾點可以參考:
1. 避開高峰時段
如果你發現Claude變笨了,看看時間。下午5點到晚上8點(美西時間)可能是最差的時段。深夜或清晨使用,體驗可能會好一些。
2. 更明確的指令
當模型"想得少"的時候,你需要替它想得更多。把任務拆得更細,把要求說得更明確,減少它"偷懶"的空間。
3. 驗證輸出
不要完全信任模型的輸出。尤其是復雜任務,多檢查幾遍。以前可能一次就對的,現在可能需要兩三次迭代。
4. 考慮替代方案
如果你對Claude的表現不滿意,可以試試其他模型。GPT-6剛發布,Gemini也在持續更新。不同的模型有不同的特點,找到適合你工作流的那一個。
這篇文章不是要"黑"Claude。作為一個長期使用Claude的用戶,我對這個產品有感情。
但感情歸感情,數據歸數據。
當模型的推理深度下降67%,當Read:Edit比例從6.6降到2.0,當用戶情緒崩潰32%——這不是"優化",這是退化。
更讓人擔心的是,這種變化是"靜悄悄"的。沒有版本說明,沒有提前通知,用戶只能在一次次失敗的協作中自己發現問題。
AI行業的"縮水式通脹"可能才剛剛開始。今天Claude削了,明天會不會輪到GPT?
我們需要的不是更快的回答,而是更可靠的回答。
如果這篇文章對你有幫助,點個贊、轉發給需要的朋友。有問題評論區聊,我看到都會回。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.