網易首頁 > 網易號 > 正文 申請入駐

否認降配!Claude Code 降智風波復盤:鍋在推理強度、緩存、提示詞

0
分享至


Claude Code 近期遭遇的一輪“變笨”爭議,終于等來了 Anthropic 的正式回應。


在用戶連續數周抱怨 Claude Code 輸出質量下降后,Anthropic 承認,這款編程工具的體驗確實出現了問題。

但同時否認外界關于其“故意削弱模型能力”的猜測,稱問題并不在底層模型,而是出在 Claude Code 產品層的一系列調整上。

之前,AMD AI 負責人 Stella Laurenzo 發帖稱,Claude Code 已經退化到“不能被信任去完成復雜工程任務”的程度,并給出了 6852 個 Claude Code 會話文件、234760 次工具調用和 17871 個 thinking block 的分析。

Anthropic 在 4 月 23 日發布的復盤文章中表示,排查后發現,近期體驗下降主要由 3 個問題疊加造成。

第一個問題發生在 3 月 4 日。

Anthropic 將 Claude Code 的默認推理強度從 high 調整為 medium,原本是為了降低部分用戶在 high 模式下遇到的超長延遲,因為有時界面看起來像是卡住了。但現在承認,這是一個錯誤的取舍。用戶更希望默認獲得更高智能表現,而不是為了簡單任務犧牲能力。Anthropic 已在 4 月 7 日撤回這一調整。該問題影響了 Sonnet 4.6 和 Opus 4.6。

第二個問題發生在 3 月 26 日。

Anthropic 上線了一項緩存優化,目標是在會話閑置超過 1 小時后,清理 Claude 較早的 thinking 內容,從而降低用戶恢復會話時的延遲。但其中一個 bug 導致系統不是只清理一次,而是在之后的每一輪對話里持續清理舊 reasoning 內容。這讓 Claude 看起來更健忘、更容易重復,也更容易做出奇怪的工具調用選擇。該問題已在 4 月 10 日修復,影響范圍同樣包括 Sonnet 4.6 和 Opus 4.6。

第三個問題發生在 4 月 16 日。

Anthropic 為了減少 Claude Code 的冗長輸出,在系統提示詞中加入了更強的長度限制。但這一調整與其他提示詞變更疊加后,意外損害了編碼質量。Anthropic 后續通過更廣泛的評測發現,這一改動會讓 Opus 4.6 和 Opus 4.7 的相關評測結果下降約 3%,因此已在 4 月 20 日回滾。該問題影響了 Sonnet 4.6、Opus 4.6 和 Opus 4.7。

Claude Code 不是單點故障,而是幾次看似合理的產品優化疊在一起,最終讓用戶感知成了一場大范圍“降智”。

Anthropic 表示,從 3 月初就開始調查相關反饋,但一開始很難把這些反饋和正常的用戶體驗波動區分開來,內部使用和評測也沒有立刻復現這些問題。

但 Anthropic 強調,沒有故意削弱模型,也沒有讓 API 或推理層發生降級。底層模型本身沒有受影響,問題來自 Claude Code 的默認參數、上下文管理和系統提示詞調整。


但上線后,用戶很快開始反饋 Claude Code “沒有以前聰明”。

Anthropic 后來嘗試通過啟動提醒、內聯推理強度選擇器、恢復 ultrathink 等設計調整,讓用戶更容易看到當前設置并手動切換。

但大多數用戶仍停留在 medium 默認設置。聽取更多客戶反饋后,Anthropic 在 4 月 7 日撤銷這一決定。

現在,Opus 4.7 默認使用 xhigh 推理強度,其他模型默認使用 high。

關于緩存 bug。

Anthropic 解釋稱,Claude 在執行任務時,reasoning 通常會保留在對話歷史中,這樣后續每一輪都能看到此前為什么做出某些編輯和工具調用。3 月 26 日的優化原本是為了在長時間閑置會話恢復時減少未緩存 token,降低成本和延遲。但實現中出現 bug,導致舊 thinking 在之后每一輪都被持續丟棄。隨著對話繼續,Claude 會越來越缺少此前決策依據,于是表現為健忘、重復和工具選擇異常。

Anthropic 還認為,這個 bug 可能也是一些用戶反饋“使用額度消耗比預期更快”的原因,因為持續丟棄 thinking block 會導致后續請求反復出現緩存未命中。

這個問題位于 Claude Code 的上下文管理、Anthropic API 和 extended thinking 的交叉處,因此不容易排查。相關變更經過了人工審查、自動代碼審查、單元測試、端到端測試、自動驗證和內部試用,但仍然沒有被及時發現。

關于系統提示詞問題。

Anthropic 表示,Opus 4.7 相比前代有一個明顯行為特點:更啰嗦。

雖然這種傾向有助于提升復雜問題上的表現,但也會產生更多輸出 token。為此,在 Claude Code 中加入了更強的簡潔性要求,限制工具調用之間的文字和最終回復長度。經過數周內部測試后,這一調整隨 Opus 4.7 在 4 月 16 日上線。

但在后續調查中,Anthropic 通過更廣泛的 ablation 測試發現,系統提示詞中的某些限制確實會損害編碼質量。于是在 4 月 20 日版本中回滾了相關提示詞。

后續改進方面。

Anthropic 表示,將采取幾項措施避免類似問題再次發生。會讓更多內部員工使用與公眾完全一致的 Claude Code 版本,而不是主要使用帶有新功能測試的內部版本;同時會改進內部使用的 Code Review 工具,并把改進后的版本提供給客戶。

Anthropic 還會加強對系統提示詞變更的控制。

未來,Claude Code 的每一次系統提示詞調整,都將經過更廣泛的分模型評測,并繼續通過 ablation 分析每一行提示詞的影響。公司還開發了新的工具,讓提示詞變更更容易被審查和審計。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
男子酒店入住后爬窗墜亡7天后才被發現 家屬索賠57萬余元 法院判了

男子酒店入住后爬窗墜亡7天后才被發現 家屬索賠57萬余元 法院判了

紅星新聞
2026-04-24 16:14:33
“南航空姐”咆哮外籍乘務不懂中文,空少還原鬧劇首次曝光!這事如果發生在新加坡……

“南航空姐”咆哮外籍乘務不懂中文,空少還原鬧劇首次曝光!這事如果發生在新加坡……

新加坡眼
2026-04-23 14:39:44
60歲釋永信情婦有多少?央視發文后,被他搞慘的4個女明星終翻身

60歲釋永信情婦有多少?央視發文后,被他搞慘的4個女明星終翻身

國際阿嘗
2026-03-31 19:36:37
退休后,你就別拼了!養老金達到“這個數”,好好享受晚年生活吧!

退休后,你就別拼了!養老金達到“這個數”,好好享受晚年生活吧!

CG說科技
2026-04-24 09:24:44
宋承炫宣布當爸!為愛隱退后定居美國,與圈外妻子迎來愛情結晶

宋承炫宣布當爸!為愛隱退后定居美國,與圈外妻子迎來愛情結晶

奇怪的鯊魚們
2026-04-22 12:50:18
為什么華為和三星的差距,越追反而越大了?

為什么華為和三星的差距,越追反而越大了?

春雨說科技
2026-04-22 11:27:53
比封鎖海峽更狠!伊朗亮出終極王牌,霍爾木茲海底光纜或將被切斷

比封鎖海峽更狠!伊朗亮出終極王牌,霍爾木茲海底光纜或將被切斷

芳芳歷史燴
2026-04-23 18:30:17
同省兄弟連引強援讓廣東汗顏 他們已經不再缺錢?

同省兄弟連引強援讓廣東汗顏 他們已經不再缺錢?

林子說事
2026-04-24 13:01:55
特朗普:美國“無意影響”伊朗參加2026年美加墨世界杯

特朗普:美國“無意影響”伊朗參加2026年美加墨世界杯

中國網
2026-04-24 10:42:04
姐姐50歲滿頭白發,堅持每天一碗蒸蛋,半年后黑發悄悄長出來了

姐姐50歲滿頭白發,堅持每天一碗蒸蛋,半年后黑發悄悄長出來了

荒野老五
2026-04-01 20:39:21
蘋果手表血氧功能解禁:一場專利戰的荒誕收尾

蘋果手表血氧功能解禁:一場專利戰的荒誕收尾

Ping值焦慮
2026-04-21 20:23:28
CCTV5直播斯諾克世錦賽!8強賽對陣出爐,21點30趙心童迎戰丁俊暉

CCTV5直播斯諾克世錦賽!8強賽對陣出爐,21點30趙心童迎戰丁俊暉

等等talk
2026-04-24 10:21:13
看完這7件事,我終于懂了:中國足球的離譜,早就超出了人類認知

看完這7件事,我終于懂了:中國足球的離譜,早就超出了人類認知

圣西羅的太陽
2026-04-23 13:24:10
永久禁止攀登的山峰

永久禁止攀登的山峰

新科文
2026-04-24 17:10:08
吃蘭州拉面的人為什么越來越少了?網友:進店小心翼翼的怕說錯話

吃蘭州拉面的人為什么越來越少了?網友:進店小心翼翼的怕說錯話

另子維愛讀史
2026-02-27 20:31:34
決定人與人之間貧富差距的7個底層邏輯

決定人與人之間貧富差距的7個底層邏輯

洞見
2026-04-24 09:14:51
40分未必保級!曼聯主帥曾42分降級,熱刺三年不勝降級隊

40分未必保級!曼聯主帥曾42分降級,熱刺三年不勝降級隊

嗨皮看球
2026-04-24 17:36:27
為什么說財不外露?網友:好姐妹知道我家拆遷后,勸我說賭博刺激

為什么說財不外露?網友:好姐妹知道我家拆遷后,勸我說賭博刺激

夜深愛雜談
2026-04-23 07:32:35
無才無德、裝瘋賣傻、一肚子草包,是誰捧紅了這些跳梁小丑?

無才無德、裝瘋賣傻、一肚子草包,是誰捧紅了這些跳梁小丑?

蹲坑看世界
2026-04-22 23:00:21
賴清德竄訪失敗之際,1架大陸飛機抵臺,臺當局對訪問團提一要求

賴清德竄訪失敗之際,1架大陸飛機抵臺,臺當局對訪問團提一要求

林子說事
2026-04-24 11:25:02
2026-04-24 18:20:49
云頭條 incentive-icons
云頭條
引領科技變革,連接技術與商業。
19918文章數 27302關注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

媒體:伊朗將恢復往返中國航班 霍爾木茲決戰或收兵了

頭條要聞

媒體:伊朗將恢復往返中國航班 霍爾木茲決戰或收兵了

體育要聞

里程碑之戰拖后腿,哈登18分8失誤

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態度原創

房產
手機
游戲
教育
公開課

房產要聞

三亞安居房,突然官宣!

手機要聞

Nothing OS 4.1發布,看看更新了啥?

數毛社銳評PS獨占第一方新作!虛幻5粒子特效天花板

教育要聞

山東省“書香校園”聯盟成立

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版