![]()
曾被視為AI編程領(lǐng)域標(biāo)桿的ClaudeCode,近期陷入一場前所未有的信任危機(jī)。2026年2月更新后,多位資深開發(fā)者反映其處理復(fù)雜工程任務(wù)的能力斷崖式下跌,從"靠譜隊(duì)友"淪為"頻繁掉鏈子"的工具。這場爭議由AMDAI團(tuán)隊(duì)主管StellaLaurenzo引爆,她以詳實(shí)數(shù)據(jù)揭示模型思考深度驟降67%,引發(fā)全球開發(fā)者共鳴,連ClaudeCode負(fù)責(zé)人BorisCherny都親自下場回應(yīng)。這場風(fēng)波不僅關(guān)乎一款產(chǎn)品的口碑,更折射出AI工具商業(yè)化進(jìn)程中,效率與質(zhì)量、成本與體驗(yàn)的艱難平衡。
![]()
![]()
一、數(shù)據(jù)實(shí)錘:從"深思熟慮"到"淺嘗輒止"
這場爭議的核心,是一份基于海量真實(shí)數(shù)據(jù)的分析報(bào)告。Laurenzo團(tuán)隊(duì)深挖了2026年1月30日至4月1日期間,6852份ClaudeCode會話文件、17871個思考模塊與234760次工具調(diào)用,用客觀數(shù)據(jù)勾勒出模型能力退化的清晰軌跡。
最刺眼的變化是思考深度暴跌67%。1月"優(yōu)質(zhì)期"時,ClaudeCode每次思考的字符數(shù)穩(wěn)定在2200個左右,能完整呈現(xiàn)多步驟推理、上下文關(guān)聯(lián)與規(guī)范遵循的過程。到2月下旬,這一數(shù)字直接腰斬至720字符,減少了三分之二的思考量。3月初"redact-thinking"功能全量上線后,思考過程被隱藏,但數(shù)據(jù)估算顯示其深度進(jìn)一步跌至560字符,累計(jì)降幅達(dá)75%。
![]()
更關(guān)鍵的是工作流徹底異化。原本ClaudeCode遵循嚴(yán)謹(jǐn)?shù)?先研究后修改"邏輯:每次編輯前平均讀取6.6次相關(guān)文件,先吃透目標(biāo)代碼、梳理調(diào)用關(guān)系、研讀頭文件與測試用例,再精準(zhǔn)動手。退化后這一比例驟降至2.0次,調(diào)研行為減少70%,常常只讀當(dāng)前文件就直接編輯,甚至出現(xiàn)不讀文件就改寫的情況。模型越來越傾向于重寫整個文件而非局部修改,看似更快,卻頻繁破壞原有邏輯、丟失上下文信息。
![]()
還有"擺爛"行為激增。團(tuán)隊(duì)專門編寫腳本檢測模型回避責(zé)任、提前終止任務(wù)、反復(fù)請求授權(quán)等敷衍行為。3月8日"redact-thinking"覆蓋超50%用戶后,17天內(nèi)觸發(fā)173次,而此前數(shù)月記錄為零。開發(fā)者反饋:模型常忽略明確指令、聲稱完成卻未改動、執(zhí)行操作與需求完全相反,處理復(fù)雜多文件項(xiàng)目時頻頻"罷工"。
![]()
二、時間線吻合:三次更新埋下隱患
數(shù)據(jù)顯示,ClaudeCode的退化并非偶然,而是與Anthropic三次關(guān)鍵更新精準(zhǔn)同步,形成清晰的問題傳導(dǎo)鏈。
2月9日:Opus4.6發(fā)布,引入"自適應(yīng)思考"。這是問題的起點(diǎn)。此前模型采用固定思考預(yù)算,更新后改為自主決定推理深度與時長。初衷是提升效率、降低成本,卻導(dǎo)致模型為追求速度主動"偷懶",優(yōu)先選擇最簡路徑而非最優(yōu)方案。Laurenzo團(tuán)隊(duì)發(fā)現(xiàn),思考深度下降正是從這一天開始,與自適應(yīng)思考的上線完全吻合。
3月3日:默認(rèn)思考強(qiáng)度調(diào)至"中等(85)"。Anthropic官方稱,這是在智能水平、延遲與成本間找到的"最優(yōu)平衡點(diǎn)",能提升token效率、降低響應(yīng)時間。但對復(fù)雜工程場景而言,中等強(qiáng)度遠(yuǎn)不足以支撐深度推理。開發(fā)者反映,直到質(zhì)量暴跌才發(fā)現(xiàn)默認(rèn)設(shè)置被更改,耗費(fèi)大量時間修復(fù)錯誤。
3月5-12日:"redact-thinking-2026-02-12"全量上線。這一功能從API響應(yīng)中剝離思考內(nèi)容,讓用戶無法查看模型推理過程。其部署節(jié)奏呈明顯灰度特征:從1.5%逐步升至25%、58%,最終一周內(nèi)覆蓋100%用戶。3月8日覆蓋超50%當(dāng)天,正是大規(guī)模質(zhì)量問題被集中上報(bào)的日子,時間線完全重合。Anthropic稱這只是UI層面調(diào)整,不影響實(shí)際思考,但開發(fā)者認(rèn)為這是在"掩蓋退化"。
三、官方回應(yīng)與開發(fā)者反彈:各執(zhí)一詞的爭議
面對洶涌的質(zhì)疑,ClaudeCode負(fù)責(zé)人BorisCherny在GitHub與開發(fā)者論壇親自回應(yīng),試圖平息風(fēng)波,但解釋并未獲得廣泛認(rèn)可。
Cherny的核心觀點(diǎn)有三:一是redact-thinking僅隱藏UI,不影響底層推理與思考預(yù)算,用戶可通過設(shè)置恢復(fù)顯示;二是自適應(yīng)思考與默認(rèn)強(qiáng)度調(diào)整是為平衡體驗(yàn),多數(shù)用戶能受益,專業(yè)用戶可手動調(diào)至"high"或"max"模式;三是邀請用戶提交bug反饋,以便定位問題是異常還是正常波動。
但Laurenzo直接反駁:團(tuán)隊(duì)已嘗試所有思考參數(shù)組合,均無法扭轉(zhuǎn)質(zhì)量下滑趨勢。"在思考被隱藏前,模型性能就已嚴(yán)重退化,沒有證據(jù)表明問題可通過現(xiàn)有設(shè)置修復(fù)"。她強(qiáng)調(diào),數(shù)據(jù)來自真實(shí)工程場景,覆蓋完整會話日志,結(jié)論客觀可靠。
其他開發(fā)者紛紛站隊(duì)。有人直言"若官方堅(jiān)稱沒問題,就遷移到Codex";有人反饋調(diào)至最高強(qiáng)度后才恢復(fù)穩(wěn)定,懇請?jiān)黾?始終全力思考"模式;也有人發(fā)現(xiàn)最高強(qiáng)度反而"用力過猛",表現(xiàn)與低強(qiáng)度類似,問題根源遠(yuǎn)超參數(shù)設(shè)置。
![]()
四、深層反思:AI工具的效率與質(zhì)量悖論
ClaudeCode事件,本質(zhì)是AI商業(yè)化進(jìn)程中"降本增效"與"專業(yè)體驗(yàn)"的激烈沖突。Anthropic的調(diào)整邏輯不難理解:大模型運(yùn)算成本高昂,固定高思考預(yù)算會導(dǎo)致資源浪費(fèi)、響應(yīng)緩慢、用戶流失。通過自適應(yīng)思考與強(qiáng)度分級,既能控制成本、提升速度,又能滿足普通用戶需求,看似是理性選擇。
但對專業(yè)開發(fā)者與企業(yè)用戶而言,這種調(diào)整是致命的。復(fù)雜工程任務(wù)需要深度推理、長上下文保持、多步驟關(guān)聯(lián),思考深度不足會直接導(dǎo)致輸出失效,反而增加調(diào)試成本、降低整體效率。正如Laurenzo所說:"減少單次思考看似節(jié)省算力,卻因質(zhì)量下降引發(fā)頻繁重試、錯誤修正,整體算力消耗反而暴漲幾個數(shù)量級"。
這場風(fēng)波也暴露了AI產(chǎn)品更新的倫理問題。核心功能與默認(rèn)設(shè)置的重大調(diào)整,是否應(yīng)充分告知用戶?專業(yè)級工具能否為迎合大眾而犧牲專業(yè)能力?當(dāng)AI從"輔助工具"變?yōu)?生產(chǎn)核心",穩(wěn)定性與可靠性遠(yuǎn)比"速度更快"重要。
目前,Laurenzo已刪除部分易被斷章取義的表述,稱初衷是呈現(xiàn)客觀數(shù)據(jù),而非全盤否定ClaudeCode。她表示會繼續(xù)測試、提交bug反饋,希望幫助Anthropic修復(fù)問題,找回曾經(jīng)的高質(zhì)量體驗(yàn)。而Anthropic也承諾,將測試為團(tuán)隊(duì)與企業(yè)版用戶默認(rèn)啟用高思考強(qiáng)度,平衡專業(yè)需求與成本控制。
對整個AI行業(yè)而言,ClaudeCode的"翻車"是一次重要警示:技術(shù)迭代不能只追求速度與流量,更要守住專業(yè)底線。真正優(yōu)秀的AI助手,不該在效率與質(zhì)量間二選一,而要通過技術(shù)創(chuàng)新實(shí)現(xiàn)兼顧——既讓普通用戶輕快流暢,也讓專業(yè)用戶深度可靠。畢竟,開發(fā)者需要的是能并肩作戰(zhàn)的"靠譜隊(duì)友",而非關(guān)鍵時刻掉鏈子的"表面功夫"。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.