網易首頁 > 網易科技 > 網易科技 > 正文

最強編程AI被指降智!網友吵翻天,官方緊急回應被群嘲:縮水也叫優化?

0
分享至

出品 | 網易智能

作者 | 辰辰

編輯 | 王鳳枝

最強的編程AI,到底降沒降智?

今年2月初,Anthropic發布Claude Opus 4.6,其憑借著深邃的推理邏輯和對復雜代碼規范的精準執行,被業界奉為代碼真神。

然而好景不長,發布僅數周后就不斷有用戶在社交媒體上聲討,稱其性能出現了斷崖式下跌。


不少用戶聲稱自己付著同樣高昂的月費,換來的卻是一個被明顯降智的縮水版本,Opus 4.6開始變得懶惰與健忘,甚至在基礎邏輯里反復撞墻。

面對全網的聲討,Anthropic官方團隊出面回應,他們辯稱從未削弱模型,種種異常表現只是為了幫用戶節省Token而做出的默認配置優化。

這種單方面的技術辯解顯然無法平息開發者的怒火。

這究竟是大量用戶的集體心理錯覺,還是資本在算力瓶頸下精心炮制的縮水?

一、AMD高管的深度分析:6852份日志見端倪

如果說普通用戶的抱怨只是體感,那么斯特拉·勞倫佐(Stella Laurenzo)的分析,則是讓這件事徹底“實錘”了。

根據領英資料,勞倫佐是AMD的AI部門高級總監,目前在AMD領導一支龐大的團隊為開源AI編譯器開發貢獻力量。她曾在谷歌擔任首席軟件工程師,后作為前Nod.ai工程副總裁加入AMD。

4月2日,勞倫佐在GitHub上發布了一份詳盡的性能回溯報告。

作為一名頂級AI專家,她沒有只憑直覺說話,而是詳細分析了6852份Claude Code會話文件與17871個思考塊以及超過23萬次工具調用記錄,堪稱一份詳盡的高水平個案研究。


這份基于海量數據的分析揭露了一個令人不安的真相,從今年2月份開始,Claude的推理深度就出現了斷崖式下跌。

細節信息顯示:

推理字數縮減:中位思考長度從2200字符縮減到了600字符。

研究退化:以前Claude在寫代碼前會進行多輪研究(Research),現在的模式變成了直接上手改(Edit),這導致讀取與編輯的比率從6.6倍降至2.0倍。

任務早退:在短短17天內,Claude嘗試放棄任務或反問我是否應該繼續的次數達到了173次,而在3月8日之前這個數字是0。

自相矛盾:推理過程中的自我否定(如“哦等等,實際上……”)頻率增加了三倍。

勞倫佐的結論非常冷酷,對于高級工程工作流來說,深度推理不是奢侈品而是模型可用的前提,現在Claude在復雜工程中已經靠不住了。

不過需要注意的是,勞倫佐的分析結論只是說今年2月底Claude思考長度縮短了67%,推文將思考量減少直接等同于智力下降的說法難論嚴謹。

二、社交媒體的證言墻:40分鐘的思考與無效的賬單

勞倫佐的帖子迅速引爆了社交媒體X和Reddit,無數開發者發現自己遇到的問題與這份報告高度契合。

網紅開發者奧姆·帕特爾(Om Patel)直接在X上貼出了結論,有人測出了Claude變笨了多少,答案是67%。

他的論點主要集中在Opus 4.6的思考量比以前少了三分之二。他諷刺地寫道,Anthropic一直保持沉默,直到這些數字被公開,他們的團隊才出來滅火。

帕特爾還在推文中透露,泄露的源代碼顯示他們有一個內部開關,可以讓模型在Anthropic員工使用時保持最佳狀態。不過這一說法尚未得到獨立驗證,Anthropic也未對此作出回應。

他還直言,有人說Anthropic故意降低Opus的性能,是為了節省計算資源來訓練他們的下一個模型Mythos。但這一推測同樣缺乏直接證據。

在Reddit上,用戶們的吐槽則更具具像化,也更顯無奈:

坐等式思考:用戶DangerousSetOfBewbs稱他曾讓Claude處理一個500行的文件,結果Claude進入了長達24分鐘的思考中狀態,只是在那里干坐著。還有網友附和,讓它做研究,40分鐘幾乎沒用什么Token,所以根本不清楚它這40分鐘到底做了什么。


規則視若無睹:許多開發者習慣在CLAUDE.md中設定項目規范,但現在Claude仿佛患上了失憶癥。一位用戶憤怒地留言,如果你不盯著它的輸出,它能分分鐘毀掉你的代碼庫。

價格沒變智力降級:這就是典型的縮水通脹。Reddit用戶Firm_Meeting6350說,我今天退訂了Claude Max 20并轉投了Codex Pro,Claude現在給我的感覺就像在用過時的舊模型。

三、跑分迷霧:從第2名到第10名的跌落

如果用戶抱怨還可以解釋成主觀感受,那么基準測試則似乎要拿真實數據討說法。

4月12日,專門負責幻覺基準測試的機構BridgeMind發布了一條推文,直接將爭議推向高潮。

推文指出Claude Opus 4.6被削弱了,BridgeBench剛剛證明了這一點。上周它排名第2且準確率83.3%,今天重測它掉到了第10且準確率僅剩68.3%,幻覺率增加了98%。


然而這一測試結果遭到了反駁。外部AI研究員保羅·卡爾克拉夫特(Paul Calcraft)隨后指出測試中存在誤導性,BridgeMind的兩次測試并不是對等比較。第一次測試只涵蓋了6個任務,而第二次測試擴充到了30個任務。

卡爾克拉夫特指出,如果只看那6個共同的任務,Claude的得分僅從87.6%輕微波動到85.4%,最大的偏差幾乎來自于單個虛構結果,這種差異在統計學上完全可以歸類為噪音。

這場跑分爭議本身也說明,目前業界缺乏統一且可復現的AI性能基準測試標準,很多測試頗有先下結論后找論據的風格,用戶很難從測試數據中獲得確定性的答案。

然而那個跌落至第10名的數據在社交媒體上瘋傳,截圖給人的視覺沖擊力使其成為了Claude降智這一說法的最有力佐證。

四、官方回應:是優化而非削弱

面對洶洶民意,Anthropic的核心團隊成員不得不公開回應。

Claude Code負責人鮑里斯·切爾尼(Boris Cherny)在勞倫佐的GitHub原文下認真解釋了一通,并在X上連發數條回復,核心觀點只有一個,他們沒有削弱模型,只是為了響應用戶反饋調低了默認的努力程度。

切爾尼表示,很多用戶此前反饋Claude消耗Token太多。為了響應用戶反饋,Anthropic做了以下改變:

默認努力度降級:在3月3日默認將推理努力度設置為中等,如果你想要深度推理,需要手動輸入對應高級指令。

前端隱藏思考過程:改變了前端顯示,不再完整展示思考塊,減少了延遲,但這不影響思考預算或后端的深度推理。

自適應思考機制:在2月9日引入了動態調整機制。

Claude Code團隊成員塔里克·希希帕爾(Thariq Shihipar)也力挺自己的部門老大,他連發數條推文用技術層面的解釋打消用戶疑慮,還堅稱公司不會為了更好地滿足需求而降低模型性能。


值得注意的是,切爾尼提到的默認努力度降級,恰好可以解釋勞倫佐分析報告中的思考長度縮短與研究行為減少以及任務放棄頻率上升等多種現象,這與推理處于中等的默認設置高度吻合。

然而官方解釋并不能平息眾怒,社交媒體上很多用戶都認為,如果為了幫用戶省錢而降低性能或者給出錯誤答案,那這種省錢根本毫無意義可言。

何況公司沒通知就直接進行了調整,直接損害了用戶的知情權。

五、幕后暗戰:緩存生存時間與算力瓶頸

除了推理深度的變化,不少用戶還注意到Claude變得更貴了。

GitHub上一份編號為46829的反饋指出,Claude Code的提示詞緩存生存時間從原本的1小時被縮短到了5分鐘。

這意味著對于長時間工作的程序員來說,你剛才跟Claude說的話,5分鐘后它就忘了。為了繼續工作,你需要重新上傳上下文。

這不僅增加了延遲,更讓用戶的Token消耗量激增,使得一些訂閱用戶開始觸及以前從未遇到的使用上限。

Anthropic工程師賈里德·薩姆納(Jarred Sumner)承認了3月6日的這一改變,但辯稱這是為了持續的緩存優化工作而不是暗中降級。在開發者眼中,這無異于證實了官方確實在后臺積極調整緩存行為,而這正是大家抱怨配額消耗過快的時間段。

不管是Claude變笨也好變貴也罷,Reddit網友raven2cz的說辭堪稱一語中的。

這兩大問題也就是額度限制和思考能力下降都與基礎設施過載密切相關,去GitHub上看看就知道了,成千上萬的用戶現在都在面臨類似的問題,這情況感覺就像一年半前GPT發布新模型時一樣。

網友Wickywire則分析了其中的根本原因,Anthropic在兩個月內日活用戶從400萬漲到了1100萬,他們完全沒有準備并不得不全天候連軸轉去拼命擴容,這就是所謂削弱的真相。你去對時間線,和二三月份發生的事完全吻合。

這里沒有任何隱藏的意圖,只是一個經歷增長之痛的公司,硬件與能源的瓶頸是真實且證據確鑿的。

我們知道原因所在且它們都是結構性的,所以解決辦法也確實有限,在Reddit上反復糾結毫無意義。

這位網友給出的解決方法倒是立竿見影且切實可行,如果你覺得Claude表現不佳可以試試在非高峰時段使用,如果不行換別家AI服務商也行,反正又不是沒有選擇,真是受夠了那些在論壇上抱怨使用量和性能下降的人了。

六、結語:信任危機比變笨更可怕

目前的局面是,用戶在描述體感,而Anthropic在描述參數。

用戶覺得它變笨了且任務失敗了,官方則表示沒有動權重,只是改了默認努力值與縮短了緩存以及調整了前端顯示并公開披露過。

這兩種描述其實并不矛盾,在AI領域即便公司認為自己沒有在底層削弱模型,但微妙的設置變化和配額限制,對全天候依賴它的開發者來說體驗上與變笨毫無二致。

當開發者開始懷疑一個工具的穩定性時,這種信任的裂痕是極難修復的。

尤其是在強敵環伺的當下,OpenAI的Codex正在步步緊逼,它憑借更穩定的算力輸出與靈活的中階訂閱及全新的交互功能,精準收割失望的開發者。

第三方開發者調研工具顯示,自今年3月底Claude降智傳聞發酵以來,Codex及其相關插件的周新增用戶量環比增長了約22%。

如果Anthropic無法在節省算力成本與維持深度推理之間找到真正的平衡點,那么Claude辛辛苦苦建立起的口碑恐怕將在這場風波中受到考驗。

有老用戶所說,我寧愿付兩倍的錢買一個聰明的Claude,也不愿花同樣的錢買一個只會說道歉并要求更多信息的笨蛋。

這場AI界的性能拉鋸戰才剛剛開始。

相關推薦
熱點推薦
ASML現任CEO:中國一旦自主開發設備,放棄我們的光刻機,就有可能用稀土卡我們脖子

ASML現任CEO:中國一旦自主開發設備,放棄我們的光刻機,就有可能用稀土卡我們脖子

芯火相承
2026-04-20 19:29:49
急瘋了!快船梭哈式豪賭,4筆重磅交易曝光,只為留住倫納德?

急瘋了!快船梭哈式豪賭,4筆重磅交易曝光,只為留住倫納德?

體育大朋說
2026-04-20 11:15:16
神秘消失數月后突然現身!美國最頭疼的人,悄悄到了巴格達

神秘消失數月后突然現身!美國最頭疼的人,悄悄到了巴格達

菁菁子衿
2026-04-19 19:41:04
全新坦克700正式上市 綜合續航1191km 42.8萬元起售

全新坦克700正式上市 綜合續航1191km 42.8萬元起售

智車情報局
2026-04-20 22:40:45
戛納最野開幕片:一對夫妻的24小時,女兒全程目擊

戛納最野開幕片:一對夫妻的24小時,女兒全程目擊

影視情報室
2026-04-18 19:35:20
網購完剩下的“快遞氣柱袋”都能拿來干嘛?網友的點子,絕了

網購完剩下的“快遞氣柱袋”都能拿來干嘛?網友的點子,絕了

美家指南
2026-04-20 16:05:59
美伊談判,大消息!特朗普,最新發聲!原油巨震,美股飄綠!

美伊談判,大消息!特朗普,最新發聲!原油巨震,美股飄綠!

證券時報e公司
2026-04-20 22:14:32
越來越多人不裝“玻璃淋浴房”了,這5個替代方案,美觀又實用!

越來越多人不裝“玻璃淋浴房”了,這5個替代方案,美觀又實用!

家居設計師宅哥
2026-04-19 23:32:23
職稱跟退休金“脫鉤”,干了一輩子,最后那點體面也沒了?

職稱跟退休金“脫鉤”,干了一輩子,最后那點體面也沒了?

慧眼看世界哈哈
2026-03-21 05:57:07
歐洲媒體哀嚎“一切結束了”,荷蘭掐斷光刻機,坑的卻是自己人!

歐洲媒體哀嚎“一切結束了”,荷蘭掐斷光刻機,坑的卻是自己人!

幾人盡棄
2026-04-19 23:20:38
李想怒噴日產的背后,藏著“增程帝國”崩塌的無能為力

李想怒噴日產的背后,藏著“增程帝國”崩塌的無能為力

少數派報告Report
2026-04-19 09:17:16
16分鐘被定位2639次!國家安全部緊急提醒:手機軌跡恐成泄密地

16分鐘被定位2639次!國家安全部緊急提醒:手機軌跡恐成泄密地

有范又有料
2026-04-18 16:35:23
請來“項羽”的蘇超,又嚇了所有人一跳

請來“項羽”的蘇超,又嚇了所有人一跳

金錯刀
2026-04-19 17:54:26
囂張!拼多多竟把執法人員手指夾骨折。網友調侃:“砍一刀”不是白叫的,15 億罰輕了

囂張!拼多多竟把執法人員手指夾骨折。網友調侃:“砍一刀”不是白叫的,15 億罰輕了

新浪財經
2026-04-20 07:43:33
蘇超的作業,為什么抄不了?

蘇超的作業,為什么抄不了?

城市研究室
2026-04-20 18:37:23
初中的幾個潛規則:初一成績就中下,甚至倒數的,基本跟高中無緣

初中的幾個潛規則:初一成績就中下,甚至倒數的,基本跟高中無緣

好爸育兒
2026-04-20 15:00:49
砸下400億開戰!徐明聯手本拉登家族,硬剛中石油,千億帝國崩塌

砸下400億開戰!徐明聯手本拉登家族,硬剛中石油,千億帝國崩塌

愛看劇的阿峰
2026-04-19 17:40:52
蒜苔開始上市!再三強調:高血壓患者吃蒜苔時,多注意這5點

蒜苔開始上市!再三強調:高血壓患者吃蒜苔時,多注意這5點

芹姐說生活
2026-04-18 14:47:34
何猷君家保姆買彩票中了3000萬,保姆樂壞了,拒不辭職!轉頭第一句話是:你想要什么,我都買給你

何猷君家保姆買彩票中了3000萬,保姆樂壞了,拒不辭職!轉頭第一句話是:你想要什么,我都買給你

LULU生活家
2026-04-20 14:34:28
許家印和王健林,被同一個80后男人“抄底”了

許家印和王健林,被同一個80后男人“抄底”了

大貓財經Pro
2026-04-20 18:18:57
2026-04-20 23:16:49

科技要聞

HUAWEI Pura X Max發布 售價10999元起

頭條要聞

歐洲或再迎一位親俄領導人 曾與澤連斯基發生公開沖突

頭條要聞

歐洲或再迎一位親俄領導人 曾與澤連斯基發生公開沖突

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經要聞

利潤暴跌7成,字節到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態度原創

房產
教育
手機
時尚
旅游

房產要聞

大規模商改住!海口西海岸,這波項目要贏麻了!

教育要聞

南方電網招了7308人,華南理工485個,這所學校把南網變成了"自家后院"

手機要聞

REDMI新品發布會前瞻,手機、平板、筆記本都有

繼彎刀褲,闊腿褲之后,“圍裹式長褲”突然大火!

旅游要聞

聊城東昌府區旅游攻略大賽頒獎典禮暨惠民旅游巴士發車儀式舉行

無障礙瀏覽 進入關懷版
×