網易首頁 > 網易號 > 正文 申請入駐

跑分第一,口碑崩了,Claude 4.7到底怎么了

0
分享至

故事是這樣的。先說結論三個讓用戶炸鍋的點第一,代碼能力「降智」第二,推理質量倒退第三,花更多錢,體驗更差為什么會這樣微軟的動作很有意思這事兒意味著什么寫在最后

4月16日晚,Anthropic發布了Claude Opus 4.7。科技媒體清一色「編程能力炸了」「視覺三倍升級」「白嫖式升級」。

48小時后,Reddit上一篇「Claude Opus 4.7是嚴重倒退,不是升級」的帖子沖上3000贊。

同一個模型,有人看到了AGI的影子,有人覺得自己的工作流炸了。

我翻了十幾篇報道,又去Reddit和Twitter上看了幾百條用戶反饋,發現這事兒比想象中有意思。

Opus 4.7不是變蠢了,是變「軸」了。

Anthropic把Claude從一個「順從的助手」改造成了一個「更有主見的同事」。但這個改造,把大量用戶的日常工作流給掀翻了。

更關鍵的是,有個細節大多數媒體都沒注意到——

價格沒漲,但你的賬單可能要漲35%。

大量開發者反饋,從4.6升級到4.7之后,之前能穩定完成的編程任務開始頻繁出錯。

一位Reddit用戶用已知答案的長重構任務做回歸測試,結果模型自信地改掛了3個原本在4.6下能通過的測試。

評論區涌入上百條類似經歷。

但另一邊,SWE-bench Pro基準測試顯示,Opus 4.7得分64.3%,高于GPT-5.4的57.7%。

跑分更強了,但用戶不買賬。

為什么?

因為4.7的執行邏輯變了。官方遷移指南里有一句很關鍵的話——

Claude Opus 4.7會以更字面、更明確的方式理解提示詞。

說人話就是,4.6會「猜你的意思」,4.7會「照你說的做」。

如果你的prompt本來就寫得含糊,4.6可以幫你腦補,但4.7不會。

對一部分用戶來說,這叫「不聽話」。對另一部分用戶來說,這叫「終于不亂猜了」。

NYT Connections Extended基準測試,使用940道《紐約時報》Connections謎題評估大語言模型的邏輯推理能力。

結果是,Opus 4.6得分94.7%,Opus 4.7僅41.0%。

從年級第一,跌到不及格。

另一份數據來自Anthropic自己的System Card,100萬token上下文的MRCR v2測試,4.6得分78.3%,4.7得分32.2%。

這組數據沒法用「遷移成本」解釋。

某些邏輯推理和長上下文檢索任務上,4.7確實出現了顯著退步。

這個細節藏在Anthropic的官方遷移指南里,我估計99%的讀者都跳過了。

原文是這樣的——

Opus 4.7 uses an updated tokenizer that improves how the model processes text. The tradeoff is that the same input can map to more tokens—roughly 1.0–1.35× depending on the content type.

說人話就是,他們換了一把新尺子。

同一段提示詞,過去量出來100個token,現在可能是130個。

定價沒動,還是5美元/百萬Token輸入、25美元/百萬Token輸出。但你的token計算憑空增加了,賬單自然就要變大。

假設一家公司每月在Opus 4.6上花100萬美元API費。切到4.7之后,同樣的工作量,賬單可能會悄悄爬到135萬。

每月多出來幾十萬美元的開銷。

這就是AI時代不知不覺的暗稅。

把幾件事放在一起看,Anthropic的意圖其實挺清晰的。

第一,幻覺率下降了25個百分點。

從61%降到36%。怎么做到的?靠「更頻繁地選擇不作答」。

寧可說「我不知道」,也不瞎編。

第二,GDPval-AA測試登頂。

這項測試衡量的是AI在44種職業、9個主要行業的真實知識工作中的表現。Opus 4.7拿到1753 Elo,領先第二名79分。

第三,官方博客里有句話很關鍵。

engineers shift from working 1:1 with agents to managing them in parallel

工程師從「和一個AI對話」,變成了「同時管著好幾個AI」。

把這幾件事串起來,Anthropic的戰略意圖就清楚了——

他們不在于優化Claude的聊天體驗,而是在優化Claude的工作能力。

一個能獨立完成復雜任務、不瞎編、嚴格按指令執行的AI,比一個「聊天很順」的AI更有價值。

但對于習慣了4.6「猜你意思」的用戶來說,這個轉變太突然了。

沒有過渡期,沒有兼容模式,直接把全部遷移成本推給了用戶。

發布當天,微軟就把Opus 4.7集成到了GitHub Copilot等9大開發環境。

打破了與OpenAI的長期獨家合作。

為什么這么急?

因為Opus 4.7在代碼生成任務上的平均響應時間只有1.2秒,多文件代碼重構任務的錯誤率降低了28%。

對于開發者場景,這些指標比「聊天順不順」重要得多。

微軟看中的是「工作能力」,不是「聊天體驗」。

AI廠商的商業模式,正在從「賣回答」轉成「賣工時」。

過去那種AI是工具屬性的。你問一句它答一句,按次計價,每次調用的邊界由你來畫。

現在這批AI更像是勞動力。你下一個目標,它自主工作幾個小時,按token消耗計價。工作邊界由AI自己決定。

OpenAI在Codex發布會上做了一個演示,讓Codex自己寫一款賽車游戲。整個過程燒了700萬token。

對比一下,你用GPT-4問一個問題,一次大概消耗500到2000個token。

Codex一次任務就是過去單次調用的三千多倍。

這帶來的影響有三個層面。

一是預算方案直接失效。

過去企業AI預算怎么算?要么按席位數乘月費,要么按API調用次數。現在呢,同一個用戶、同一個調用,消耗量可以差100倍。

CFO拿到賬單才知道自己花了多少錢。

二是工程師的角色邊界要重新設定。

以前工程師是寫代碼的人,現在是管AI工作流的人。你得不停判斷,這個活值不值得讓AI燒100萬token去干?

三是能力差距會被繼續拉大。

同樣的AI工具,會用的人和不會用的人,產出能差10倍。

不是AI變強了你就自動受益,你得學會怎么「管AI工時」這件事。

Opus 4.7的爭議不是個案。

OpenAI經歷過GPT-4 Turbo降智風波,幾個月前撤下GPT-4o時也遭遇過類似的用戶反彈。

每一次模型升級,都有一批用戶失去已經適應的工具。

新分詞器讓舊的成本預算失效,新的默認行為讓舊的prompt不再好用,新的接口規范讓舊的代碼直接報錯。

每一項單獨看都有技術上的合理性,但疊在一起,就是把全部遷移成本一次性推給了用戶。

Anthropic員工Alex Albert在發布次日寫道,很多人在剛開始體驗時遇到的bug,現在都已經修復了。

Bug可以修。但信任這種東西,消耗容易,重建很慢。

當AI從玩具變成生產力工具,「快速迭代」就不再是無條件的優點。

用戶的耐心,已經開始倒計時了。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
南通一養老公司被罰!

南通一養老公司被罰!

好通網
2026-04-26 10:19:49
徹底敗光路人緣!皇馬核心惹怒球迷,更衣室內全隊不滿

徹底敗光路人緣!皇馬核心惹怒球迷,更衣室內全隊不滿

奶蓋熊本熊
2026-04-26 00:41:29
今夜,直線拉升!美伊談判,重大突發

今夜,直線拉升!美伊談判,重大突發

中國基金報
2026-04-26 00:24:15
《10間敢死隊》口碑爆棚,陳思誠又救中國電影,保守估計能破10億

《10間敢死隊》口碑爆棚,陳思誠又救中國電影,保守估計能破10億

八卦南風
2026-04-26 09:48:45
被活活絞了40分鐘 行刑后脖子只剩一根韌帶相連 24年后真相浮出水

被活活絞了40分鐘 行刑后脖子只剩一根韌帶相連 24年后真相浮出水

尋墨閣
2026-04-26 00:17:44
凈利不足6億卻派息近18億元!甘肅銀行“土豪式”分紅引爭議

凈利不足6億卻派息近18億元!甘肅銀行“土豪式”分紅引爭議

券商中國
2026-04-26 09:25:40
藍眼北京人控訴陳麗華20余年,比女首富更該銘記

藍眼北京人控訴陳麗華20余年,比女首富更該銘記

老蝣說體育
2026-04-19 17:40:22
無視兩大名帥!切爾西鎖定"瓜迪奧拉 2.0 ",傳奇或將回歸

無視兩大名帥!切爾西鎖定"瓜迪奧拉 2.0 ",傳奇或將回歸

一隅非生
2026-04-26 06:47:41
杭州一男子假裝房東騙取500元定金,被抓前還在問AI:有沒有違法,該怎么辦

杭州一男子假裝房東騙取500元定金,被抓前還在問AI:有沒有違法,該怎么辦

環球網資訊
2026-04-26 08:08:13
越跑越累!網約車司機心酸訴苦:真不想跑了!

越跑越累!網約車司機心酸訴苦:真不想跑了!

網約車焦點
2026-04-26 10:01:35
馬未都現身山東,身家上億卻在路邊攤喝羊湯,71歲還對瓶喝56°酒

馬未都現身山東,身家上億卻在路邊攤喝羊湯,71歲還對瓶喝56°酒

攬星河的筆記
2026-04-25 19:20:03
趙本山不再沉默,扯下沈春陽遮羞布,揭露小沈陽真正“消失”原

趙本山不再沉默,扯下沈春陽遮羞布,揭露小沈陽真正“消失”原

阿廢冷眼觀察所
2026-04-26 10:10:35
卡魯索爆發!雷霆121-109勝太陽,亞歷山大42+4+8,米切爾15+6+2

卡魯索爆發!雷霆121-109勝太陽,亞歷山大42+4+8,米切爾15+6+2

小徐講八卦
2026-04-26 08:52:34
謝潑德承認愚蠢失誤!休媒曬漏人集錦 專家稱進攻也差休媒拒接受

謝潑德承認愚蠢失誤!休媒曬漏人集錦 專家稱進攻也差休媒拒接受

顏小白的籃球夢
2026-04-26 07:24:15
最后時刻簽了,高市將全面梭哈?中日航班已停飛,解放軍準時出海

最后時刻簽了,高市將全面梭哈?中日航班已停飛,解放軍準時出海

孤單是寂寞的毒
2026-04-24 16:45:41
白宮晚宴槍擊現場:特朗普與華人美女同臺,槍響后特種兵持槍上臺

白宮晚宴槍擊現場:特朗普與華人美女同臺,槍響后特種兵持槍上臺

影像溫度
2026-04-26 09:56:08
羅翔:如果一個人突然努力工作,業余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

羅翔:如果一個人突然努力工作,業余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

譚老師地理大課堂
2026-04-22 00:03:57
孔帕尼:奧利塞的水平高到荒謬;中場換人是計劃好的

孔帕尼:奧利塞的水平高到荒謬;中場換人是計劃好的

懂球帝
2026-04-26 01:02:06
曹云金說:我在德云社干了五年,一個月演30場,工資才四千多

曹云金說:我在德云社干了五年,一個月演30場,工資才四千多

時分秒說
2026-04-25 11:13:09
高開低走!再多的名利也救不了,緋聞不斷“出軌成癮”的陳小藝

高開低走!再多的名利也救不了,緋聞不斷“出軌成癮”的陳小藝

黔鄉小姊妹
2026-04-26 09:44:22
2026-04-26 10:47:00
AI效率筆記
AI效率筆記
專注AI工具測評與效率提升。
398文章數 10關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

牛彈琴:伊朗放了美國人鴿子 特朗普被氣壞了

頭條要聞

牛彈琴:伊朗放了美國人鴿子 特朗普被氣壞了

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

親子
手機
時尚
健康
旅游

親子要聞

早上叫孩子起床,記住三說,三不說

手機要聞

小米15解鎖工具流出,8750機型通吃,但我卻不建議折騰!

伊姐周六熱推:電視劇《方圓八百米》;電視劇《金關》......

干細胞如何讓燒燙傷皮膚"再生"?

旅游要聞

非遺流量變消費增量 “馬上入川·蜀你好玩”第二季四川中江啟動

無障礙瀏覽 進入關懷版