故事是這樣的。先說結論三個讓用戶炸鍋的點第一,代碼能力「降智」第二,推理質量倒退第三,花更多錢,體驗更差為什么會這樣微軟的動作很有意思這事兒意味著什么寫在最后
4月16日晚,Anthropic發布了Claude Opus 4.7。科技媒體清一色「編程能力炸了」「視覺三倍升級」「白嫖式升級」。
48小時后,Reddit上一篇「Claude Opus 4.7是嚴重倒退,不是升級」的帖子沖上3000贊。
同一個模型,有人看到了AGI的影子,有人覺得自己的工作流炸了。
我翻了十幾篇報道,又去Reddit和Twitter上看了幾百條用戶反饋,發現這事兒比想象中有意思。
Opus 4.7不是變蠢了,是變「軸」了。
Anthropic把Claude從一個「順從的助手」改造成了一個「更有主見的同事」。但這個改造,把大量用戶的日常工作流給掀翻了。
更關鍵的是,有個細節大多數媒體都沒注意到——
價格沒漲,但你的賬單可能要漲35%。
大量開發者反饋,從4.6升級到4.7之后,之前能穩定完成的編程任務開始頻繁出錯。
一位Reddit用戶用已知答案的長重構任務做回歸測試,結果模型自信地改掛了3個原本在4.6下能通過的測試。
評論區涌入上百條類似經歷。
但另一邊,SWE-bench Pro基準測試顯示,Opus 4.7得分64.3%,高于GPT-5.4的57.7%。
跑分更強了,但用戶不買賬。
為什么?
因為4.7的執行邏輯變了。官方遷移指南里有一句很關鍵的話——
Claude Opus 4.7會以更字面、更明確的方式理解提示詞。
說人話就是,4.6會「猜你的意思」,4.7會「照你說的做」。
如果你的prompt本來就寫得含糊,4.6可以幫你腦補,但4.7不會。
對一部分用戶來說,這叫「不聽話」。對另一部分用戶來說,這叫「終于不亂猜了」。
NYT Connections Extended基準測試,使用940道《紐約時報》Connections謎題評估大語言模型的邏輯推理能力。
結果是,Opus 4.6得分94.7%,Opus 4.7僅41.0%。
從年級第一,跌到不及格。
另一份數據來自Anthropic自己的System Card,100萬token上下文的MRCR v2測試,4.6得分78.3%,4.7得分32.2%。
這組數據沒法用「遷移成本」解釋。
某些邏輯推理和長上下文檢索任務上,4.7確實出現了顯著退步。
這個細節藏在Anthropic的官方遷移指南里,我估計99%的讀者都跳過了。
原文是這樣的——
Opus 4.7 uses an updated tokenizer that improves how the model processes text. The tradeoff is that the same input can map to more tokens—roughly 1.0–1.35× depending on the content type.
說人話就是,他們換了一把新尺子。
同一段提示詞,過去量出來100個token,現在可能是130個。
定價沒動,還是5美元/百萬Token輸入、25美元/百萬Token輸出。但你的token計算憑空增加了,賬單自然就要變大。
假設一家公司每月在Opus 4.6上花100萬美元API費。切到4.7之后,同樣的工作量,賬單可能會悄悄爬到135萬。
每月多出來幾十萬美元的開銷。
這就是AI時代不知不覺的暗稅。
把幾件事放在一起看,Anthropic的意圖其實挺清晰的。
第一,幻覺率下降了25個百分點。
從61%降到36%。怎么做到的?靠「更頻繁地選擇不作答」。
寧可說「我不知道」,也不瞎編。
第二,GDPval-AA測試登頂。
這項測試衡量的是AI在44種職業、9個主要行業的真實知識工作中的表現。Opus 4.7拿到1753 Elo,領先第二名79分。
第三,官方博客里有句話很關鍵。
engineers shift from working 1:1 with agents to managing them in parallel
工程師從「和一個AI對話」,變成了「同時管著好幾個AI」。
把這幾件事串起來,Anthropic的戰略意圖就清楚了——
他們不在于優化Claude的聊天體驗,而是在優化Claude的工作能力。
一個能獨立完成復雜任務、不瞎編、嚴格按指令執行的AI,比一個「聊天很順」的AI更有價值。
但對于習慣了4.6「猜你意思」的用戶來說,這個轉變太突然了。
沒有過渡期,沒有兼容模式,直接把全部遷移成本推給了用戶。
發布當天,微軟就把Opus 4.7集成到了GitHub Copilot等9大開發環境。
打破了與OpenAI的長期獨家合作。
為什么這么急?
因為Opus 4.7在代碼生成任務上的平均響應時間只有1.2秒,多文件代碼重構任務的錯誤率降低了28%。
對于開發者場景,這些指標比「聊天順不順」重要得多。
微軟看中的是「工作能力」,不是「聊天體驗」。
AI廠商的商業模式,正在從「賣回答」轉成「賣工時」。
過去那種AI是工具屬性的。你問一句它答一句,按次計價,每次調用的邊界由你來畫。
現在這批AI更像是勞動力。你下一個目標,它自主工作幾個小時,按token消耗計價。工作邊界由AI自己決定。
OpenAI在Codex發布會上做了一個演示,讓Codex自己寫一款賽車游戲。整個過程燒了700萬token。
對比一下,你用GPT-4問一個問題,一次大概消耗500到2000個token。
Codex一次任務就是過去單次調用的三千多倍。
這帶來的影響有三個層面。
一是預算方案直接失效。
過去企業AI預算怎么算?要么按席位數乘月費,要么按API調用次數。現在呢,同一個用戶、同一個調用,消耗量可以差100倍。
CFO拿到賬單才知道自己花了多少錢。
二是工程師的角色邊界要重新設定。
以前工程師是寫代碼的人,現在是管AI工作流的人。你得不停判斷,這個活值不值得讓AI燒100萬token去干?
三是能力差距會被繼續拉大。
同樣的AI工具,會用的人和不會用的人,產出能差10倍。
不是AI變強了你就自動受益,你得學會怎么「管AI工時」這件事。
Opus 4.7的爭議不是個案。
OpenAI經歷過GPT-4 Turbo降智風波,幾個月前撤下GPT-4o時也遭遇過類似的用戶反彈。
每一次模型升級,都有一批用戶失去已經適應的工具。
新分詞器讓舊的成本預算失效,新的默認行為讓舊的prompt不再好用,新的接口規范讓舊的代碼直接報錯。
每一項單獨看都有技術上的合理性,但疊在一起,就是把全部遷移成本一次性推給了用戶。
Anthropic員工Alex Albert在發布次日寫道,很多人在剛開始體驗時遇到的bug,現在都已經修復了。
Bug可以修。但信任這種東西,消耗容易,重建很慢。
當AI從玩具變成生產力工具,「快速迭代」就不再是無條件的優點。
用戶的耐心,已經開始倒計時了。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.