網易首頁 > 網易號 > 正文申請入駐

Opus 4.8發布：41天補丁包里，Anthropic藏了一次戰略轉向

2026-05-29 01:46:15　來源: AI進化論花生

北京舉報

分享至

Anthropic凌晨發了Opus 4.8。

如果只看那張benchmark對比圖，你會覺得這是一次平淡的小版本升級。SWE-Bench Pro從64.3漲到69.2，OSWorld從82.8漲到83.4，幾個百分點的事。我刷了一圈X和HN，最有共鳴的評論也就一句話：「看起來像是個挺小的更新？」

但我把官方博客、Dynamic Workflows專頁、Fast Mode文檔都翻了一遍，我覺得這次發布真正在做的事完全不是benchmark上那幾個百分點。

以前你跟Claude打交道的單位是「一句話」或者「一個任務」——你問它一句話它回你一段，或者你給它一個PRD它做完一個功能。Opus 4.8這次想悄悄把單位換成「一下午」——你說一聲，它自己拆出幾百個并行小agent，跑兩個小時，回來給你一個能合并的PR。

這才是真正值得講的事。

先說還4.7債的部分

Opus 4.7是2026年4月16日發布的。4.8是5月28日發的。中間41天。

Anthropic之前沒有過這個節奏。半年起步算是大模型行業的常規節奏。41天就趕一版同價升級，不是產品迭代。

4.7當時在Reddit上有一條頂帖「Opus 4.7 is not an upgrade but a serious regression」，2300多個贊。X上一條說「4.7沒比4.6進步」的帖子拿了1.4萬贊。這次4.8的HN討論區里也能看到不少老用戶說自己當時被4.7那個adaptive reasoning氣得直接退回4.6。TechCrunch這次的報道里直接把4.8的快速發布歸因為「chilly reception to Opus 4.7」。

所以你打開官方博客，能很清楚看到Anthropic在還4.7的債：

手動effort控制加回來了。4.7做了個"adaptive reasoning"，自動判斷要不要深度思考，用戶罵翻。4.8直接默認effort拉到high，并且把檔位還給用戶
寫代碼不那么瞎自信了。以前Claude給你一段代碼，可能里面有問題，但它不會告訴你哪里有問題；現在它會自己標出來。官方把這個叫做「降4倍幻覺」，社區有人吐槽包裝成「honesty」提升是過度擬人化。兩邊都對，但開發者拿到的是實在的好處
價格不變。還是$5輸入/$25輸出

老用戶其實不需要營銷話術，給穩定的迭代和不漲價就夠了。

41天發版的另一層是節奏狙擊

聊到41天，我想多說一句。

Anthropic其實從Mythos之后就處在一個很微妙的位置。他們手上壓著一個比公開模型水平高一截的天花板，理論上可以在Opus 4.6到Mythos之間隨便切片發布。今天哪個版本能贏點市場就發哪個，命名怎么排都行。

4.8這個時機，剛好趕在GPT-5.6傳言發布前。

所以4.8不只是「還4.7的債」，它同時是一個有意切出來的中間態產品。Anthropic自己留了大量調參空間，每次需要狙擊競爭對手就放出來一版。這種打法你之前在芯片廠商那邊見過，但在大模型這邊是新的。以前發新模型動輒半年起步，因為「卡不夠、數據不夠、訓練時間不夠」。Mythos壓頂之后這個節奏才出得來。

這里面其實藏著一個不太被討論的細節：Opus 4.7和4.8的training data cutoff都是2026年1月，完全一樣。Opus 4.6還是May 2025。所以4.7到4.8這41天，base model大概率沒有重做大規模預訓練，迭代的是post-training（RLHF、safety訓練、tool-use微調這些）。這才是Anthropic能做「頻繁切片發版」的真正原因——base model復用，post-training快速迭代。對比國內DeepSeek V4發布時預訓練語料截止時間要早不少，國內廠商的快速迭代更多卡在「卡和數據」上。

晚cutoff這件事還有一個更隱蔽的二階價值。cutoff越晚，模型對「AI能做什么、自己作為AI coding agent能做什么」的自我認識越準。它見過最新版Claude Code的文檔，見過最新的MCP和skill規范，見過別人怎么用agentic方式編程。所以你跟它聊best practice、說「按你自己的方式想」，它能接得住。新手友好的核心機制其實是這個，跟模型本身聰不聰明關系反而沒那么大。

Fast Mode的"3倍便宜"，是給重度用戶的留人成本

Fast Mode這事我必須展開講一下，因為大部分中文報道都講錯了。

官方原文是「fast mode for Opus 4.8—where the model can work at 2.5× the speed—is now three times cheaper than it was for previous models」。

「3倍便宜」是相對自家上一代的Fast Mode，不是相對標準模式。具體說就是：

項目

輸入價

輸出價

Opus 4.6/4.7 Fast Mode（舊）

$30/百萬token

$150/百萬token

Opus 4.8 Fast Mode（新） $10/百萬token $50/百萬token

Opus 4.8 標準模式（參照）

$5/百萬token

$25/百萬token

Fast Mode還是比標準模式貴2倍，但跟自己的上一代比，是1/3的價格。

但你看Fast Mode這價格表就知道，它不是給個人開發者準備的。

我自己用Claude Code是訂閱檔，Fast Mode用不起也用不上。Fast Mode真正的客戶是API接入的大企業——企業里整個工程師團隊幾十個人每天上千次API調用Claude Code，賬單是另一個量級。

最近微軟甚至要求員工停止使用Claude Code，因為公司報銷的API賬單肉疼。這種背景下Anthropic主動砍Fast Mode 3倍，目的非常清楚：留住大企業客戶，不讓他們因為成本壓力流失到GPT-5.5那邊去。

對個人開發者來說，訂閱檔依然是最劃算的方式。Fast Mode這次降價紅包，主要不是發給我們的。

Dynamic Workflows才是真新聞

跟著4.8一起發的Dynamic Workflows，是這次發布最值得講的部分。

它具體在做什么——你跟Claude Code說一句「create a workflow」，或者打開ultracode這個新設置，剩下的事它自己安排。Anthropic自己的描述是「Claude can plan the work and then run tens to hundreds of parallel subagents in a single session」。

具體長這樣：你說「把這100萬行Java遷到Kotlin」，然后你出去喝杯咖啡。回來的時候它已經自己拆出了幾百個小agent——一個負責改文件結構，一個負責改語法，一個負責跑測試，一個專門挑前三個的毛病。兩小時后你看到的不是一段代碼，是一個能合并的PR。

這事在我手上有對照。我自己平時用Claude Code跑女媧.skill（一個把人物蒸餾成思維skill的工具）的時候，已經在讓它spawn好幾個獨立subagent做盲測。一個agent扮演評委審風格，一個扮演讀者打分，互相質疑「這段是不是太AI腔了」「這個洞察立得住嗎」。但我能搭起來的subagent數量上限大概十幾個，因為再多我自己腦子里就管不過來了。Anthropic這次發的Dynamic Workflows是讓Claude自己寫orchestration腳本，subagent數量到幾百，自帶adversarial verification機制。簡單說：原來我手動管十幾個，現在Claude自己管幾百個。

最有說服力的案例是Bun的rewrite。Bun把Zig寫的運行時遷移到Rust，用Claude Code的Dynamic Workflows，11天產出大概75萬行Rust代碼。這事在HN上有正經的爭議。產生了13000多個unsafeblock，主流聲音是「這不算可以直接上production的代碼」。但即使你把它當成「一個需要review的草稿PR」來看，一個AI在11天內產出能編譯能跑測試的75萬行Rust——已經不在原來的量級里了。

社區里有人吐槽token消耗暴漲，Anthropic自己的文檔也老實承認這玩意兒會比普通Claude Code session貴得多。它不是給個人開發者每天用的，是給企業里那個「要把100萬行legacy code遷到新語言」的工程總監用的。

但Dynamic Workflows最有意思的不是企業場景。

Karpathy上周剛加入Anthropic當MTS。他過去幾年一直在講一個東西：一個研究員真正的杠桿，是他能調動多少compute、多少agent。從他在OpenAI做RLHF、到自己寫nanoGPT教程、到Eureka，一脈相承的判斷都是：未來超級個體的形態，是一個人指揮一群AI。

Dynamic Workflows就是把這個杠桿做成了產品。

一個人，一臺電腦，跑幾百個并行subagent，11天產出75萬行代碼。這不是「企業級工具」，這是Karpathy這種人想要的形態——給我一個人，但讓我能像一個200人團隊那樣工作。

我猜他加入Anthropic看到的可能就是這條路徑。

Terminal-Bench那個故意沒補的坑

我剛才說了Opus 4.8在agentic維度幾乎全贏，但有一個例外。這一項叫Terminal-Bench 2.1。這一項GPT-5.5是78.2%，Opus 4.8是74.6%，差3.6個百分點。

這事Anthropic自己在官方博客腳注里默認了。他們用的是Terminus-2公開harness，承認GPT-5.5在自家Codex CLI harness下能跑到83.4%。

為什么41天的補丁包沒去補這個坑？

一種解釋是Anthropic在選不同的山頭，把宣傳重點放在Super-Agent、Legal Agent Benchmark、Online-Mind2Web、SWE-Bench Pro這些自己擅長的方向。另一種解釋更冷酷——模型架構在純ops/CLI能力上確實有結構性短板，41天補丁補不出來。

我覺得真相在中間。無論是故意還是沒辦法，Anthropic用資源分配清楚地表態了：

GPT-5.5的優勢：純終端、ops、CLI工作流，給ChatGPT在Codex里跑命令用
Opus 4.8的優勢：理解既有代碼庫、多文件改動、長鏈路agent execution，給Cursor、Claude Code這種IDE-style的agent用

「我擅長的方向贏得徹底」比「每個benchmark都打」更聰明。

（順便提一句，Anthropic公布的SWE-Bench Pro 69.2%、OSWorld 83.4%這些數字，都是他們自家harness跑的。不能直接和公開榜對齊。）

我自己接下來怎么用

作為一個每天大概12小時掛在Claude Code上的人，對個人開發者來說Opus 4.8是穩贏的——同價格、寫代碼不那么瞎自信了、默認effort high、手動控制權也回來了。如果你用Cursor、Claude Code、Cline，今天就切到4.8。

Fast Mode不用糾結，訂閱檔夠用。它本來就不是給我們準備的。

我自己最想試的是Dynamic Workflows。

下次跑女媧.skill的時候，我打算不再自己想清楚開幾個subagent、誰審誰、互相怎么質疑。我打算直接說「create a workflow」，然后去吃個飯。

如果它想得比我好，那就是Anthropic在自家Agentic Coding Trends Report里說的那句話的真實樣子：

"engineer's job shifts from writing code to coordinating agents that write code."

工程師的工作，正在從寫代碼，變成協調寫代碼的agent。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.