Anthropic凌晨發了Opus 4.8。
如果只看那張benchmark對比圖,你會覺得這是一次平淡的小版本升級。SWE-Bench Pro從64.3漲到69.2,OSWorld從82.8漲到83.4,幾個百分點的事。我刷了一圈X和HN,最有共鳴的評論也就一句話:「看起來像是個挺小的更新?」
![]()
但我把官方博客、Dynamic Workflows專頁、Fast Mode文檔都翻了一遍,我覺得這次發布真正在做的事完全不是benchmark上那幾個百分點。
以前你跟Claude打交道的單位是「一句話」或者「一個任務」——你問它一句話它回你一段,或者你給它一個PRD它做完一個功能。Opus 4.8這次想悄悄把單位換成「一下午」——你說一聲,它自己拆出幾百個并行小agent,跑兩個小時,回來給你一個能合并的PR。
這才是真正值得講的事。
先說還4.7債的部分
Opus 4.7是2026年4月16日發布的。4.8是5月28日發的。中間41天。
Anthropic之前沒有過這個節奏。半年起步算是大模型行業的常規節奏。41天就趕一版同價升級,不是產品迭代。
4.7當時在Reddit上有一條頂帖「Opus 4.7 is not an upgrade but a serious regression」,2300多個贊。X上一條說「4.7沒比4.6進步」的帖子拿了1.4萬贊。這次4.8的HN討論區里也能看到不少老用戶說自己當時被4.7那個adaptive reasoning氣得直接退回4.6。TechCrunch這次的報道里直接把4.8的快速發布歸因為「chilly reception to Opus 4.7」。
所以你打開官方博客,能很清楚看到Anthropic在還4.7的債:
手動effort控制加回來了。4.7做了個"adaptive reasoning",自動判斷要不要深度思考,用戶罵翻。4.8直接默認effort拉到high,并且把檔位還給用戶
寫代碼不那么瞎自信了。以前Claude給你一段代碼,可能里面有問題,但它不會告訴你哪里有問題;現在它會自己標出來。官方把這個叫做「降4倍幻覺」,社區有人吐槽包裝成「honesty」提升是過度擬人化。兩邊都對,但開發者拿到的是實在的好處
價格不變。還是$5輸入/$25輸出
老用戶其實不需要營銷話術,給穩定的迭代和不漲價就夠了。
41天發版的另一層是節奏狙擊
聊到41天,我想多說一句。
Anthropic其實從Mythos之后就處在一個很微妙的位置。他們手上壓著一個比公開模型水平高一截的天花板,理論上可以在Opus 4.6到Mythos之間隨便切片發布。今天哪個版本能贏點市場就發哪個,命名怎么排都行。
4.8這個時機,剛好趕在GPT-5.6傳言發布前。
所以4.8不只是「還4.7的債」,它同時是一個有意切出來的中間態產品。Anthropic自己留了大量調參空間,每次需要狙擊競爭對手就放出來一版。這種打法你之前在芯片廠商那邊見過,但在大模型這邊是新的。以前發新模型動輒半年起步,因為「卡不夠、數據不夠、訓練時間不夠」。Mythos壓頂之后這個節奏才出得來。
這里面其實藏著一個不太被討論的細節:Opus 4.7和4.8的training data cutoff都是2026年1月,完全一樣。Opus 4.6還是May 2025。所以4.7到4.8這41天,base model大概率沒有重做大規模預訓練,迭代的是post-training(RLHF、safety訓練、tool-use微調這些)。這才是Anthropic能做「頻繁切片發版」的真正原因——base model復用,post-training快速迭代。對比國內DeepSeek V4發布時預訓練語料截止時間要早不少,國內廠商的快速迭代更多卡在「卡和數據」上。
晚cutoff這件事還有一個更隱蔽的二階價值。cutoff越晚,模型對「AI能做什么、自己作為AI coding agent能做什么」的自我認識越準。它見過最新版Claude Code的文檔,見過最新的MCP和skill規范,見過別人怎么用agentic方式編程。所以你跟它聊best practice、說「按你自己的方式想」,它能接得住。新手友好的核心機制其實是這個,跟模型本身聰不聰明關系反而沒那么大。
Fast Mode的"3倍便宜",是給重度用戶的留人成本
Fast Mode這事我必須展開講一下,因為大部分中文報道都講錯了。
官方原文是「fast mode for Opus 4.8—where the model can work at 2.5× the speed—is now three times cheaper than it was for previous models」。
「3倍便宜」是相對自家上一代的Fast Mode,不是相對標準模式。具體說就是:
項目
輸入價
輸出價
Opus 4.6/4.7 Fast Mode(舊)
$30/百萬token
$150/百萬token
Opus 4.8 Fast Mode(新) $10/百萬token $50/百萬token
Opus 4.8 標準模式(參照)
$5/百萬token
$25/百萬token
![]()
Fast Mode還是比標準模式貴2倍,但跟自己的上一代比,是1/3的價格。
但你看Fast Mode這價格表就知道,它不是給個人開發者準備的。
我自己用Claude Code是訂閱檔,Fast Mode用不起也用不上。Fast Mode真正的客戶是API接入的大企業——企業里整個工程師團隊幾十個人每天上千次API調用Claude Code,賬單是另一個量級。
最近微軟甚至要求員工停止使用Claude Code,因為公司報銷的API賬單肉疼。這種背景下Anthropic主動砍Fast Mode 3倍,目的非常清楚:留住大企業客戶,不讓他們因為成本壓力流失到GPT-5.5那邊去。
對個人開發者來說,訂閱檔依然是最劃算的方式。Fast Mode這次降價紅包,主要不是發給我們的。
Dynamic Workflows才是真新聞
跟著4.8一起發的Dynamic Workflows,是這次發布最值得講的部分。
它具體在做什么——你跟Claude Code說一句「create a workflow」,或者打開ultracode這個新設置,剩下的事它自己安排。Anthropic自己的描述是「Claude can plan the work and then run tens to hundreds of parallel subagents in a single session」。
具體長這樣:你說「把這100萬行Java遷到Kotlin」,然后你出去喝杯咖啡。回來的時候它已經自己拆出了幾百個小agent——一個負責改文件結構,一個負責改語法,一個負責跑測試,一個專門挑前三個的毛病。兩小時后你看到的不是一段代碼,是一個能合并的PR。
![]()
這事在我手上有對照。我自己平時用Claude Code跑女媧.skill(一個把人物蒸餾成思維skill的工具)的時候,已經在讓它spawn好幾個獨立subagent做盲測。一個agent扮演評委審風格,一個扮演讀者打分,互相質疑「這段是不是太AI腔了」「這個洞察立得住嗎」。但我能搭起來的subagent數量上限大概十幾個,因為再多我自己腦子里就管不過來了。Anthropic這次發的Dynamic Workflows是讓Claude自己寫orchestration腳本,subagent數量到幾百,自帶adversarial verification機制。簡單說:原來我手動管十幾個,現在Claude自己管幾百個。
最有說服力的案例是Bun的rewrite。Bun把Zig寫的運行時遷移到Rust,用Claude Code的Dynamic Workflows,11天產出大概75萬行Rust代碼。這事在HN上有正經的爭議。產生了13000多個unsafeblock,主流聲音是「這不算可以直接上production的代碼」。但即使你把它當成「一個需要review的草稿PR」來看,一個AI在11天內產出能編譯能跑測試的75萬行Rust——已經不在原來的量級里了。
社區里有人吐槽token消耗暴漲,Anthropic自己的文檔也老實承認這玩意兒會比普通Claude Code session貴得多。它不是給個人開發者每天用的,是給企業里那個「要把100萬行legacy code遷到新語言」的工程總監用的。
但Dynamic Workflows最有意思的不是企業場景。
Karpathy上周剛加入Anthropic當MTS。他過去幾年一直在講一個東西:一個研究員真正的杠桿,是他能調動多少compute、多少agent。從他在OpenAI做RLHF、到自己寫nanoGPT教程、到Eureka,一脈相承的判斷都是:未來超級個體的形態,是一個人指揮一群AI。
Dynamic Workflows就是把這個杠桿做成了產品。
一個人,一臺電腦,跑幾百個并行subagent,11天產出75萬行代碼。這不是「企業級工具」,這是Karpathy這種人想要的形態——給我一個人,但讓我能像一個200人團隊那樣工作。
我猜他加入Anthropic看到的可能就是這條路徑。
Terminal-Bench那個故意沒補的坑
我剛才說了Opus 4.8在agentic維度幾乎全贏,但有一個例外。這一項叫Terminal-Bench 2.1。這一項GPT-5.5是78.2%,Opus 4.8是74.6%,差3.6個百分點。
這事Anthropic自己在官方博客腳注里默認了。他們用的是Terminus-2公開harness,承認GPT-5.5在自家Codex CLI harness下能跑到83.4%。
為什么41天的補丁包沒去補這個坑?
一種解釋是Anthropic在選不同的山頭,把宣傳重點放在Super-Agent、Legal Agent Benchmark、Online-Mind2Web、SWE-Bench Pro這些自己擅長的方向。另一種解釋更冷酷——模型架構在純ops/CLI能力上確實有結構性短板,41天補丁補不出來。
我覺得真相在中間。無論是故意還是沒辦法,Anthropic用資源分配清楚地表態了:
GPT-5.5的優勢:純終端、ops、CLI工作流,給ChatGPT在Codex里跑命令用
Opus 4.8的優勢:理解既有代碼庫、多文件改動、長鏈路agent execution,給Cursor、Claude Code這種IDE-style的agent用
「我擅長的方向贏得徹底」比「每個benchmark都打」更聰明。
(順便提一句,Anthropic公布的SWE-Bench Pro 69.2%、OSWorld 83.4%這些數字,都是他們自家harness跑的。不能直接和公開榜對齊。)
我自己接下來怎么用
作為一個每天大概12小時掛在Claude Code上的人,對個人開發者來說Opus 4.8是穩贏的——同價格、寫代碼不那么瞎自信了、默認effort high、手動控制權也回來了。如果你用Cursor、Claude Code、Cline,今天就切到4.8。
Fast Mode不用糾結,訂閱檔夠用。它本來就不是給我們準備的。
我自己最想試的是Dynamic Workflows。
下次跑女媧.skill的時候,我打算不再自己想清楚開幾個subagent、誰審誰、互相怎么質疑。我打算直接說「create a workflow」,然后去吃個飯。
如果它想得比我好,那就是Anthropic在自家Agentic Coding Trends Report里說的那句話的真實樣子:
"engineer's job shifts from writing code to coordinating agents that write code."
工程師的工作,正在從寫代碼,變成協調寫代碼的agent。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.