无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Opus 4.8發布:41天補丁包里,Anthropic藏了一次戰略轉向

0
分享至

Anthropic凌晨發了Opus 4.8。

如果只看那張benchmark對比圖,你會覺得這是一次平淡的小版本升級。SWE-Bench Pro從64.3漲到69.2,OSWorld從82.8漲到83.4,幾個百分點的事。我刷了一圈X和HN,最有共鳴的評論也就一句話:「看起來像是個挺小的更新?」


但我把官方博客、Dynamic Workflows專頁、Fast Mode文檔都翻了一遍,我覺得這次發布真正在做的事完全不是benchmark上那幾個百分點

以前你跟Claude打交道的單位是「一句話」或者「一個任務」——你問它一句話它回你一段,或者你給它一個PRD它做完一個功能。Opus 4.8這次想悄悄把單位換成「一下午」——你說一聲,它自己拆出幾百個并行小agent,跑兩個小時,回來給你一個能合并的PR。

這才是真正值得講的事。

先說還4.7債的部分

Opus 4.7是2026年4月16日發布的。4.8是5月28日發的。中間41天。

Anthropic之前沒有過這個節奏。半年起步算是大模型行業的常規節奏。41天就趕一版同價升級,不是產品迭代

4.7當時在Reddit上有一條頂帖「Opus 4.7 is not an upgrade but a serious regression」,2300多個贊。X上一條說「4.7沒比4.6進步」的帖子拿了1.4萬贊。這次4.8的HN討論區里也能看到不少老用戶說自己當時被4.7那個adaptive reasoning氣得直接退回4.6。TechCrunch這次的報道里直接把4.8的快速發布歸因為「chilly reception to Opus 4.7」。

所以你打開官方博客,能很清楚看到Anthropic在還4.7的債:

  • 手動effort控制加回來了。4.7做了個"adaptive reasoning",自動判斷要不要深度思考,用戶罵翻。4.8直接默認effort拉到high,并且把檔位還給用戶

  • 寫代碼不那么瞎自信了。以前Claude給你一段代碼,可能里面有問題,但它不會告訴你哪里有問題;現在它會自己標出來。官方把這個叫做「降4倍幻覺」,社區有人吐槽包裝成「honesty」提升是過度擬人化。兩邊都對,但開發者拿到的是實在的好處

  • 價格不變。還是$5輸入/$25輸出

老用戶其實不需要營銷話術,給穩定的迭代和不漲價就夠了。

41天發版的另一層是節奏狙擊

聊到41天,我想多說一句。

Anthropic其實從Mythos之后就處在一個很微妙的位置。他們手上壓著一個比公開模型水平高一截的天花板,理論上可以在Opus 4.6到Mythos之間隨便切片發布。今天哪個版本能贏點市場就發哪個,命名怎么排都行。

4.8這個時機,剛好趕在GPT-5.6傳言發布前。

所以4.8不只是「還4.7的債」,它同時是一個有意切出來的中間態產品。Anthropic自己留了大量調參空間,每次需要狙擊競爭對手就放出來一版。這種打法你之前在芯片廠商那邊見過,但在大模型這邊是新的。以前發新模型動輒半年起步,因為「卡不夠、數據不夠、訓練時間不夠」。Mythos壓頂之后這個節奏才出得來。

這里面其實藏著一個不太被討論的細節:Opus 4.7和4.8的training data cutoff都是2026年1月,完全一樣。Opus 4.6還是May 2025。所以4.7到4.8這41天,base model大概率沒有重做大規模預訓練,迭代的是post-training(RLHF、safety訓練、tool-use微調這些)。這才是Anthropic能做「頻繁切片發版」的真正原因——base model復用,post-training快速迭代。對比國內DeepSeek V4發布時預訓練語料截止時間要早不少,國內廠商的快速迭代更多卡在「卡和數據」上。

晚cutoff這件事還有一個更隱蔽的二階價值。cutoff越晚,模型對「AI能做什么、自己作為AI coding agent能做什么」的自我認識越準。它見過最新版Claude Code的文檔,見過最新的MCP和skill規范,見過別人怎么用agentic方式編程。所以你跟它聊best practice、說「按你自己的方式想」,它能接得住。新手友好的核心機制其實是這個,跟模型本身聰不聰明關系反而沒那么大。

Fast Mode的"3倍便宜",是給重度用戶的留人成本

Fast Mode這事我必須展開講一下,因為大部分中文報道都講錯了。

官方原文是「fast mode for Opus 4.8—where the model can work at 2.5× the speed—is now three times cheaper than it was for previous models」。

「3倍便宜」是相對自家上一代的Fast Mode,不是相對標準模式。具體說就是:

項目

輸入價

輸出價

Opus 4.6/4.7 Fast Mode(舊)

$30/百萬token

$150/百萬token

Opus 4.8 Fast Mode(新) $10/百萬token $50/百萬token

Opus 4.8 標準模式(參照)

$5/百萬token

$25/百萬token


Fast Mode還是比標準模式貴2倍,但跟自己的上一代比,是1/3的價格。

但你看Fast Mode這價格表就知道,它不是給個人開發者準備的。

我自己用Claude Code是訂閱檔,Fast Mode用不起也用不上。Fast Mode真正的客戶是API接入的大企業——企業里整個工程師團隊幾十個人每天上千次API調用Claude Code,賬單是另一個量級。

最近微軟甚至要求員工停止使用Claude Code,因為公司報銷的API賬單肉疼。這種背景下Anthropic主動砍Fast Mode 3倍,目的非常清楚:留住大企業客戶,不讓他們因為成本壓力流失到GPT-5.5那邊去。

對個人開發者來說,訂閱檔依然是最劃算的方式。Fast Mode這次降價紅包,主要不是發給我們的。

Dynamic Workflows才是真新聞

跟著4.8一起發的Dynamic Workflows,是這次發布最值得講的部分。

它具體在做什么——你跟Claude Code說一句「create a workflow」,或者打開ultracode這個新設置,剩下的事它自己安排。Anthropic自己的描述是「Claude can plan the work and then run tens to hundreds of parallel subagents in a single session」。

具體長這樣:你說「把這100萬行Java遷到Kotlin」,然后你出去喝杯咖啡。回來的時候它已經自己拆出了幾百個小agent——一個負責改文件結構,一個負責改語法,一個負責跑測試,一個專門挑前三個的毛病。兩小時后你看到的不是一段代碼,是一個能合并的PR。


這事在我手上有對照。我自己平時用Claude Code跑女媧.skill(一個把人物蒸餾成思維skill的工具)的時候,已經在讓它spawn好幾個獨立subagent做盲測。一個agent扮演評委審風格,一個扮演讀者打分,互相質疑「這段是不是太AI腔了」「這個洞察立得住嗎」。但我能搭起來的subagent數量上限大概十幾個,因為再多我自己腦子里就管不過來了。Anthropic這次發的Dynamic Workflows是讓Claude自己寫orchestration腳本,subagent數量到幾百,自帶adversarial verification機制。簡單說:原來我手動管十幾個,現在Claude自己管幾百個。

最有說服力的案例是Bun的rewrite。Bun把Zig寫的運行時遷移到Rust,用Claude Code的Dynamic Workflows,11天產出大概75萬行Rust代碼。這事在HN上有正經的爭議。產生了13000多個unsafeblock,主流聲音是「這不算可以直接上production的代碼」。但即使你把它當成「一個需要review的草稿PR」來看,一個AI在11天內產出能編譯能跑測試的75萬行Rust——已經不在原來的量級里了

社區里有人吐槽token消耗暴漲,Anthropic自己的文檔也老實承認這玩意兒會比普通Claude Code session貴得多。它不是給個人開發者每天用的,是給企業里那個「要把100萬行legacy code遷到新語言」的工程總監用的。

Dynamic Workflows最有意思的不是企業場景

Karpathy上周剛加入Anthropic當MTS。他過去幾年一直在講一個東西:一個研究員真正的杠桿,是他能調動多少compute、多少agent。從他在OpenAI做RLHF、到自己寫nanoGPT教程、到Eureka,一脈相承的判斷都是:未來超級個體的形態,是一個人指揮一群AI

Dynamic Workflows就是把這個杠桿做成了產品。

一個人,一臺電腦,跑幾百個并行subagent,11天產出75萬行代碼。這不是「企業級工具」,這是Karpathy這種人想要的形態——給我一個人,但讓我能像一個200人團隊那樣工作。

我猜他加入Anthropic看到的可能就是這條路徑。

Terminal-Bench那個故意沒補的坑

我剛才說了Opus 4.8在agentic維度幾乎全贏,但有一個例外。這一項叫Terminal-Bench 2.1。這一項GPT-5.5是78.2%,Opus 4.8是74.6%,差3.6個百分點。

這事Anthropic自己在官方博客腳注里默認了。他們用的是Terminus-2公開harness,承認GPT-5.5在自家Codex CLI harness下能跑到83.4%。

為什么41天的補丁包沒去補這個坑?

一種解釋是Anthropic在選不同的山頭,把宣傳重點放在Super-Agent、Legal Agent Benchmark、Online-Mind2Web、SWE-Bench Pro這些自己擅長的方向。另一種解釋更冷酷——模型架構在純ops/CLI能力上確實有結構性短板,41天補丁補不出來。

我覺得真相在中間。無論是故意還是沒辦法,Anthropic用資源分配清楚地表態了

  • GPT-5.5的優勢:純終端、ops、CLI工作流,給ChatGPT在Codex里跑命令用

  • Opus 4.8的優勢:理解既有代碼庫、多文件改動、長鏈路agent execution,給Cursor、Claude Code這種IDE-style的agent用

「我擅長的方向贏得徹底」比「每個benchmark都打」更聰明。

(順便提一句,Anthropic公布的SWE-Bench Pro 69.2%、OSWorld 83.4%這些數字,都是他們自家harness跑的。不能直接和公開榜對齊。)

我自己接下來怎么用

作為一個每天大概12小時掛在Claude Code上的人,對個人開發者來說Opus 4.8是穩贏的——同價格、寫代碼不那么瞎自信了、默認effort high、手動控制權也回來了。如果你用Cursor、Claude Code、Cline,今天就切到4.8。

Fast Mode不用糾結,訂閱檔夠用。它本來就不是給我們準備的。

我自己最想試的是Dynamic Workflows。

下次跑女媧.skill的時候,我打算不再自己想清楚開幾個subagent、誰審誰、互相怎么質疑。我打算直接說「create a workflow」,然后去吃個飯。

如果它想得比我好,那就是Anthropic在自家Agentic Coding Trends Report里說的那句話的真實樣子:

"engineer's job shifts from writing code to coordinating agents that write code."

工程師的工作,正在從寫代碼,變成協調寫代碼的agent。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
《廊橋遺夢》:奉勸天下夫妻,能過則好好過,你漸漸就會發現,無論跟誰結婚,本質都是學會跟自己相處

《廊橋遺夢》:奉勸天下夫妻,能過則好好過,你漸漸就會發現,無論跟誰結婚,本質都是學會跟自己相處

心理觀察局
2026-06-14 06:46:18
吉馬良斯:巴西全隊世界杯首戰都很緊張;安胖給我們傳遞信心

吉馬良斯:巴西全隊世界杯首戰都很緊張;安胖給我們傳遞信心

懂球帝
2026-06-14 11:14:31
事實證明馬杜羅政權垮臺之后,委內瑞拉人確實更有盼頭了

事實證明馬杜羅政權垮臺之后,委內瑞拉人確實更有盼頭了

玲兒愛唱歌
2026-06-04 07:05:24
有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
從失敗到完美:日本H3火箭8飛6載荷精準入軌,一掃去年墜毀陰霾

從失敗到完美:日本H3火箭8飛6載荷精準入軌,一掃去年墜毀陰霾

冷知識挖掘機21
2026-06-13 04:13:21
梅婷的700平菜園:讓孫儷海清都沉默了,與公婆同住,被寵成公主

梅婷的700平菜園:讓孫儷海清都沉默了,與公婆同住,被寵成公主

魔都姐姐雜談
2026-06-13 15:28:27
衣服全是假貨?繼“南極人”之后,這4家品牌也靠賣吊牌賺錢了

衣服全是假貨?繼“南極人”之后,這4家品牌也靠賣吊牌賺錢了

青梅侃史啊
2026-06-12 19:17:06
美媒算出一筆明白賬:中國越早統一,全球反而越安心

美媒算出一筆明白賬:中國越早統一,全球反而越安心

空谷幽幽藍
2026-06-13 19:59:26
巴菲特點破A股:散戶仍不肯割肉,主力會用這幾種方法來對付散戶

巴菲特點破A股:散戶仍不肯割肉,主力會用這幾種方法來對付散戶

一方聊市
2026-06-08 19:35:03
調整!6月14日晚間央視直播乒乓收官日有變,4場決賽,林詩棟爭冠

調整!6月14日晚間央視直播乒乓收官日有變,4場決賽,林詩棟爭冠

煙潯渺渺
2026-06-14 14:29:13
618首周比比看,華為奪冠,蘋果第二,vivo第三

618首周比比看,華為奪冠,蘋果第二,vivo第三

科技鋒說
2026-06-14 17:23:44
突發! 澳洲移民局凌晨上門, 華人當場被捕! 遣返回國, 再也回不來

突發! 澳洲移民局凌晨上門, 華人當場被捕! 遣返回國, 再也回不來

澳微Daily
2026-06-14 16:00:18
德布勞內:現在更懂得享受世界杯,年輕時腦子里基本只有踢球

德布勞內:現在更懂得享受世界杯,年輕時腦子里基本只有踢球

懂球帝
2026-06-14 06:48:08
電車會不會替代油車還不知道,但不得不承認,油混車“快完蛋了”

電車會不會替代油車還不知道,但不得不承認,油混車“快完蛋了”

原來仙女不講理
2026-05-20 22:10:29
所有發達國家都有一個共性:人工很貴,勞動很值錢。

所有發達國家都有一個共性:人工很貴,勞動很值錢。

流蘇晚晴
2026-01-27 18:18:22
餓死人就開戰?菲律賓司令放狠話:中國若不撤出仁愛礁,必有一戰

餓死人就開戰?菲律賓司令放狠話:中國若不撤出仁愛礁,必有一戰

泛舟碧波湖水
2026-06-12 19:58:14
老了才發現,很多子女瞧不起自己的父親!原來是這3方面出了問題

老了才發現,很多子女瞧不起自己的父親!原來是這3方面出了問題

風起見你
2026-06-09 00:18:19
恥辱丟冠!馬刺16分再被逆轉,看數據:你就是頭號罪人!

恥辱丟冠!馬刺16分再被逆轉,看數據:你就是頭號罪人!

運籌帷幄的籃球
2026-06-14 09:48:59
AI臉引發全民生理性厭惡,AI美顏正在慢慢毀掉我們的審美

AI臉引發全民生理性厭惡,AI美顏正在慢慢毀掉我們的審美

西樓知趣雜談
2026-06-04 12:14:18
莫斯科限制燃油銷售!烏克蘭同時攻擊俄羅斯圖拉等三大能源目標

莫斯科限制燃油銷售!烏克蘭同時攻擊俄羅斯圖拉等三大能源目標

項鵬飛
2026-06-14 16:36:05
2026-06-14 18:56:50
AI進化論花生 incentive-icons
AI進化論花生
AI博主,AppStore付費榜第一的小貓補光燈app開發者
233文章數 121關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發生沖突

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發生沖突

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

房產
教育
游戲
本地
親子

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

教育要聞

2026高考作文:萬古融雪,終貫滄海

《殺戮尖塔》UP主承認作弊!并承諾退回禮物重打挑戰

本地新聞

AK劉彰邂逅河北南大港濕地

親子要聞

女兒想吃榴蓮說媽媽沒給她買,媳婦卻不是這么說的,看看誰撒謊了

無障礙瀏覽 進入關懷版