![]()
作者 | Tina
5 月 28 日深夜,Anthropic 發(fā)布了其旗艦?zāi)P?Opus 的最新版本 Opus 4.8。
相比 Opus 4.7,這次升級(jí)的重點(diǎn)不只是模型跑分,而是圍繞 Claude Code 增加了兩個(gè)更直接面向開發(fā)者工作流的能力:dynamic workflows 和更便宜的 fast mode。
dynamic workflows 允許 Claude 編寫用于任務(wù)編排的腳本,調(diào)度數(shù)十到數(shù)百個(gè)并行 subagents 運(yùn)行。單次運(yùn)行中,subagents 的并發(fā)上限為 16 個(gè),總數(shù)上限為 1000 個(gè)。
fast mode 則主要面向?qū)λ俣群屯掏铝扛舾械膱?chǎng)景。它可以讓 Opus 以 2.5 倍的輸出速度運(yùn)行,同時(shí)保持相同質(zhì)量;在 Opus 4.8 上,fast mode 的價(jià)格已經(jīng)降至此前的三分之一,但使用前需要啟用 usage credits。
基準(zhǔn)測(cè)試顯示,Opus 4.8 不僅超過了前代模型,也領(lǐng)先于 GPT-5.5 和 Gemini 3.1 Pro。不過在 agentic terminal coding 這一項(xiàng)上,OpenAI 的模型仍然保持領(lǐng)先。發(fā)布當(dāng)天,Opus 4.8 的常規(guī)模式價(jià)格與 Opus 4.7 相同,仍為每百萬輸入 token 5 美元、每百萬輸出 token 25 美元。
Claude Opus 4.8 升級(jí)的三個(gè)重點(diǎn)
這次 Opus 4.8 的升級(jí),可以先抓住三個(gè)關(guān)鍵詞:dynamic workflows、思考強(qiáng)度控制,以及更便宜的 fast mode。前兩個(gè)直接影響 Claude Code 能處理多大規(guī)模的任務(wù)、以什么方式完成任務(wù);后一個(gè)則關(guān)系到延遲和成本。
先看 dynamic workflows。
dynamic workflows 本質(zhì)上是一段 JavaScript 腳本,用來大規(guī)模編排 subagents。用戶描述一個(gè)任務(wù)之后,Claude 會(huì)為這個(gè)任務(wù)編寫腳本,然后由一個(gè)運(yùn)行時(shí)在后臺(tái)執(zhí)行。與此同時(shí),用戶當(dāng)前的 session 仍然可以保持響應(yīng),不會(huì)因?yàn)?agents 在后臺(tái)工作而卡住。
它的核心變化在于,任務(wù)計(jì)劃被轉(zhuǎn)移到了代碼里,而不是繼續(xù)塞在 Claude 的上下文窗口中。中間結(jié)果也會(huì)保存在腳本變量里。因此,Claude 的上下文里只保留最終答案。這一點(diǎn),正是 dynamic workflows 與 subagents、skills 的關(guān)鍵區(qū)別。
這個(gè)功能要求使用 Claude Code v2.1.154 或更高版本。它可以在 CLI、Desktop 和 VS Code 插件中運(yùn)行,面向 Max、Team 和 Enterprise 計(jì)劃開放。在 Max 和 Team 計(jì)劃中,它默認(rèn)開啟;在 Enterprise 計(jì)劃中,則需要管理員啟用后才能使用。它也可以在 Claude API、Amazon Bedrock、Vertex AI 和 Microsoft Foundry 上運(yùn)行。
用戶可以通過兩種方式啟動(dòng)一個(gè) workflow。第一種是在 prompt 的任意位置包含 workflow 這個(gè)詞。第二種是開啟一個(gè)名為 ultracode 的設(shè)置。Ultracode 會(huì)把 xhigh 級(jí)別的推理強(qiáng)度與自動(dòng) workflow 編排結(jié)合起來。Claude Code 還內(nèi)置了 deep-research,它本身就是一個(gè)預(yù)置 workflow。
當(dāng)一個(gè) workflow 啟動(dòng)后,Claude 會(huì)根據(jù)用戶的 prompt 動(dòng)態(tài)規(guī)劃任務(wù)。它會(huì)把任務(wù)拆解成多個(gè)子任務(wù),然后把工作分發(fā)給并行運(yùn)行的 subagents。這些 agents 會(huì)從彼此獨(dú)立的角度處理問題,另一些 agents 則會(huì)嘗試反駁這些發(fā)現(xiàn)。整個(gè)運(yùn)行過程會(huì)不斷迭代,直到答案逐漸收斂。在結(jié)果被納入最終輸出之前,還會(huì)經(jīng)過檢查。
運(yùn)行時(shí)會(huì)施加明確的硬性限制。它最多允許 16 個(gè) agents 并發(fā)運(yùn)行,單次運(yùn)行的 agents 總數(shù)上限為 1000 個(gè)。workflow 腳本本身不能訪問文件系統(tǒng)或 shell,只有 agents 可以讀取、寫入文件并運(yùn)行命令。
隨著運(yùn)行推進(jìn),進(jìn)度會(huì)被保存下來。如果任務(wù)中途被打斷,它可以在同一個(gè) session 中恢復(fù)。已經(jīng)完成的 agents 會(huì)在恢復(fù)時(shí)返回緩存結(jié)果。由于協(xié)調(diào)過程發(fā)生在對(duì)話之外,任務(wù)計(jì)劃也就更容易保持穩(wěn)定,不會(huì)在會(huì)話上下文中被不斷稀釋或帶偏。
Anthropic 重點(diǎn)展示了一個(gè)大型案例。Jarred Sumner 使用 dynamic workflows 對(duì) Bun 進(jìn)行移植,把 Bun 從 Zig 遷移到 Rust。這個(gè)遷移版本通過了現(xiàn)有測(cè)試套件的 99.8%,生成了大約 75 萬行 Rust 代碼,從第一次 commit 到最終 merge 用了 11 天。
其中一個(gè) workflow 負(fù)責(zé)為每個(gè) struct 字段映射正確的 Rust lifetime;下一個(gè) workflow 則把每個(gè) .rs 文件寫成行為一致的移植版本。數(shù)百個(gè) agents 并行工作,并且每個(gè)文件都有兩個(gè) reviewer。隨后,一個(gè)修復(fù)循環(huán)持續(xù)驅(qū)動(dòng)構(gòu)建和測(cè)試套件,直到全部清理干凈。不過,這個(gè)結(jié)果雖然已經(jīng)合并,但目前還沒有進(jìn)入生產(chǎn)環(huán)境。
第二個(gè)重點(diǎn),是用戶現(xiàn)在可以控制 Claude 的思考強(qiáng)度。
新的控制項(xiàng)意味著,用戶可以調(diào)高或調(diào)低 Claude 在任務(wù)中投入的推理資源。Anthropic 在公告博客中解釋稱,當(dāng)用戶讓 Claude 全力處理任務(wù)時(shí),它會(huì)“更頻繁、更深入地思考,以給出更好的回答”。相反,在較低思考強(qiáng)度下,Claude 會(huì)更快給出回應(yīng),同時(shí)消耗用戶 rate limit 的速度也會(huì)更慢。
對(duì)那些已經(jīng)感到 AI 服務(wù)正在通過額度縮水變相漲價(jià)、又擔(dān)心額度比預(yù)期更快用完的用戶來說,這可能算是一個(gè)好消息。
第三個(gè)重點(diǎn),是 fast mode 降價(jià)。
Anthropic 大幅下調(diào)了 Opus 4.8 快速模式的價(jià)格。在快速模式下,模型生成 token 的速度約為正常速度的 2.5 倍;而 Opus 4.8 的快速模式價(jià)格降至每百萬輸入 token 10 美元、每百萬輸出 token 50 美元,低于 Opus 4.7 的 30 美元 / 150 美元。
![]()
這相當(dāng)于在此前模型的快速模式價(jià)格基礎(chǔ)上降低了 3 倍,也讓高吞吐推理更接近那些對(duì)延遲敏感的生產(chǎn)工作負(fù)載。
快速模式已經(jīng)可以在 Claude Code 中通過 /fast 命令使用;API 訪問目前仍有限制,需要在 claude.com/fast-mode 申請(qǐng) waitlist。
在常規(guī)模式下,Claude Opus 4.8 仍然屬于價(jià)格較高的前沿模型之一,但價(jià)格依然低于主要競(jìng)爭(zhēng)對(duì)手 OpenAI 的 GPT-5.5。
![]()
不過,速度、成本和代碼能力之外,Opus 4.8 這次還試圖回答另一個(gè)問題:AI 能不能更誠(chéng)實(shí)。
在今天的大模型競(jìng)爭(zhēng)中,越來越難回避的一點(diǎn)是,我們其實(shí)很難找到一個(gè)真正“誠(chéng)實(shí)”的 AI。古希臘哲學(xué)家第歐根尼有一個(gè)著名傳說:他曾在白天提著一盞點(diǎn)亮的燈,在雅典街頭四處尋找,并說自己在尋找一個(gè)誠(chéng)實(shí)的人。把這個(gè)故事放到今天,人們尋找的恐怕就不只是一個(gè)誠(chéng)實(shí)的人,而是一個(gè)誠(chéng)實(shí)的 AI。
一個(gè)模型可以更聰明、更快、更會(huì)寫代碼,但它能不能承認(rèn)自己不知道,能不能發(fā)現(xiàn)自己寫錯(cuò)了,能不能在用戶最需要判斷力的時(shí)候保持誠(chéng)實(shí),反而成了更稀缺的能力。這也是 Anthropic 這次想重點(diǎn)強(qiáng)調(diào)的方向。Opus 4.8 被 Anthropic 描述為更能支持用戶,也更少欺騙用戶。
Anthropic 的 Alignment 團(tuán)隊(duì)在公告博客中表示,這個(gè)模型“在我們衡量親社會(huì)特質(zhì)的指標(biāo)上達(dá)到了新高”。具體而言,Anthropic 稱,Opus 4.8 在支持用戶自主性、以及按照用戶最佳利益行事方面都有提升。
另一個(gè)看起來積極的變化是,Anthropic 表示,Opus 4.8 的欺騙率,以及配合濫用請(qǐng)求的比例,都比前代模型“顯著更低”。這似乎意味著,它已經(jīng)追上了 Claude Mythos Preview。Anthropic 此前曾稱 Claude Mythos Preview 是“我們訓(xùn)練過的對(duì)齊程度最高的模型”。
![]()
Anthropic 還表示,相比前代模型,Opus 4.8 “大約低四倍概率會(huì)對(duì)自己寫出的代碼中的缺陷視而不見、不加說明”。Anthropic 稱,早期測(cè)試者也印證了這一點(diǎn),并形容 Opus 4.8 在執(zhí)行 agentic 任務(wù)時(shí)“更可靠,在判斷上也更敏銳”。換句話說,Opus 4.8 試圖解決的不只是模型能不能完成任務(wù),而是它在完成任務(wù)時(shí),是否愿意指出風(fēng)險(xiǎn)、承認(rèn)問題,并在必要時(shí)反過來提醒用戶。
基準(zhǔn)測(cè)試:一個(gè)“重大戰(zhàn)略錯(cuò)誤”?
從基準(zhǔn)測(cè)試來看,Opus 4.8 相比其他模型表現(xiàn)如何?Anthropic 表示,Opus 4.8 在所有基準(zhǔn)測(cè)試中都比前代模型更進(jìn)一步。雖然發(fā)布當(dāng)天公布的基準(zhǔn)測(cè)試不一定總能對(duì)應(yīng)真實(shí)使用體驗(yàn),但這些數(shù)字確實(shí)顯示出一定潛力。
![]()
其中最值得注意的是,Opus 4.8 在 agentic coding 上達(dá)到 69.2%,明顯高于 Opus 4.7 的 64.3%,也超過 GPT-5.5 的 58.65% 和 Gemini 3.1 Pro 的 54.2%。它在 agentic compute use 上的得分為 83.4%,相比 GPT-5.5 的 78.7% 和 Gemini 3.1 Pro 的 76.2%,同樣不容忽視。但在 agentic terminal coding 上,Opus 4.8 仍然輸給了 GPT-5.5,比 OpenAI 的模型低了 3.6 個(gè)百分點(diǎn)。
不過,正是這組對(duì)比,也引發(fā)了外界對(duì)基準(zhǔn)測(cè)試可信度的討論。
尤其是在開發(fā)者社區(qū)里,GPT-5.5 的編碼體感正在獲得很強(qiáng)的正面反饋。DHH 今天就在 X 上表示,自 Opus 4.5 以來,沒有哪個(gè)模型像 GPT-5.5 這樣讓他反復(fù)出現(xiàn)“難以相信它已經(jīng)這么好”的時(shí)刻。
![]()
也正是在這種背景下,Redis 作者 antirez 對(duì) Anthropic 的基準(zhǔn)測(cè)試呈現(xiàn)方式提出了批評(píng)。他認(rèn)為,Anthropic 這次犯了一個(gè)“重大戰(zhàn)略錯(cuò)誤”:過去廠商通常更強(qiáng)調(diào)新模型相對(duì)舊模型的提升,但這一次,在很多人已經(jīng)感受到 GPT-5.5 編碼能力很強(qiáng)的情況下,Anthropic 把 GPT-5.5 放進(jìn)同一組對(duì)比里,反而讓客戶看到,基準(zhǔn)測(cè)試和真實(shí)使用體感之間可能并不一致。
![]()
有人在評(píng)論區(qū)反問,這難道不是一種透明嗎?antirez 的回應(yīng)是,問題不在于是否透明,而在于如果 Anthropic 明知道 GPT-5.5 在編碼上比 Opus 4.7 強(qiáng)得多,即使后者在某些基準(zhǔn)測(cè)試中得分更高,卻仍然把這些數(shù)字呈現(xiàn)為“模型更強(qiáng)”的證明,就會(huì)讓用戶感到困惑。
![]()
另一位用戶指出,主流模型發(fā)布時(shí)本來就常常會(huì)把 Big Three 的最新旗艦?zāi)P头胚M(jìn)對(duì)比圖里,Anthropic 并不是例外。antirez 則表示,這并不改變核心問題:用戶看到的是廠商說法與實(shí)際體驗(yàn)之間的錯(cuò)位。
![]()
網(wǎng)友 Chubby 就評(píng)價(jià)稱,Opus 4.8 顯然是一個(gè)很強(qiáng)的模型,但他的印象是,Anthropic 正越來越像是在追趕 OpenAI,而不是繼續(xù)定義節(jié)奏。
在他看來,GPT-5.5 似乎再次抬高了基準(zhǔn);如果 OpenAI 保持這樣的推進(jìn)速度,GPT-5.6 很可能成為整體更強(qiáng)的模型。
![]()
Opus 這一年:從“封王”到變相漲價(jià)爭(zhēng)議
2025 年 5 月,Anthropic 在首屆開發(fā)者大會(huì) Code with Claude 上發(fā)布 Opus 4,并稱其為“世界上最好的編碼模型”。當(dāng)時(shí),這家公司承諾要在編碼、高級(jí)推理和 AI agents 方面樹立新標(biāo)準(zhǔn)。這個(gè)模型在編碼和長(zhǎng)上下文推理方面帶來了顯著進(jìn)展,尤其突出的是,它能夠處理長(zhǎng)時(shí)間運(yùn)行的任務(wù),并在 Anthropic 當(dāng)時(shí)所說的“數(shù)千個(gè)步驟”中保持上下文。
很快,2025 年 8 月,Opus 4.1 發(fā)布,在 agentic 任務(wù)、編碼和推理能力上帶來了一些提升。但這只是一次小更新。當(dāng)時(shí),Anthropic 還預(yù)告稱,“未來幾周,我們會(huì)對(duì)模型帶來大得多的改進(jìn)”。
2025 年 11 月,Opus 4.5 高調(diào)發(fā)布。Anthropic 再一次稱它是“世界上最適合編碼、agents 和 computer use 的模型”。同樣,他們也再次吊起外界胃口,稱 Opus 4.5 只是“工作完成方式發(fā)生更大變化的一個(gè)預(yù)覽”。就這個(gè)預(yù)覽本身而言,Opus 4.5 的確帶來了一些能力改進(jìn),讓模型能夠更好地處理模糊性,并解決涉及多個(gè)系統(tǒng)的 bug。從很多方面看,在 OpenAI 的 GPT-5.1-Codex-Max 和 Google 的 Gemini 3 獲得市場(chǎng)青睞之后,Opus 4.5 幫 Anthropic 重新奪回了編碼王冠。
此后又過了三個(gè)月,Anthropic 帶來了 Opus 4.6。Opus 4.6 “讓大型語言模型用于企業(yè)工作流發(fā)生了階躍式變化,因?yàn)樗軌蛱幚砀鼜?fù)雜的任務(wù),并更好地交付結(jié)果”。Opus 4.6 在規(guī)劃、編碼和調(diào)試能力上繼續(xù)提升,成為 Anthropic 首個(gè)使用 adaptive thinking 的模型,并取得了亮眼的基準(zhǔn)測(cè)試成績(jī)。其中尤其值得注意的是,它擁有 100 萬 token 的上下文窗口。
不過,Opus 4.6 的爭(zhēng)議也很快出現(xiàn)。發(fā)布之后,Anthropic 很快因?yàn)橐淮味▋r(jià)調(diào)整遭到批評(píng):雖然模型在技術(shù)上支持接近 100 萬 token 的 prompt,但只要請(qǐng)求超過約 20 萬 token,整個(gè)請(qǐng)求都會(huì)被劃入更高的“長(zhǎng)上下文”價(jià)格層級(jí)。
Opus 4.7 也遇到了一些麻煩。它在 2026 年 4 月發(fā)布,是 Opus 4.6 的直接升級(jí)版本,帶來了更好的視覺能力、更好的記憶能力和更好的指令遵循能力。但發(fā)布之后,有用戶反饋稱,Claude Opus 4.7 會(huì)出現(xiàn)自相矛盾的回答,性能也有所下降,這引發(fā)了外界對(duì)模型質(zhì)量、安全權(quán)衡以及 AI 服務(wù)變相漲價(jià)的討論。更尷尬的是,Anthropic 自己也稱 Opus 4.7 “整體能力不如”當(dāng)時(shí)備受討論的 Claude Mythos Preview。從外界報(bào)道看,Opus 4.7 在某種程度上像是在為 Mythos 的新網(wǎng)絡(luò)安全防護(hù)機(jī)制試水。
現(xiàn)在,Opus 4.8 已經(jīng)正式發(fā)布。對(duì)近期屢屢引發(fā)用戶不滿的 Anthropic 來說,這確實(shí)是一個(gè)重要節(jié)點(diǎn)。一方面,它需要證明 Opus 系列仍然能在編碼和 agentic 任務(wù)上繼續(xù)向前推進(jìn);另一方面,它也需要回應(yīng)用戶對(duì)額度、價(jià)格、模型穩(wěn)定性和產(chǎn)品體驗(yàn)的持續(xù)不滿。
本月早些時(shí)候,Anthropic 推出的 Claude Code agent view 并沒有讓開發(fā)者買賬。有人評(píng)價(jià)說,它只是“減少了一些摩擦,但沒有改變底層問題”。同一周,Anthropic 還宣布,從 6 月 15 日開始,將對(duì) Agent SDK 使用量進(jìn)行拆分計(jì)費(fèi)。對(duì)于那些已經(jīng)習(xí)慣把程序化使用和交互式使用都計(jì)入同一個(gè)訂閱額度的用戶來說,這顯然不是一個(gè)受歡迎的變化。
當(dāng)然,Opus 4.8 可能還不是 Anthropic 接下來唯一的一張牌。此前同一則泄露消息中還提到過 Sonnet 4.8 和 Mythos 1,如果這兩個(gè)名字也陸續(xù)落地,Anthropic 才算真正進(jìn)入下一輪產(chǎn)品更新周期。
https://www.anthropic.com/news/claude-opus-4-8
https://www.marktechpost.com/2026/05/28/anthropic-ships-claude-opus-4-8-alongside-dynamic-workflows-and-cheaper-fast-mode-with-workflows-capped-at-1000-subagents/
聲明:本文為 InfoQ 整理,不代表平臺(tái)觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。
會(huì)議推薦
企業(yè)級(jí) Agent 落地,繞不開 4 個(gè)真實(shí)的工程問題。如何在 Agent 安全性和可用性之間找到平衡點(diǎn)?Agent 需要什么樣的記憶系統(tǒng)才能真正理解上下文?如何通過算法壓榨實(shí)現(xiàn)智力增量與成本控制的極致平衡?多 Agent 協(xié)作,如何做到可觀測(cè)、可治理、可控制?6 月 26-27 日,AICon 全球人工智能開發(fā)與應(yīng)用大會(huì)·上海站國(guó)內(nèi)頭部公司的 Agent 實(shí)踐,一次說透。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.