網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Opus 4.8 剛發(fā)布，被DHH和Redis之父當(dāng)場(chǎng)拆臺(tái)：跑分贏了GPT-5.5，但編碼王座不穩(wěn)了

2026-05-29 09:16:54　來源: InfoQ

北京舉報(bào)

分享至

作者 | Tina

5 月 28 日深夜，Anthropic 發(fā)布了其旗艦?zāi)Ｐ?Opus 的最新版本 Opus 4.8。

相比 Opus 4.7，這次升級(jí)的重點(diǎn)不只是模型跑分，而是圍繞 Claude Code 增加了兩個(gè)更直接面向開發(fā)者工作流的能力：dynamic workflows 和更便宜的 fast mode。

dynamic workflows 允許 Claude 編寫用于任務(wù)編排的腳本，調(diào)度數(shù)十到數(shù)百個(gè)并行 subagents 運(yùn)行。單次運(yùn)行中，subagents 的并發(fā)上限為 16 個(gè)，總數(shù)上限為 1000 個(gè)。

fast mode 則主要面向?qū)λ俣群屯掏铝扛舾械膱?chǎng)景。它可以讓 Opus 以 2.5 倍的輸出速度運(yùn)行，同時(shí)保持相同質(zhì)量；在 Opus 4.8 上，fast mode 的價(jià)格已經(jīng)降至此前的三分之一，但使用前需要啟用 usage credits。

基準(zhǔn)測(cè)試顯示，Opus 4.8 不僅超過了前代模型，也領(lǐng)先于 GPT-5.5 和 Gemini 3.1 Pro。不過在 agentic terminal coding 這一項(xiàng)上，OpenAI 的模型仍然保持領(lǐng)先。發(fā)布當(dāng)天，Opus 4.8 的常規(guī)模式價(jià)格與 Opus 4.7 相同，仍為每百萬輸入 token 5 美元、每百萬輸出 token 25 美元。

Claude Opus 4.8 升級(jí)的三個(gè)重點(diǎn)

這次 Opus 4.8 的升級(jí)，可以先抓住三個(gè)關(guān)鍵詞：dynamic workflows、思考強(qiáng)度控制，以及更便宜的 fast mode。前兩個(gè)直接影響 Claude Code 能處理多大規(guī)模的任務(wù)、以什么方式完成任務(wù)；后一個(gè)則關(guān)系到延遲和成本。

先看 dynamic workflows。

dynamic workflows 本質(zhì)上是一段 JavaScript 腳本，用來大規(guī)模編排 subagents。用戶描述一個(gè)任務(wù)之后，Claude 會(huì)為這個(gè)任務(wù)編寫腳本，然后由一個(gè)運(yùn)行時(shí)在后臺(tái)執(zhí)行。與此同時(shí)，用戶當(dāng)前的 session 仍然可以保持響應(yīng)，不會(huì)因?yàn)?agents 在后臺(tái)工作而卡住。

它的核心變化在于，任務(wù)計(jì)劃被轉(zhuǎn)移到了代碼里，而不是繼續(xù)塞在 Claude 的上下文窗口中。中間結(jié)果也會(huì)保存在腳本變量里。因此，Claude 的上下文里只保留最終答案。這一點(diǎn)，正是 dynamic workflows 與 subagents、skills 的關(guān)鍵區(qū)別。

這個(gè)功能要求使用 Claude Code v2.1.154 或更高版本。它可以在 CLI、Desktop 和 VS Code 插件中運(yùn)行，面向 Max、Team 和 Enterprise 計(jì)劃開放。在 Max 和 Team 計(jì)劃中，它默認(rèn)開啟；在 Enterprise 計(jì)劃中，則需要管理員啟用后才能使用。它也可以在 Claude API、Amazon Bedrock、Vertex AI 和 Microsoft Foundry 上運(yùn)行。

用戶可以通過兩種方式啟動(dòng)一個(gè) workflow。第一種是在 prompt 的任意位置包含 workflow 這個(gè)詞。第二種是開啟一個(gè)名為 ultracode 的設(shè)置。Ultracode 會(huì)把 xhigh 級(jí)別的推理強(qiáng)度與自動(dòng) workflow 編排結(jié)合起來。Claude Code 還內(nèi)置了 deep-research，它本身就是一個(gè)預(yù)置 workflow。

當(dāng)一個(gè) workflow 啟動(dòng)后，Claude 會(huì)根據(jù)用戶的 prompt 動(dòng)態(tài)規(guī)劃任務(wù)。它會(huì)把任務(wù)拆解成多個(gè)子任務(wù)，然后把工作分發(fā)給并行運(yùn)行的 subagents。這些 agents 會(huì)從彼此獨(dú)立的角度處理問題，另一些 agents 則會(huì)嘗試反駁這些發(fā)現(xiàn)。整個(gè)運(yùn)行過程會(huì)不斷迭代，直到答案逐漸收斂。在結(jié)果被納入最終輸出之前，還會(huì)經(jīng)過檢查。

運(yùn)行時(shí)會(huì)施加明確的硬性限制。它最多允許 16 個(gè) agents 并發(fā)運(yùn)行，單次運(yùn)行的 agents 總數(shù)上限為 1000 個(gè)。workflow 腳本本身不能訪問文件系統(tǒng)或 shell，只有 agents 可以讀取、寫入文件并運(yùn)行命令。

隨著運(yùn)行推進(jìn)，進(jìn)度會(huì)被保存下來。如果任務(wù)中途被打斷，它可以在同一個(gè) session 中恢復(fù)。已經(jīng)完成的 agents 會(huì)在恢復(fù)時(shí)返回緩存結(jié)果。由于協(xié)調(diào)過程發(fā)生在對(duì)話之外，任務(wù)計(jì)劃也就更容易保持穩(wěn)定，不會(huì)在會(huì)話上下文中被不斷稀釋或帶偏。

Anthropic 重點(diǎn)展示了一個(gè)大型案例。Jarred Sumner 使用 dynamic workflows 對(duì) Bun 進(jìn)行移植，把 Bun 從 Zig 遷移到 Rust。這個(gè)遷移版本通過了現(xiàn)有測(cè)試套件的 99.8%，生成了大約 75 萬行 Rust 代碼，從第一次 commit 到最終 merge 用了 11 天。

其中一個(gè) workflow 負(fù)責(zé)為每個(gè) struct 字段映射正確的 Rust lifetime；下一個(gè) workflow 則把每個(gè) .rs 文件寫成行為一致的移植版本。數(shù)百個(gè) agents 并行工作，并且每個(gè)文件都有兩個(gè) reviewer。隨后，一個(gè)修復(fù)循環(huán)持續(xù)驅(qū)動(dòng)構(gòu)建和測(cè)試套件，直到全部清理干凈。不過，這個(gè)結(jié)果雖然已經(jīng)合并，但目前還沒有進(jìn)入生產(chǎn)環(huán)境。

第二個(gè)重點(diǎn)，是用戶現(xiàn)在可以控制 Claude 的思考強(qiáng)度。

新的控制項(xiàng)意味著，用戶可以調(diào)高或調(diào)低 Claude 在任務(wù)中投入的推理資源。Anthropic 在公告博客中解釋稱，當(dāng)用戶讓 Claude 全力處理任務(wù)時(shí)，它會(huì)“更頻繁、更深入地思考，以給出更好的回答”。相反，在較低思考強(qiáng)度下，Claude 會(huì)更快給出回應(yīng)，同時(shí)消耗用戶 rate limit 的速度也會(huì)更慢。

對(duì)那些已經(jīng)感到 AI 服務(wù)正在通過額度縮水變相漲價(jià)、又擔(dān)心額度比預(yù)期更快用完的用戶來說，這可能算是一個(gè)好消息。

第三個(gè)重點(diǎn)，是 fast mode 降價(jià)。

Anthropic 大幅下調(diào)了 Opus 4.8 快速模式的價(jià)格。在快速模式下，模型生成 token 的速度約為正常速度的 2.5 倍；而 Opus 4.8 的快速模式價(jià)格降至每百萬輸入 token 10 美元、每百萬輸出 token 50 美元，低于 Opus 4.7 的 30 美元 / 150 美元。

這相當(dāng)于在此前模型的快速模式價(jià)格基礎(chǔ)上降低了 3 倍，也讓高吞吐推理更接近那些對(duì)延遲敏感的生產(chǎn)工作負(fù)載。

快速模式已經(jīng)可以在 Claude Code 中通過 /fast 命令使用；API 訪問目前仍有限制，需要在 claude.com/fast-mode 申請(qǐng) waitlist。

在常規(guī)模式下，Claude Opus 4.8 仍然屬于價(jià)格較高的前沿模型之一，但價(jià)格依然低于主要競(jìng)爭(zhēng)對(duì)手 OpenAI 的 GPT-5.5。

不過，速度、成本和代碼能力之外，Opus 4.8 這次還試圖回答另一個(gè)問題：AI 能不能更誠(chéng)實(shí)。

在今天的大模型競(jìng)爭(zhēng)中，越來越難回避的一點(diǎn)是，我們其實(shí)很難找到一個(gè)真正“誠(chéng)實(shí)”的 AI。古希臘哲學(xué)家第歐根尼有一個(gè)著名傳說：他曾在白天提著一盞點(diǎn)亮的燈，在雅典街頭四處尋找，并說自己在尋找一個(gè)誠(chéng)實(shí)的人。把這個(gè)故事放到今天，人們尋找的恐怕就不只是一個(gè)誠(chéng)實(shí)的人，而是一個(gè)誠(chéng)實(shí)的 AI。

一個(gè)模型可以更聰明、更快、更會(huì)寫代碼，但它能不能承認(rèn)自己不知道，能不能發(fā)現(xiàn)自己寫錯(cuò)了，能不能在用戶最需要判斷力的時(shí)候保持誠(chéng)實(shí)，反而成了更稀缺的能力。這也是 Anthropic 這次想重點(diǎn)強(qiáng)調(diào)的方向。Opus 4.8 被 Anthropic 描述為更能支持用戶，也更少欺騙用戶。

Anthropic 的 Alignment 團(tuán)隊(duì)在公告博客中表示，這個(gè)模型“在我們衡量親社會(huì)特質(zhì)的指標(biāo)上達(dá)到了新高”。具體而言，Anthropic 稱，Opus 4.8 在支持用戶自主性、以及按照用戶最佳利益行事方面都有提升。

另一個(gè)看起來積極的變化是，Anthropic 表示，Opus 4.8 的欺騙率，以及配合濫用請(qǐng)求的比例，都比前代模型“顯著更低”。這似乎意味著，它已經(jīng)追上了 Claude Mythos Preview。Anthropic 此前曾稱 Claude Mythos Preview 是“我們訓(xùn)練過的對(duì)齊程度最高的模型”。

Anthropic 還表示，相比前代模型，Opus 4.8 “大約低四倍概率會(huì)對(duì)自己寫出的代碼中的缺陷視而不見、不加說明”。Anthropic 稱，早期測(cè)試者也印證了這一點(diǎn)，并形容 Opus 4.8 在執(zhí)行 agentic 任務(wù)時(shí)“更可靠，在判斷上也更敏銳”。換句話說，Opus 4.8 試圖解決的不只是模型能不能完成任務(wù)，而是它在完成任務(wù)時(shí)，是否愿意指出風(fēng)險(xiǎn)、承認(rèn)問題，并在必要時(shí)反過來提醒用戶。

基準(zhǔn)測(cè)試：一個(gè)“重大戰(zhàn)略錯(cuò)誤”？

從基準(zhǔn)測(cè)試來看，Opus 4.8 相比其他模型表現(xiàn)如何？Anthropic 表示，Opus 4.8 在所有基準(zhǔn)測(cè)試中都比前代模型更進(jìn)一步。雖然發(fā)布當(dāng)天公布的基準(zhǔn)測(cè)試不一定總能對(duì)應(yīng)真實(shí)使用體驗(yàn)，但這些數(shù)字確實(shí)顯示出一定潛力。

其中最值得注意的是，Opus 4.8 在 agentic coding 上達(dá)到 69.2%，明顯高于 Opus 4.7 的 64.3%，也超過 GPT-5.5 的 58.65% 和 Gemini 3.1 Pro 的 54.2%。它在 agentic compute use 上的得分為 83.4%，相比 GPT-5.5 的 78.7% 和 Gemini 3.1 Pro 的 76.2%，同樣不容忽視。但在 agentic terminal coding 上，Opus 4.8 仍然輸給了 GPT-5.5，比 OpenAI 的模型低了 3.6 個(gè)百分點(diǎn)。

不過，正是這組對(duì)比，也引發(fā)了外界對(duì)基準(zhǔn)測(cè)試可信度的討論。

尤其是在開發(fā)者社區(qū)里，GPT-5.5 的編碼體感正在獲得很強(qiáng)的正面反饋。DHH 今天就在 X 上表示，自 Opus 4.5 以來，沒有哪個(gè)模型像 GPT-5.5 這樣讓他反復(fù)出現(xiàn)“難以相信它已經(jīng)這么好”的時(shí)刻。

也正是在這種背景下，Redis 作者 antirez 對(duì) Anthropic 的基準(zhǔn)測(cè)試呈現(xiàn)方式提出了批評(píng)。他認(rèn)為，Anthropic 這次犯了一個(gè)“重大戰(zhàn)略錯(cuò)誤”：過去廠商通常更強(qiáng)調(diào)新模型相對(duì)舊模型的提升，但這一次，在很多人已經(jīng)感受到 GPT-5.5 編碼能力很強(qiáng)的情況下，Anthropic 把 GPT-5.5 放進(jìn)同一組對(duì)比里，反而讓客戶看到，基準(zhǔn)測(cè)試和真實(shí)使用體感之間可能并不一致。

有人在評(píng)論區(qū)反問，這難道不是一種透明嗎？antirez 的回應(yīng)是，問題不在于是否透明，而在于如果 Anthropic 明知道 GPT-5.5 在編碼上比 Opus 4.7 強(qiáng)得多，即使后者在某些基準(zhǔn)測(cè)試中得分更高，卻仍然把這些數(shù)字呈現(xiàn)為“模型更強(qiáng)”的證明，就會(huì)讓用戶感到困惑。

另一位用戶指出，主流模型發(fā)布時(shí)本來就常常會(huì)把 Big Three 的最新旗艦?zāi)Ｐ头胚M(jìn)對(duì)比圖里，Anthropic 并不是例外。antirez 則表示，這并不改變核心問題：用戶看到的是廠商說法與實(shí)際體驗(yàn)之間的錯(cuò)位。

網(wǎng)友 Chubby 就評(píng)價(jià)稱，Opus 4.8 顯然是一個(gè)很強(qiáng)的模型，但他的印象是，Anthropic 正越來越像是在追趕 OpenAI，而不是繼續(xù)定義節(jié)奏。

在他看來，GPT-5.5 似乎再次抬高了基準(zhǔn)；如果 OpenAI 保持這樣的推進(jìn)速度，GPT-5.6 很可能成為整體更強(qiáng)的模型。

Opus 這一年：從“封王”到變相漲價(jià)爭(zhēng)議

2025 年 5 月，Anthropic 在首屆開發(fā)者大會(huì) Code with Claude 上發(fā)布 Opus 4，并稱其為“世界上最好的編碼模型”。當(dāng)時(shí)，這家公司承諾要在編碼、高級(jí)推理和 AI agents 方面樹立新標(biāo)準(zhǔn)。這個(gè)模型在編碼和長(zhǎng)上下文推理方面帶來了顯著進(jìn)展，尤其突出的是，它能夠處理長(zhǎng)時(shí)間運(yùn)行的任務(wù)，并在 Anthropic 當(dāng)時(shí)所說的“數(shù)千個(gè)步驟”中保持上下文。

很快，2025 年 8 月，Opus 4.1 發(fā)布，在 agentic 任務(wù)、編碼和推理能力上帶來了一些提升。但這只是一次小更新。當(dāng)時(shí)，Anthropic 還預(yù)告稱，“未來幾周，我們會(huì)對(duì)模型帶來大得多的改進(jìn)”。

2025 年 11 月，Opus 4.5 高調(diào)發(fā)布。Anthropic 再一次稱它是“世界上最適合編碼、agents 和 computer use 的模型”。同樣，他們也再次吊起外界胃口，稱 Opus 4.5 只是“工作完成方式發(fā)生更大變化的一個(gè)預(yù)覽”。就這個(gè)預(yù)覽本身而言，Opus 4.5 的確帶來了一些能力改進(jìn)，讓模型能夠更好地處理模糊性，并解決涉及多個(gè)系統(tǒng)的 bug。從很多方面看，在 OpenAI 的 GPT-5.1-Codex-Max 和 Google 的 Gemini 3 獲得市場(chǎng)青睞之后，Opus 4.5 幫 Anthropic 重新奪回了編碼王冠。

此后又過了三個(gè)月，Anthropic 帶來了 Opus 4.6。Opus 4.6 “讓大型語言模型用于企業(yè)工作流發(fā)生了階躍式變化，因?yàn)樗軌蛱幚砀鼜?fù)雜的任務(wù)，并更好地交付結(jié)果”。Opus 4.6 在規(guī)劃、編碼和調(diào)試能力上繼續(xù)提升，成為 Anthropic 首個(gè)使用 adaptive thinking 的模型，并取得了亮眼的基準(zhǔn)測(cè)試成績(jī)。其中尤其值得注意的是，它擁有 100 萬 token 的上下文窗口。

不過，Opus 4.6 的爭(zhēng)議也很快出現(xiàn)。發(fā)布之后，Anthropic 很快因?yàn)橐淮味▋r(jià)調(diào)整遭到批評(píng)：雖然模型在技術(shù)上支持接近 100 萬 token 的 prompt，但只要請(qǐng)求超過約 20 萬 token，整個(gè)請(qǐng)求都會(huì)被劃入更高的“長(zhǎng)上下文”價(jià)格層級(jí)。

Opus 4.7 也遇到了一些麻煩。它在 2026 年 4 月發(fā)布，是 Opus 4.6 的直接升級(jí)版本，帶來了更好的視覺能力、更好的記憶能力和更好的指令遵循能力。但發(fā)布之后，有用戶反饋稱，Claude Opus 4.7 會(huì)出現(xiàn)自相矛盾的回答，性能也有所下降，這引發(fā)了外界對(duì)模型質(zhì)量、安全權(quán)衡以及 AI 服務(wù)變相漲價(jià)的討論。更尷尬的是，Anthropic 自己也稱 Opus 4.7 “整體能力不如”當(dāng)時(shí)備受討論的 Claude Mythos Preview。從外界報(bào)道看，Opus 4.7 在某種程度上像是在為 Mythos 的新網(wǎng)絡(luò)安全防護(hù)機(jī)制試水。

現(xiàn)在，Opus 4.8 已經(jīng)正式發(fā)布。對(duì)近期屢屢引發(fā)用戶不滿的 Anthropic 來說，這確實(shí)是一個(gè)重要節(jié)點(diǎn)。一方面，它需要證明 Opus 系列仍然能在編碼和 agentic 任務(wù)上繼續(xù)向前推進(jìn)；另一方面，它也需要回應(yīng)用戶對(duì)額度、價(jià)格、模型穩(wěn)定性和產(chǎn)品體驗(yàn)的持續(xù)不滿。

本月早些時(shí)候，Anthropic 推出的 Claude Code agent view 并沒有讓開發(fā)者買賬。有人評(píng)價(jià)說，它只是“減少了一些摩擦，但沒有改變底層問題”。同一周，Anthropic 還宣布，從 6 月 15 日開始，將對(duì) Agent SDK 使用量進(jìn)行拆分計(jì)費(fèi)。對(duì)于那些已經(jīng)習(xí)慣把程序化使用和交互式使用都計(jì)入同一個(gè)訂閱額度的用戶來說，這顯然不是一個(gè)受歡迎的變化。

當(dāng)然，Opus 4.8 可能還不是 Anthropic 接下來唯一的一張牌。此前同一則泄露消息中還提到過 Sonnet 4.8 和 Mythos 1，如果這兩個(gè)名字也陸續(xù)落地，Anthropic 才算真正進(jìn)入下一輪產(chǎn)品更新周期。

https://www.anthropic.com/news/claude-opus-4-8

https://www.marktechpost.com/2026/05/28/anthropic-ships-claude-opus-4-8-alongside-dynamic-workflows-and-cheaper-fast-mode-with-workflows-capped-at-1000-subagents/

聲明：本文為 InfoQ 整理，不代表平臺(tái)觀點(diǎn)，未經(jīng)許可禁止轉(zhuǎn)載。

會(huì)議推薦

企業(yè)級(jí) Agent 落地，繞不開 4 個(gè)真實(shí)的工程問題。如何在 Agent 安全性和可用性之間找到平衡點(diǎn)？Agent 需要什么樣的記憶系統(tǒng)才能真正理解上下文？如何通過算法壓榨實(shí)現(xiàn)智力增量與成本控制的極致平衡？多 Agent 協(xié)作，如何做到可觀測(cè)、可治理、可控制？6 月 26-27 日，AICon 全球人工智能開發(fā)與應(yīng)用大會(huì)·上海站國(guó)內(nèi)頭部公司的 Agent 實(shí)踐，一次說透。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.