網易首頁 > 網易號 > 正文申請入駐

Opus 4.7 壓根沒想做“最強模型”：各位吹Claude的速度都跟不上Anthropic 的節奏了

2026-04-17 10:59:54　來源: 硅星人

北京舉報

分享至

2026 年 4 月 16 日，Anthropic 正式發布 Claude Opus 4.7，距離上一代 Opus 4.6 發布僅兩個多月。

在最近一陣密集而瘋狂的產品與模型更新后，拋出新模型的Anthropic自然給人一種放大招的感覺。想必你也已經看到很多第一時間的模型報告梳理，各個把Opus 4.7 稱為“最強模型”，那些“人類完了”、“失業預警”等等再次刷屏。

但還是要看看Anthropic自己發了啥吧。

這次發布的基調其實不太尋常。

Anthropic 在公告里直接寫道：Opus 4.7 的能力不如 Claude Mythos Preview——而 Mythos 只對 Apple、Google、Microsoft、Nvidia 等少數合作伙伴開放，普通開發者和用戶無法使用。

同時，比它的這種說辭更值得關注的，是它不只是比傳說中的Mythos更弱，它其實比上一代模型，也在關鍵的一些能力上更弱。

Opus 4.7 本身那份跑分表里的一個異常數字：長上下文基準 MRCR v2 @1M 從 Opus 4.6 的 78.3% 跌到 32.2%，46 個百分點的暴跌。

很少有旗艦模型迭代會把自家王牌能力砍掉一半。

而且這是它主動做出的選擇。

所以，當各位繼續無腦慣性吹它的每一個模型是“最強”的時候，其實已經跟不上Anthropic自己的節奏了！

它甚至都不care去改進一下這個洗車問題

Opus 4.7 是一次根本沒有想做成“最強模型”的發布，它是一次有明確取舍的，“精準刀法”式的發布，與以往頭部模型廠商的各種發布思路都不同，也是今天頭部廠商在明確感受到模型本身的“大躍進”不再可持續后，會集體轉向的新方向——Anthropic某種程度上已經在向蘋果、微軟等公司在他們非常成熟的產品商業化階段的發布策略靠攏。

這可能才是4.7的真正重要的地方。

一、編程能力：數字背后的真實改善

要更好理解這些變化，最好的方式自然是先仔細看一下它這次到底發了什么。

以下是 Opus 4.7 這次發布的完整信息梳理——哪里進步了、哪里擺爛了、開發者一手反饋是什么、該不該遷移。

官方公告 ：https://www.anthropic.com/news/claude-opus-4-7

Opus 4.7 的編程成績是這次發布的主軸。

SWE-bench Verified（500 個真實 GitHub issue，模型需寫出能通過測試的補丁）從 Opus 4.6 的 80.8% 升至 87.6%，接近 7 個百分點的提升，是目前公開可用模型中的第一名。對比 Gemini 3.1 Pro 的 80.6%，差距明顯。

SWE-bench Pro 是更難的版本，覆蓋四種編程語言的完整工程流水線。Opus 4.7 從 53.4% 升至 64.3%，11 個百分點的跳升。對比 GPT-5.4 的 57.7%、Gemini 3.1 Pro 的 54.2%，Opus 4.7 在這項基準上明顯領先。

CursorBench 是來自 Cursor 的實戰基準，專門衡量模型在真實 IDE 環境中的編程輔助質量。Opus 4.6 是 58%，Opus 4.7 跳到了 70%，12 個百分點的提升。Cursor 聯合創始人 Michael Truell 在官方公告中說："這是能力上的有意義跳躍，在解決難題時有更強的創造性推理。"

合作伙伴實測數據：

Rakuten：Opus 4.7 解決的生產任務數量是 Opus 4.6 的 3 倍，代碼質量和測試質量評分都有兩位數提升
Factory：任務成功率提升 10-15%，模型中途停下來的情況明顯減少
Cognition（Devin 背后的公司）：模型"可以連續工作數小時而不掉線"
CodeRabbit：召回率提升超過 10%，"比 GPT-5.4 xhigh 模式略快"
Bolt：在較長的應用構建任務上，Opus 4.7 比 Opus 4.6 "最好情況下提升 10%，沒有過去那種退步問題"
Terminal-Bench 2.0：Opus 4.7 解決了三個之前沒有任何 Claude 模型（或競爭對手）能處理的任務，其中一個是需要跨復雜代碼庫多文件推理才能修復的競爭條件（race condition）

這些數據集中指向一個方向：Opus 4.7 在長周期、跨文件、需要保持上下文連貫的復雜編程任務上有明顯改善。這正是 Opus 4.6 用戶在過去兩個月吐槽最多的點——任務執行到一半就自動放棄、遇到多文件 bug 就迷失。

二、視覺能力：這次發布最被低估的改進

視覺精準度基準 XBOW 從 54.5% 跳到 98.5%。這不是漸進式改進，是重建級別的躍遷。

具體規格變化：

最大圖像分辨率從約 115 萬像素（長邊 1,568 像素）提升至約 375 萬像素（長邊 2,576 像素），是前代的 3 倍多
模型坐標與實際像素實現 1:1 對應，此前 computer use 任務需要手動換算縮放系數，現在這個步驟消失
CharXiv 視覺推理基準：不帶工具 82.1%，帶工具 91.0%

這對哪些場景有實質影響？

對 computer use 產品團隊來說，這次升級可能是決定性的。Opus 4.6 時代的 computer use 處于"能做 demo 但不敢上生產"的狀態——誤點率太高，難以預測。98.5% 的視覺精準度意味著這個功能第一次具備了可靠部署的門檻。多家技術博客在評測里直接寫道：如果你因為 Opus 4.6 誤點頻率太高而擱置了 computer use 產品計劃，4.7 清除了這個障礙。

Reddit 上的一手反饋（r/ClaudeAI）：有用戶提到，"視覺能力的提升太關鍵了，我之前做了很多邊緣項目，嘗試讓模型在視覺反饋循環里迭代改進輸出，效果一直很混亂，很期待 4.7 能怎么處理這個問題。"

除 computer use 外，受益的場景還包括：掃描文檔分析（能讀取更小字體、識別更精細的圖表細節）、截圖理解、儀表盤類應用、復雜 PDF 處理。

需要注意的成本問題：更高分辨率的圖像會消耗更多 token。如果你的應用場景對圖片細節要求不高，建議在傳入前先降采樣。

三、最大的退步：長上下文崩了

MRCR v2 @1M（百萬 token 長上下文記憶測試）：

4.6：78.3%
4.7：32.2%

暴跌 46 個百分點，從接近 80% 直接掉到三分之一。

這個跌幅在旗艦模型迭代史上幾乎沒有先例。MRCR v2 是 Anthropic 自己在 Opus 4.6 時代被重點宣傳的能力——當時Anthropic 的原話是"在一個模型實際能用的上下文量級上發生了質變"。到 4.7，這個"質變"直接消失了。

為什么會這樣？Tokenizer 換了。

Opus 4.7 使用新的 tokenizer，同樣的輸入文本會產生約 1.0-1.35 倍的 token 數量，具體倍數因內容類型而異。

直接連鎖反應是：

名義上 200K/1M 的上下文窗口還在，但同樣的文字能裝的量少了
長任務 agent 工作流的實際 token 消耗增加約 35%
定價沒變（輸入 $5、輸出 $25 每百萬 token），但實際使用成本上升

Anthropic 的官方說法是新 tokenizer"提升了文本處理效率"，但 benchmark 數據顯示在長上下文場景下是明顯退步的。

搜索能力也退步了：

BrowseComp（網絡深度信息檢索）：Opus 4.6 的 83.7% → Opus 4.7 的 79.3%
GPT-5.4 Pro 在這項上得分 89.3%，Gemini 3.1 Pro 得 85.9%，Opus 4.7 目前在主要競爭模型中墊底

搜索和長文本，恰恰是很多企業用戶最常用的場景。

Hacker News 上開發者的一手反饋（帖子 275 贊、215 評論，來源：HN 討論）：

"關掉 adaptive thinking、把 effort 手動拉到最高，才讓我回到基線表現。'我們內部評測看起來不錯'這種說法現在已經不夠了，大家都看到一樣的問題。""4.7 默認不再在輸出里包含人類可讀的推理 token 摘要，必須在 API 請求里加 display: summarized 才能拿回來。"

這些都是實際使用者反映的問題。但這也是Anthropic自己主動做出的選擇。

四、新的行為特征：自我驗證與更字面化的指令跟隨

Opus 4.7 官方公告里有一句值得單獨拎出來：模型在上報結果之前會核驗自己的輸出。

Hex 的技術團隊在測試中給出了一個具體案例：當數據缺失時，Opus 4.7 會如實報告"數據不存在"，而不是給出一個看上去合理但實際是編造的答案——而后者正是 Opus 4.6 會踩的坑。金融科技平臺 Block 對此的評價是："它在規劃階段就能發現自己的邏輯錯誤，加速了執行速度，比之前的 Claude 模型有明顯超越。"

但自我驗證帶來了另一個連帶的行為變化：Opus 4.7 對指令的解讀更字面化。

這是一個重要的遷移風險。如果你為 Opus 4.6 精心調過 prompt，4.7 可能不會像 4.6 那樣"讀出言外之意"，而是嚴格按照你寫的字面意思執行。Anthropic 在官方遷移指南里明確提到了這一點，建議上線 4.7 前對關鍵 prompt 做回歸測試。

一個實用參照數字來自 Hex 的 CTO：低 effort 檔的 Opus 4.7，性能大約等于中 effort 檔的 Opus 4.6。

五、推理控制機制：xhigh、task budgets 和 /ultrareview

Opus 4.6 發生過一件影響用戶信任的事：2 月 9 日切換到自適應思考默認模式，3 月 3 日官方又把 Claude Code 的默認推理深度從最高檔調至 medium，理由是"在智能、延遲、成本之間取得平衡"。這件事被用戶稱為"降智門"，AMD 一位高級總監在 GitHub 的質疑帖被廣泛轉發。

Opus 4.7 給出的回應是，把推理深度的控制權更顯式地交給用戶。

xhigh effort 檔：新增的推理強度級別，位于原有的 high 和 max 之間。Claude Code 現在已經把所有計劃的默認檔位更新為 xhigh。

但開發者社區對 xhigh 有一個直接疑問，Reddit 用戶的原話是："Opus 4.6 默認是 medium，4.7 默認是 xhigh。我想知道這個決策背后的考慮，因為 effort 檔提高顯然會帶來更多的 token 消耗。"

換句話說：用戶看到的是一次"把控制權交還給用戶"的修復，但實際上默認檔被拉高了，意味著同樣的任務要燒更多 token。疊加 tokenizer 變更，這是雙重的成本提升。

task budgets（公測中）：針對長任務的 token 預算控制機制。開發者設置一個總 token 預算（最低 20K），模型在執行過程中能實時看到剩余額度，據此分配資源，避免跑到一半因為 token 超支停下來，也防止不必要的計算浪費。

Claude Code 新增 /ultrareview 命令：專項代碼審查會話，運行一次專注于 bug 排查和設計問題的深度審查，Pro 和 Max 用戶每月贈送 3 次免費使用。

auto 模式對 Max 用戶開放：此前只在 Enterprise 計劃里有，現在 Max 用戶也能用。Claude 在 auto 模式下可以自主做決策、減少中途詢問用戶的次數。Claude Code 團隊負責人 Boris Cherny 的原話是："給 Claude 一個任務，讓它跑，回來看已經核驗過的結果。"

六、跑分全景：哪里贏了，哪里輸了

以下是目前已公布的主要基準數據（來源：Anthropic 官方 system card 及合作伙伴評測）。

編程與工程類（Opus 4.7 領先）

視覺與多模態（Opus 4.7 大幅領先）

知識工作（Opus 4.7 領先）

綜合評測（Opus 4.7 明顯上臺階）

通用推理（三家基本打平）

這個基準已趨于飽和，不再是有效的競爭分水嶺。

研究類任務（GPT-5.4 領先，Opus 4.7 退步）

長上下文（Opus 4.7 大幅退步）

總結選型邏輯：編程、工程 agent、視覺、金融法律知識工作四塊 Opus 4.7 有明確優勢；研究密集型任務和開放式網絡檢索 GPT-5.4 更強；長上下文場景下 Opus 4.7 比自己的前代還差一大截，這是最值得警惕的點。

七、安全護欄：Mythos 的鋪路石

這部分容易被當作發布稿里的"安全例行聲明"跳過，但它是理解 Anthropic 當前戰略的關鍵。

4 月 7 日，Anthropic 宣布了 Project Glasswing：把 Claude Mythos Preview 開放給 Apple、Google、Microsoft、Nvidia、Amazon、Cisco、CrowdStrike、JPMorgan Chase 和 Broadcom 九家合作伙伴，專門用于防御性網絡安全場景。

Mythos 是 Anthropic 迄今能力最強的模型，根據 The Hacker News 的報道，它能自主發現零日漏洞，在主要操作系統和瀏覽器里找出了數千個此前未知的漏洞。但正因為這個能力，它也被判定為帶有重大濫用風險，所以不公開發布。

Opus 4.7 在這條線上是第一個測試樣本。Anthropic 在訓練階段主動削減了模型的網絡安全攻擊能力（同時盡量保留防御能力），并上線了自動檢測和攔截高風險網絡安全請求的實時護欄系統。公告原文："我們將通過 Opus 4.7 的實際部署來學習這套護欄是否有效，再決定是否把它推廣到 Mythos 級別的模型上。"

換句話說，每個用 Opus 4.7 的開發者都在幫 Anthropic 標定安全護欄的邊界。

Gizmodo 的評價：這次發布采用了"大膽的營銷策略——主動宣傳自家新模型'通用能力不如別的選擇'"，這在旗艦發布里極其罕見。

安全從業者如果需要將 Opus 4.7 用于合法的滲透測試、漏洞研究或紅隊測試，需要申請加入 Cyber Verification Program。

八、價格與遷移：名義不變，實際漲了

定價：輸入 $5/百萬 token，輸出 $25/百萬 token，與 Opus 4.6 相同。API 模型 ID 為 claude-opus-4-7。可用平臺包括 Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry，GitHub Copilot 也已同步上線。

但正如前面提到的，tokenizer 變更讓同樣輸入產生約 1.0-1.35 倍的 token 數，疊加更高默認 effort 檔位下的思考 token，對于長任務 agent 工作流，實際成本可能是 Opus 4.6 同等設置下的 2-3 倍。

Anthropic 同時把 Claude Code 的緩存 TTL 從一小時縮短到五分鐘——這意味著如果你離開電腦超過五分鐘再回來，上下文緩存失效，得重新加載，token 消耗會更快。Reddit 社區已經有不少用戶吐槽"額度燒得比瀑布還快"。

對現有 Opus 4.6 用戶的破壞性變更清單：

Extended Thinking Budgets 參數已移除，傳入會返回 400 錯誤，需改用 adaptive thinking 模式
溫度（temperature）、top_p、top_k 等采樣參數已移除，需用 prompting 控制輸出行為
更嚴格的字面化指令跟隨——為 Opus 4.6 調好的 prompt 需要重新測試，不能直接換模型 ID 上線
tokenizer 變更導致 token 計數變化，建議先在真實流量上跑樣本，再做完整遷移
默認輸出不再包含推理 token 摘要，需要顯式設置 display: summarized 才能拿回

實用建議：Anthropic 官方遷移指南建議，正式切換前用代表性的生產流量跑 Opus 4.7，對比 token 消耗和任務質量再做決定。

可以放出精準的刀法，最為恐怖

Opus 4.7 是一次有清晰靶向的升級，也是一次有明顯代價的升級。而且這些都是Anthropic自己設計好的，且很大程度上你必須為它買單。

這個模型進步的一面：

SWE-bench Verified 的 87.6%、SWE-bench Pro 的 64.3%、CursorBench 的 70%、Rakuten 的 3 倍生產任務——這些是生產環境里能感知到的編程能力提升
視覺能力重建（XBOW 54.5% → 98.5%、分辨率翻 3 倍、像素 1:1 對應），讓 computer use 第一次具備可靠部署的門檻
xhigh 檔位、task budgets、/ultrareview，是對"降智門"的顯式回應
BigLaw 90.9%、Finance Agent 64.4%，在金融法律這類專業知識工作上明確領先

放棄的一面：

MRCR v2 @1M 從 78.3% 跌到 32.2%，長上下文能力幾乎砍半
BrowseComp 從 83.7% 跌到 79.3%，搜索能力被 GPT-5.4 和 Gemini 3.1 Pro 雙雙反超
tokenizer 變更 + 默認 effort 拉高 + 緩存 TTL 縮短 = 三重隱性漲價
Mythos 壓著不放，意味著 Anthropic 手里還有更強的牌但出不來

這次發布最真實的樣子，不是"最強模型"也不是"最強公開模型"，而是：一次有明確取舍的迭代。

最新的消息是，Claude Code 在 2 月的年化收入已經達到 25 億美元。Opus 4.7 就是這條線上的下一個賭注。

編程和視覺是加法，長上下文和搜索是減法，價格名義不變但賬單在漲。Anthropic 正在用 Opus 4.7 做一次平衡——既要修復 Opus 4.6 遺留的信任損傷，又要為 Mythos 級模型將來的更大范圍開放做安全護欄的實戰演練。以及更重要的，它要充分利用好今天自己所處的領先位置，把用戶對它產品的喜歡，轉化為對一代一代產品哪怕有缺陷卻依然離不開的慣性，然后建立起像蘋果等公司已經進入成熟期才有的那種又愛又恨的用戶粘性，和真正有商業價值的生態。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.