網(wǎng)易首頁 > 網(wǎng)易科技 > IT業(yè)界 > 正文

Opus 4.7來了！官方罕見承認(rèn)并非最強(qiáng)，用戶直呼：真能干，但也太難聊了

2026-04-17 07:36:20　來源: 網(wǎng)易智能

北京舉報(bào)

分享至

出品 | 網(wǎng)易智能

作者 | 小小

編輯 | 王鳳枝

4月17日凌晨，Anthropic正式發(fā)布Claude Opus 4.7。

這是該公司目前最強(qiáng)的公開模型，主打編程和智能體任務(wù)，圖像分辨率提升至此前三倍，上下文窗口維持100萬token，API定價(jià)保持不變，輸入每百萬token 5美元，輸出25美元。

但真正反常的是，Anthropic這次發(fā)布的新模型自己也承認(rèn)并非最強(qiáng)。該公司坦言，盡管Opus 4.7在多項(xiàng)指標(biāo)上有所提升，但在部分關(guān)鍵能力上，仍不及近期亮相的Claude Mythos Preview。

圍繞這次升級(jí)，不少討論卻不是“它更強(qiáng)了”，而是“它更難聊了”。一些早期體驗(yàn)者和測試者發(fā)現(xiàn)，Opus 4.7在編程、終端操作和多步驟智能體任務(wù)上進(jìn)步明顯，但在分析、寫作、研究這類非代碼任務(wù)上，反而更容易顯得生硬、字面，也更少主動(dòng)調(diào)用工具和網(wǎng)絡(luò)搜索。

Anthropic官方明確提醒用戶，和Opus 4.7打交道得換一套方法，別再指望它像舊模型那樣替你“揣摩意思”，而要更直接地下指令。換句話說，這不是一個(gè)更會(huì)聊天的新旗艦，而是一個(gè)更適合干活的公開版本。

01編碼和工具能力是真漲了，但網(wǎng)絡(luò)搜索反而退步了

看基準(zhǔn)測試數(shù)據(jù)，Opus 4.7最強(qiáng)的改進(jìn)在編碼上。

首先是SWE-bench Verified基準(zhǔn)測試，模型要解決真實(shí)的GitHub issue，即程序員平時(shí)在開源項(xiàng)目里遇到的那種實(shí)際bug或者功能需求。模型得自己看懂代碼、找到問題、寫補(bǔ)丁，然后驗(yàn)證修復(fù)是否有效。這是目前行業(yè)里公認(rèn)最接近真實(shí)開發(fā)場景的測試之一。

Opus 4.7在這個(gè)測試?yán)锬孟铝?7.6%，比上一代Opus 4.6的80.8%高了將近7個(gè)百分點(diǎn)，也超過了Gemini 3.1 Pro的80.6%。

還有更難的SWE-bench Pro測試。模型需要跨四種編程語言，不光是修一個(gè)文件里的bug，可能要同時(shí)改多個(gè)文件并理解整個(gè)項(xiàng)目的結(jié)構(gòu)。Opus 4.7的得分從53.4%跳到了64.3%，漲幅超過10%。這意味著上一代模型在這上面十次任務(wù)要失敗差不多一半，現(xiàn)在十次里能成六次多。GPT-5.4的得分是57.7%，Gemini 3.1 Pro是54.2%，Opus 4.7已經(jīng)把差距拉開了。

實(shí)際用起來怎么樣？

Shopify高級(jí)工程師本·拉弗蒂（Ben Lafferty）說，Opus 4.7感覺智力上真提升了且代碼質(zhì)量明顯更好。模型會(huì)自己刪掉那些沒意義的包裝函數(shù)和多余的支架，邊干活邊修正自己的代碼，這是從Claude 4系列以來見過最利落的一次升級(jí)。

Factory公司的技術(shù)員列奧·楚拉科夫（Leo Tchourakov）也觀察到類似的效果。Opus 4.7能把任務(wù)從頭做到尾而不是半路停下來，任務(wù)成功率比Opus 4.6提高了10%到15%，工具錯(cuò)誤更少且驗(yàn)證步驟的執(zhí)行也更可靠。

在終端操作方面，Terminal-Bench 2.0用于測試命令行環(huán)境里的熟練度。模型需要導(dǎo)航文件系統(tǒng)、執(zhí)行DevOps任務(wù)并在終端里調(diào)試程序。Opus 4.7得分69.4%，比Opus 4.6的65.4%高了4個(gè)點(diǎn)，也稍微超過了Gemini 3.1 Pro的68.5%。早期合作伙伴Warp證實(shí)，Opus 4.7通過了以前Claude模型都沒能通過的終端任務(wù)，包括一個(gè)Opus 4.6完全搞不定的并發(fā)bug。

工具調(diào)用能力上，MCP-Atlas基準(zhǔn)測試衡量的是復(fù)雜多輪工具調(diào)用。想象一下你讓智能體去查數(shù)據(jù)庫和調(diào)API，然后根據(jù)結(jié)果再?zèng)Q定下一步操作，中間可能要來回用好幾個(gè)工具。Opus 4.7在該測試中得分77.3%，領(lǐng)先GPT-5.4的68.1%和Gemini 3.1 Pro的73.9%。如果你在構(gòu)建需要路由到多個(gè)工具的業(yè)務(wù)編排智能體，這個(gè)數(shù)字最為關(guān)鍵。

Augmentcode聯(lián)合創(chuàng)始人伊戈?duì)枴W斯特羅夫斯基（Igor Ostrovsky）提到，Opus 4.7不光原始能力強(qiáng)，處理現(xiàn)實(shí)世界的異步工作流、自動(dòng)化、CI/CD和長期任務(wù)都表現(xiàn)出色。而且模型思考更深且會(huì)帶來更有主見的觀點(diǎn)，而不是光順著用戶的意思走。

在計(jì)算機(jī)操作測試OSWorld-Verified中，模型要跟真實(shí)桌面軟件交互，包括點(diǎn)擊按鈕、填表單以及在GUI環(huán)境里完成任務(wù)。Opus 4.7拿了78.0%，比Opus 4.6的72.7%高了5個(gè)多點(diǎn)，也比GPT-5.4的75.0%強(qiáng)。再結(jié)合圖像分辨率的三倍提升，那些需要讀取密集UI界面或者看懂截圖的自動(dòng)化腳本能力會(huì)有明顯改善。

財(cái)務(wù)分析方面，F(xiàn)inance Agent v1.1測試多步財(cái)務(wù)任務(wù)，包含做財(cái)務(wù)模型、生成專業(yè)演示文稿、規(guī)劃投資策略。Opus 4.7得分64.4%，領(lǐng)先GPT-5.4 Pro的61.5%和Gemini 3.1 Pro的59.7%。Anthropic還提到Opus 4.7在GDPval-AA這個(gè)跨金融、法律和專業(yè)領(lǐng)域的知識(shí)工作評(píng)估上也是領(lǐng)先的。

但有一個(gè)地方確確實(shí)實(shí)翻車了。

在智能體搜索測試BrowseComp中，模型要做多步網(wǎng)絡(luò)研究，瀏覽多個(gè)頁面、綜合信息并跨頁面推理。Opus 4.7得分79.3%，反而比Opus 4.6的83.7%低了4.4個(gè)百分點(diǎn)。GPT-5.4 Pro在這個(gè)測試上拿了89.3%，Gemini 3.1 Pro也有85.9%。如果你的項(xiàng)目需要大量網(wǎng)絡(luò)調(diào)研和多頁面信息整合，這個(gè)退步得心里有數(shù)。Anthropic自己公布的表格里這也是唯一一個(gè)明顯倒退的指標(biāo)。

推理能力上，GPQA Diamond測試物理、化學(xué)、生物學(xué)領(lǐng)域的博士級(jí)別推理。這個(gè)測試現(xiàn)在快飽和了，所有前沿模型都擠在91%到95%之間。Opus 4.7得分94.2%，和GPT-5.4 Pro的94.4%、Gemini 3.1 Pro的94.3%基本持平，比Opus 4.6的91.3%有提升。大家其實(shí)已經(jīng)拉不開差距了。

Humanity's Last Exam是目前最難的多模態(tài)推理測試，考的是人類知識(shí)前沿的問題。Opus 4.7在不使用工具的情況下得分46.9%，使用工具得分增至54.7%。而Opus 4.6使用工具時(shí)得分53.3%，所以有進(jìn)步但不大。Mythos Preview使用工具后得分64.7%，差距還挺明顯的。GPT-5.4 Pro得分58.7%，也比Opus 4.7高一點(diǎn)。

視覺推理CharXiv測試科學(xué)圖表解讀，這是Opus 4.7進(jìn)步最大的地方。不使用工具時(shí)從69.1%跳到82.1%，使用工具時(shí)從84.7%漲到91.0%。這直接來自分辨率的三倍提升。有早期合作伙伴測試自主滲透測試的計(jì)算機(jī)視覺，視覺敏銳度從54.5%直接飆到98.5%。對(duì)于那些需要讀密密麻麻的截圖、技術(shù)圖紙、數(shù)據(jù)圖表的應(yīng)用來說，這個(gè)提升是實(shí)實(shí)在在的。

多語言問答MMMLU上，Opus 4.7得分91.5%，比Opus 4.6的91.1%稍高，但Gemini 3.1 Pro的92.6%依然領(lǐng)先。如果你主要做非英語的問答任務(wù)，Gemini可能更合適。

安全和對(duì)齊方面，Opus 4.7是第一個(gè)搭載生產(chǎn)級(jí)網(wǎng)絡(luò)安全保障措施的Opus模型。Anthropic的自動(dòng)化行為審計(jì)顯示，整體不對(duì)齊行為比Opus 4.6有適度改進(jìn)，誠實(shí)性和抵抗提示詞注入攻擊的能力提高了，但在給管制物質(zhì)提供過度詳細(xì)的減害建議方面有一點(diǎn)點(diǎn)退步。

彭博社報(bào)道稱，Opus 4.7實(shí)際上是一個(gè)被刻意削弱了網(wǎng)絡(luò)安全能力的版本并自帶“安全枷鎖”。Anthropic在訓(xùn)練過程中專門實(shí)驗(yàn)了如何“差異化降低”模型的網(wǎng)絡(luò)安全能力，并加入了自動(dòng)檢測和攔截高風(fēng)險(xiǎn)網(wǎng)絡(luò)安全請(qǐng)求的機(jī)制。

Anthropic也表示：“我們從這些保障措施的現(xiàn)實(shí)部署中學(xué)到的東西，將幫助我們最終實(shí)現(xiàn)廣泛發(fā)布Mythos級(jí)別模型的目標(biāo)。”

Anthropic自己的評(píng)估是大體上對(duì)齊良好且值得信賴，雖然行為還沒完全理想。Mythos Preview仍然是Anthropic訓(xùn)練過的對(duì)齊最好的模型，Opus 4.7就是個(gè)橋梁，先在這上面測試安全機(jī)制以后再推廣到Mythos級(jí)別。

02 API規(guī)則收緊了，老用戶得做遷移

這次升級(jí)不是換個(gè)模型名字就能直接用的。Anthropic收緊了好幾處API行為，現(xiàn)有團(tuán)隊(duì)得做遷移工作。

首先擴(kuò)展思考預(yù)算被移除了。以前你可以給模型設(shè)定一個(gè)固定的思考token預(yù)算現(xiàn)在不行了。如果你還在請(qǐng)求里發(fā)budget_tokens參數(shù)，API會(huì)返回400錯(cuò)誤。采樣行為也更嚴(yán)格了，非默認(rèn)的temperature、top_p、top_k值都會(huì)被拒絕，同樣返回400錯(cuò)誤。這意味著你不能簡單地把模型名字從opus-4-6改成opus-4-7就完事，請(qǐng)求模板、內(nèi)部預(yù)設(shè)、測試預(yù)期都得重新過一遍。

其次推理內(nèi)容的可見性變了。思考內(nèi)容默認(rèn)是被省略的，除非調(diào)用者主動(dòng)要求看摘要版。這對(duì)于那些已經(jīng)習(xí)慣在調(diào)試時(shí)直接看模型推理過程的團(tuán)隊(duì)來說是個(gè)不小的改動(dòng)，你用來監(jiān)控模型行為的那套工具可能需要調(diào)整。

第三Opus 4.7用了新的tokenizer，同樣一段輸入內(nèi)容，現(xiàn)在消耗的token數(shù)量比以前多出0%到35%不等，具體取決于內(nèi)容類型。這可不是小事情。更長的提示詞、反復(fù)跑的智能體循環(huán)、帶了很多圖片的輸入，可能比預(yù)期更快觸及成本上限或者截?cái)嚅撝怠nthropic自己建議在遷移生產(chǎn)工作負(fù)載之前，先在實(shí)際流量上測一下token影響。

好消息是任務(wù)預(yù)算功能在公開測試版里上線了。你可以給智能體設(shè)置一個(gè)token支出的硬性上限，最低2萬個(gè)token起。這樣長時(shí)間運(yùn)行的調(diào)試會(huì)話就不會(huì)突然給你一張嚇人的賬單。

還有一點(diǎn)，Opus 4.7支持100萬token的上下文窗口，用的是標(biāo)準(zhǔn)API定價(jià)且不用額外付長上下文溢價(jià)。這點(diǎn)對(duì)需要處理大代碼庫或者長文檔的團(tuán)隊(duì)很友好。

03用新模型得換套路：別跟它閑聊并直接下指令

Claude Code負(fù)責(zé)人鮑里斯·切爾尼（Boris Cherny）親自寫了一篇最佳實(shí)踐指南。核心意思是用Opus 4.7你得換一套打法。

首先Opus 4.7不再支持固定預(yù)算的擴(kuò)展思考，改用自適應(yīng)思考。也就是說模型自己判斷什么時(shí)候需要多想以及什么時(shí)候可以快速回應(yīng)。好處是簡單問題響應(yīng)快，壞處是它可能低估某些任務(wù)的難度。

沃頓商學(xué)院教授伊森·莫利克（Ethan Mollick）就遇到了這個(gè)問題。他說模型經(jīng)常覺得非數(shù)學(xué)非代碼的內(nèi)容是低努力任務(wù)，然后就產(chǎn)出更差的結(jié)果。在分析、寫作或研究任務(wù)上，模型基本上很少啟動(dòng)深度思考，這意味著工具和網(wǎng)絡(luò)搜索也不怎么用。

莫利克還抱怨說雖然還沒測完所有東西，但經(jīng)常發(fā)現(xiàn)對(duì)于這類用例，答案質(zhì)量比Opus 4.6的擴(kuò)展思考模式還低。更讓他不滿的是在Claude Code里能設(shè)置思考級(jí)別但在Claude Cowork里不能。他最后懟了一句，AI公司好像總覺得編碼和技術(shù)工作是唯一重要的智力工作，但實(shí)際上根本不是這樣。

切爾尼在指南里給了一個(gè)解決辦法。如果你想要模型多思考，就在提示詞里明確說這個(gè)問題比看起來難且仔細(xì)一步步想。如果你想要它快點(diǎn)回應(yīng)少想點(diǎn)，就說優(yōu)先快速回應(yīng)且有疑問時(shí)直接答。這樣能省token但難的步驟上可能會(huì)丟失一點(diǎn)準(zhǔn)確度。

其次Claude Code里默認(rèn)努力級(jí)別改成了xhigh。這是新加的一個(gè)檔位，介于high和max之間。官方推薦大多數(shù)編碼任務(wù)用xhigh就夠了，因?yàn)閙ax雖然分?jǐn)?shù)更高但收益遞減還容易過度思考。低和中等努力級(jí)別留給對(duì)成本或延遲敏感的任務(wù)。如果你已經(jīng)是Claude Code用戶但沒手動(dòng)改過設(shè)置會(huì)自動(dòng)升級(jí)到xhigh。切爾尼建議大家試試不同檔位，不要直接把舊設(shè)置搬過來。

第三也是最重要的，跟Opus 4.7說話要直接。它不再像舊模型那樣會(huì)揣摩你的意思而是嚴(yán)格執(zhí)行你給出的指令。以前那種比較隨意且靠模型自己腦補(bǔ)的提示詞現(xiàn)在可能會(huì)翻車。官方建議第一次輪次就把任務(wù)說清楚，包括意圖、限制條件、驗(yàn)收標(biāo)準(zhǔn)、相關(guān)文件位置必須全給齊。而且要減少來回對(duì)話，每多一輪用戶交互就多一輪推理開銷。

能用自動(dòng)模式的就用。Claude Code Max用戶按Shift加Tab就能開自動(dòng)模式，模型不用每步都問你我可以這樣做嗎。對(duì)于你已經(jīng)把上下文都給全了的長期任務(wù)這個(gè)模式特別合適。切爾尼還教了一招，讓Claude完成任務(wù)時(shí)自己放個(gè)聲音通知你，它能自己創(chuàng)建基于hook的通知。

第四模型默認(rèn)行為有變化。響應(yīng)長度會(huì)跟任務(wù)復(fù)雜度匹配，簡單查個(gè)東西不會(huì)像以前那樣啰嗦一堆。切爾尼說如果你對(duì)長度或風(fēng)格有特定要求，在提示詞里明確寫出來，而且給正面例子比給“不要這樣做”的負(fù)面指令效果更好。

模型調(diào)用工具的頻率降低了且更傾向于自己先推理。這在很多情況下效果更好。但如果你確實(shí)希望模型更積極用工具，比如在智能體工作中更主動(dòng)搜索或讀文件，那就得在提示詞里明確說清楚什么時(shí)候以及為什么該用工具。

默認(rèn)生成的子智能體也更少。Opus 4.7在決定是否把工作分給子智能體時(shí)更謹(jǐn)慎。如果你確實(shí)需要并行處理多個(gè)文件或任務(wù)得明確告訴它。切爾尼給了一個(gè)示例提示詞，明確要求不要為你自己能在單次回復(fù)里直接完成的工作生成子智能體，但在跨項(xiàng)目扇出或者讀多個(gè)文件的時(shí)候需要在同一輪里生成多個(gè)子智能體。

切爾尼最后總結(jié)說，Opus 4.7在長時(shí)間運(yùn)行的任務(wù)上比之前的模型表現(xiàn)好很多，特別適合那些以前人工監(jiān)督是瓶頸的任務(wù)，比如復(fù)雜的多文件改動(dòng)、說不清楚的調(diào)試問題、跨服務(wù)的代碼審查、多步驟的智能體任務(wù)。他建議把努力級(jí)別保持xhigh并先看看第一輪能跑多遠(yuǎn)。

Replit總裁米歇爾·卡塔斯塔（Michele Catasta）也印證了這一點(diǎn)。他說在日志分析和找bug這類任務(wù)上，Opus 4.7用更低的成本實(shí)現(xiàn)了更高的質(zhì)量且感覺像個(gè)更好的同事。Notion的AI負(fù)責(zé)人莎拉·薩克斯（Sarah Sachs）給出了具體數(shù)據(jù)，多步驟工作流改進(jìn)了14%，工具調(diào)用錯(cuò)誤少了66%，智能體現(xiàn)在像個(gè)真正的隊(duì)友了。

但也有不同的聲音。

爆料大神草莓哥@iruletheworldmo直接潑了冷水。他說Opus 4.7的改進(jìn)不算太大，遠(yuǎn)遠(yuǎn)比不上OpenAI即將推出的東西。他拿產(chǎn)品線做對(duì)比指出，如果看實(shí)驗(yàn)室發(fā)布的產(chǎn)品和功能數(shù)量，Anthropic可能因?yàn)榘l(fā)得多顯得領(lǐng)先，但要比質(zhì)量的話Codex遠(yuǎn)遠(yuǎn)領(lǐng)先于新的Claude Code桌面產(chǎn)品，而新的超級(jí)應(yīng)用比這個(gè)好十倍。他斷言O(shè)penAI將會(huì)拉開差距。

04企業(yè)要不要升級(jí)：看你是干活還是查資料

對(duì)于企業(yè)來說，Opus 4.7標(biāo)志著AI從創(chuàng)意助手轉(zhuǎn)向可靠操作員。但這不是所有場景的通吃。

數(shù)據(jù)標(biāo)注公司Cognition的CEO Scott Wu說，Opus 4.7能連貫工作好幾個(gè)小時(shí)，以前讓模型卡住的難題它能硬啃下來。AI法律平臺(tái)Harvey的應(yīng)用研究負(fù)責(zé)人尼科·格魯彭（Niko Grupen）提到，模型在BigLaw Bench上得了90.9%，處理模糊的文檔編輯任務(wù)明顯更聰明了。

但如果你的團(tuán)隊(duì)在構(gòu)建智能體或者復(fù)雜軟件系統(tǒng)，這次升級(jí)很值得。核心價(jià)值是模型的新能力，它不再只是生成一個(gè)答案而是在回答之前自己先驗(yàn)證一下這個(gè)答案對(duì)不對(duì)。這種可靠性對(duì)于長期工程任務(wù)很關(guān)鍵，因?yàn)槿肆ΡO(jiān)督的成本在那里擺著。

但如果你現(xiàn)在的工作流里Opus 4.6跑得好好的，有幾類情況可以先不著急換。

一是你的智能體嚴(yán)重依賴深度網(wǎng)絡(luò)研究和多頁面信息整合。BrowseComp那4.4個(gè)點(diǎn)的退步是真實(shí)的，GPT-5.4 Pro或者Gemini 3.1 Pro在這類任務(wù)上更合適。

二是你已經(jīng)為Opus 4.6的行為精細(xì)調(diào)過提示詞。Anthropic特別提醒，Opus 4.7改進(jìn)的指令遵循意味著它會(huì)比你預(yù)期得更字面地理解指令。依賴舊模型寬松解釋或者習(xí)慣性跳過某些指令的提示詞可能會(huì)出奇怪的結(jié)果。官方建議在切生產(chǎn)流量之前先在代表性樣本上重新測試。

三是你的token預(yù)算卡得比較緊。Opus 4.7的新tokenizer會(huì)讓同樣輸入消耗更多token，而且它在更高努力級(jí)別下會(huì)思考更多。建議在實(shí)際流量上先測一下影響再?zèng)Q定。

從Opus 4.6整體遷移過來得謹(jǐn)慎。分階段推出加重新調(diào)優(yōu)是比較穩(wěn)妥的做法。特別是那些提示詞比較脆弱且利潤空間又薄的遺留應(yīng)用更得小心。

另外還有一個(gè)背景信息。Anthropic目前正跟美國國防部打官司。后者把Anthropic列為“供應(yīng)鏈風(fēng)險(xiǎn)”，因?yàn)锳nthropic拒絕讓模型用于大規(guī)模監(jiān)控或完全自主的致命武器。雖然舊金山法官最初阻止了這個(gè)認(rèn)定，但聯(lián)邦上訴小組最近駁回了Anthropic的中止請(qǐng)求。

與此同時(shí)，之前一些忠實(shí)用戶抱怨Opus 4.6和Claude Code產(chǎn)品被悄悄降智，說最近的版本更容易陷入探索循環(huán)、記不住東西并忽略指令。有人直接說Claude Code桌面應(yīng)用十分粗糙，配不上一個(gè)快萬億美元估值的公司。Opus 4.7某種程度上也是Anthropic對(duì)這些批評(píng)的回應(yīng)。

財(cái)務(wù)上Anthropic的發(fā)展倒是很猛。最新估值3800億美元，而且有報(bào)道說投資機(jī)構(gòu)正在給出約8000億美元的新一輪融資報(bào)價(jià)。公司年化營收已經(jīng)沖到300億美元，主要靠企業(yè)客戶和Claude Code帶動(dòng)。

結(jié)語

最后總結(jié)一下。

Opus 4.7是一個(gè)有紀(jì)律性的模型，它不追求在所有任務(wù)上都得第一，而是在編碼、工具使用、視覺理解這些實(shí)際干活的能力上做深。Anthropic通過允許用戶控制努力程度、設(shè)定預(yù)算并驗(yàn)證輸出，正朝著自主數(shù)字勞動(dòng)力的目標(biāo)靠近。

但這不是一個(gè)無腦升級(jí)的版本。它的API變了且老代碼得改。它的提示詞邏輯變了且以前能用的模板可能要重調(diào)。它在網(wǎng)絡(luò)搜索上退步了，如果你主要做研究類任務(wù)反而體驗(yàn)會(huì)下降。而且真正的頂尖模型Mythos還在后面藏著，Opus 4.7只是那個(gè)能公開賣的版本。

對(duì)于Replit、Notion、Shopify這些公司的工程團(tuán)隊(duì)來說，從看著AI干活到管理AI結(jié)果的轉(zhuǎn)變已經(jīng)開始了。Opus 4.7能不能接住這個(gè)期待，得看它在你自己的真實(shí)任務(wù)上跑得怎么樣。