出品 | 網(wǎng)易智能
作者 | 小小
編輯 | 王鳳枝
4月17日凌晨,Anthropic正式發(fā)布Claude Opus 4.7。
![]()
這是該公司目前最強(qiáng)的公開模型,主打編程和智能體任務(wù),圖像分辨率提升至此前三倍,上下文窗口維持100萬token,API定價(jià)保持不變,輸入每百萬token 5美元,輸出25美元。
但真正反常的是,Anthropic這次發(fā)布的新模型自己也承認(rèn)并非最強(qiáng)。該公司坦言,盡管Opus 4.7在多項(xiàng)指標(biāo)上有所提升,但在部分關(guān)鍵能力上,仍不及近期亮相的Claude Mythos Preview。
圍繞這次升級(jí),不少討論卻不是“它更強(qiáng)了”,而是“它更難聊了”。一些早期體驗(yàn)者和測試者發(fā)現(xiàn),Opus 4.7在編程、終端操作和多步驟智能體任務(wù)上進(jìn)步明顯,但在分析、寫作、研究這類非代碼任務(wù)上,反而更容易顯得生硬、字面,也更少主動(dòng)調(diào)用工具和網(wǎng)絡(luò)搜索。
Anthropic官方明確提醒用戶,和Opus 4.7打交道得換一套方法,別再指望它像舊模型那樣替你“揣摩意思”,而要更直接地下指令。換句話說,這不是一個(gè)更會(huì)聊天的新旗艦,而是一個(gè)更適合干活的公開版本。
01編碼和工具能力是真漲了,但網(wǎng)絡(luò)搜索反而退步了
![]()
看基準(zhǔn)測試數(shù)據(jù),Opus 4.7最強(qiáng)的改進(jìn)在編碼上。
首先是SWE-bench Verified基準(zhǔn)測試,模型要解決真實(shí)的GitHub issue,即程序員平時(shí)在開源項(xiàng)目里遇到的那種實(shí)際bug或者功能需求。模型得自己看懂代碼、找到問題、寫補(bǔ)丁,然后驗(yàn)證修復(fù)是否有效。這是目前行業(yè)里公認(rèn)最接近真實(shí)開發(fā)場景的測試之一。
![]()
Opus 4.7在這個(gè)測試?yán)锬孟铝?7.6%,比上一代Opus 4.6的80.8%高了將近7個(gè)百分點(diǎn),也超過了Gemini 3.1 Pro的80.6%。
還有更難的SWE-bench Pro測試。模型需要跨四種編程語言,不光是修一個(gè)文件里的bug,可能要同時(shí)改多個(gè)文件并理解整個(gè)項(xiàng)目的結(jié)構(gòu)。Opus 4.7的得分從53.4%跳到了64.3%,漲幅超過10%。這意味著上一代模型在這上面十次任務(wù)要失敗差不多一半,現(xiàn)在十次里能成六次多。GPT-5.4的得分是57.7%,Gemini 3.1 Pro是54.2%,Opus 4.7已經(jīng)把差距拉開了。
![]()
實(shí)際用起來怎么樣?
Shopify高級(jí)工程師本·拉弗蒂(Ben Lafferty)說,Opus 4.7感覺智力上真提升了且代碼質(zhì)量明顯更好。模型會(huì)自己刪掉那些沒意義的包裝函數(shù)和多余的支架,邊干活邊修正自己的代碼,這是從Claude 4系列以來見過最利落的一次升級(jí)。
![]()
Factory公司的技術(shù)員列奧·楚拉科夫(Leo Tchourakov)也觀察到類似的效果。Opus 4.7能把任務(wù)從頭做到尾而不是半路停下來,任務(wù)成功率比Opus 4.6提高了10%到15%,工具錯(cuò)誤更少且驗(yàn)證步驟的執(zhí)行也更可靠。
![]()
在終端操作方面,Terminal-Bench 2.0用于測試命令行環(huán)境里的熟練度。模型需要導(dǎo)航文件系統(tǒng)、執(zhí)行DevOps任務(wù)并在終端里調(diào)試程序。Opus 4.7得分69.4%,比Opus 4.6的65.4%高了4個(gè)點(diǎn),也稍微超過了Gemini 3.1 Pro的68.5%。早期合作伙伴Warp證實(shí),Opus 4.7通過了以前Claude模型都沒能通過的終端任務(wù),包括一個(gè)Opus 4.6完全搞不定的并發(fā)bug。
![]()
工具調(diào)用能力上,MCP-Atlas基準(zhǔn)測試衡量的是復(fù)雜多輪工具調(diào)用。想象一下你讓智能體去查數(shù)據(jù)庫和調(diào)API,然后根據(jù)結(jié)果再?zèng)Q定下一步操作,中間可能要來回用好幾個(gè)工具。Opus 4.7在該測試中得分77.3%,領(lǐng)先GPT-5.4的68.1%和Gemini 3.1 Pro的73.9%。如果你在構(gòu)建需要路由到多個(gè)工具的業(yè)務(wù)編排智能體,這個(gè)數(shù)字最為關(guān)鍵。
![]()
Augmentcode聯(lián)合創(chuàng)始人伊戈?duì)枴W斯特羅夫斯基(Igor Ostrovsky)提到,Opus 4.7不光原始能力強(qiáng),處理現(xiàn)實(shí)世界的異步工作流、自動(dòng)化、CI/CD和長期任務(wù)都表現(xiàn)出色。而且模型思考更深且會(huì)帶來更有主見的觀點(diǎn),而不是光順著用戶的意思走。
![]()
在計(jì)算機(jī)操作測試OSWorld-Verified中,模型要跟真實(shí)桌面軟件交互,包括點(diǎn)擊按鈕、填表單以及在GUI環(huán)境里完成任務(wù)。Opus 4.7拿了78.0%,比Opus 4.6的72.7%高了5個(gè)多點(diǎn),也比GPT-5.4的75.0%強(qiáng)。再結(jié)合圖像分辨率的三倍提升,那些需要讀取密集UI界面或者看懂截圖的自動(dòng)化腳本能力會(huì)有明顯改善。
![]()
財(cái)務(wù)分析方面,F(xiàn)inance Agent v1.1測試多步財(cái)務(wù)任務(wù),包含做財(cái)務(wù)模型、生成專業(yè)演示文稿、規(guī)劃投資策略。Opus 4.7得分64.4%,領(lǐng)先GPT-5.4 Pro的61.5%和Gemini 3.1 Pro的59.7%。Anthropic還提到Opus 4.7在GDPval-AA這個(gè)跨金融、法律和專業(yè)領(lǐng)域的知識(shí)工作評(píng)估上也是領(lǐng)先的。
![]()
但有一個(gè)地方確確實(shí)實(shí)翻車了。
在智能體搜索測試BrowseComp中,模型要做多步網(wǎng)絡(luò)研究,瀏覽多個(gè)頁面、綜合信息并跨頁面推理。Opus 4.7得分79.3%,反而比Opus 4.6的83.7%低了4.4個(gè)百分點(diǎn)。GPT-5.4 Pro在這個(gè)測試上拿了89.3%,Gemini 3.1 Pro也有85.9%。如果你的項(xiàng)目需要大量網(wǎng)絡(luò)調(diào)研和多頁面信息整合,這個(gè)退步得心里有數(shù)。Anthropic自己公布的表格里這也是唯一一個(gè)明顯倒退的指標(biāo)。
![]()
推理能力上,GPQA Diamond測試物理、化學(xué)、生物學(xué)領(lǐng)域的博士級(jí)別推理。這個(gè)測試現(xiàn)在快飽和了,所有前沿模型都擠在91%到95%之間。Opus 4.7得分94.2%,和GPT-5.4 Pro的94.4%、Gemini 3.1 Pro的94.3%基本持平,比Opus 4.6的91.3%有提升。大家其實(shí)已經(jīng)拉不開差距了。
![]()
Humanity's Last Exam是目前最難的多模態(tài)推理測試,考的是人類知識(shí)前沿的問題。Opus 4.7在不使用工具的情況下得分46.9%,使用工具得分增至54.7%。而Opus 4.6使用工具時(shí)得分53.3%,所以有進(jìn)步但不大。Mythos Preview使用工具后得分64.7%,差距還挺明顯的。GPT-5.4 Pro得分58.7%,也比Opus 4.7高一點(diǎn)。
![]()
視覺推理CharXiv測試科學(xué)圖表解讀,這是Opus 4.7進(jìn)步最大的地方。不使用工具時(shí)從69.1%跳到82.1%,使用工具時(shí)從84.7%漲到91.0%。這直接來自分辨率的三倍提升。有早期合作伙伴測試自主滲透測試的計(jì)算機(jī)視覺,視覺敏銳度從54.5%直接飆到98.5%。對(duì)于那些需要讀密密麻麻的截圖、技術(shù)圖紙、數(shù)據(jù)圖表的應(yīng)用來說,這個(gè)提升是實(shí)實(shí)在在的。
![]()
多語言問答MMMLU上,Opus 4.7得分91.5%,比Opus 4.6的91.1%稍高,但Gemini 3.1 Pro的92.6%依然領(lǐng)先。如果你主要做非英語的問答任務(wù),Gemini可能更合適。
安全和對(duì)齊方面,Opus 4.7是第一個(gè)搭載生產(chǎn)級(jí)網(wǎng)絡(luò)安全保障措施的Opus模型。Anthropic的自動(dòng)化行為審計(jì)顯示,整體不對(duì)齊行為比Opus 4.6有適度改進(jìn),誠實(shí)性和抵抗提示詞注入攻擊的能力提高了,但在給管制物質(zhì)提供過度詳細(xì)的減害建議方面有一點(diǎn)點(diǎn)退步。
彭博社報(bào)道稱,Opus 4.7實(shí)際上是一個(gè)被刻意削弱了網(wǎng)絡(luò)安全能力的版本并自帶“安全枷鎖”。Anthropic在訓(xùn)練過程中專門實(shí)驗(yàn)了如何“差異化降低”模型的網(wǎng)絡(luò)安全能力,并加入了自動(dòng)檢測和攔截高風(fēng)險(xiǎn)網(wǎng)絡(luò)安全請(qǐng)求的機(jī)制。
![]()
Anthropic也表示:“我們從這些保障措施的現(xiàn)實(shí)部署中學(xué)到的東西,將幫助我們最終實(shí)現(xiàn)廣泛發(fā)布Mythos級(jí)別模型的目標(biāo)。”
Anthropic自己的評(píng)估是大體上對(duì)齊良好且值得信賴,雖然行為還沒完全理想。Mythos Preview仍然是Anthropic訓(xùn)練過的對(duì)齊最好的模型,Opus 4.7就是個(gè)橋梁,先在這上面測試安全機(jī)制以后再推廣到Mythos級(jí)別。
02 API規(guī)則收緊了,老用戶得做遷移
這次升級(jí)不是換個(gè)模型名字就能直接用的。Anthropic收緊了好幾處API行為,現(xiàn)有團(tuán)隊(duì)得做遷移工作。
首先擴(kuò)展思考預(yù)算被移除了。以前你可以給模型設(shè)定一個(gè)固定的思考token預(yù)算現(xiàn)在不行了。如果你還在請(qǐng)求里發(fā)budget_tokens參數(shù),API會(huì)返回400錯(cuò)誤。采樣行為也更嚴(yán)格了,非默認(rèn)的temperature、top_p、top_k值都會(huì)被拒絕,同樣返回400錯(cuò)誤。這意味著你不能簡單地把模型名字從opus-4-6改成opus-4-7就完事,請(qǐng)求模板、內(nèi)部預(yù)設(shè)、測試預(yù)期都得重新過一遍。
其次推理內(nèi)容的可見性變了。思考內(nèi)容默認(rèn)是被省略的,除非調(diào)用者主動(dòng)要求看摘要版。這對(duì)于那些已經(jīng)習(xí)慣在調(diào)試時(shí)直接看模型推理過程的團(tuán)隊(duì)來說是個(gè)不小的改動(dòng),你用來監(jiān)控模型行為的那套工具可能需要調(diào)整。
第三Opus 4.7用了新的tokenizer,同樣一段輸入內(nèi)容,現(xiàn)在消耗的token數(shù)量比以前多出0%到35%不等,具體取決于內(nèi)容類型。這可不是小事情。更長的提示詞、反復(fù)跑的智能體循環(huán)、帶了很多圖片的輸入,可能比預(yù)期更快觸及成本上限或者截?cái)嚅撝怠nthropic自己建議在遷移生產(chǎn)工作負(fù)載之前,先在實(shí)際流量上測一下token影響。
好消息是任務(wù)預(yù)算功能在公開測試版里上線了。你可以給智能體設(shè)置一個(gè)token支出的硬性上限,最低2萬個(gè)token起。這樣長時(shí)間運(yùn)行的調(diào)試會(huì)話就不會(huì)突然給你一張嚇人的賬單。
還有一點(diǎn),Opus 4.7支持100萬token的上下文窗口,用的是標(biāo)準(zhǔn)API定價(jià)且不用額外付長上下文溢價(jià)。這點(diǎn)對(duì)需要處理大代碼庫或者長文檔的團(tuán)隊(duì)很友好。
03用新模型得換套路:別跟它閑聊并直接下指令
Claude Code負(fù)責(zé)人鮑里斯·切爾尼(Boris Cherny)親自寫了一篇最佳實(shí)踐指南。核心意思是用Opus 4.7你得換一套打法。
![]()
首先Opus 4.7不再支持固定預(yù)算的擴(kuò)展思考,改用自適應(yīng)思考。也就是說模型自己判斷什么時(shí)候需要多想以及什么時(shí)候可以快速回應(yīng)。好處是簡單問題響應(yīng)快,壞處是它可能低估某些任務(wù)的難度。
沃頓商學(xué)院教授伊森·莫利克(Ethan Mollick)就遇到了這個(gè)問題。他說模型經(jīng)常覺得非數(shù)學(xué)非代碼的內(nèi)容是低努力任務(wù),然后就產(chǎn)出更差的結(jié)果。在分析、寫作或研究任務(wù)上,模型基本上很少啟動(dòng)深度思考,這意味著工具和網(wǎng)絡(luò)搜索也不怎么用。
莫利克還抱怨說雖然還沒測完所有東西,但經(jīng)常發(fā)現(xiàn)對(duì)于這類用例,答案質(zhì)量比Opus 4.6的擴(kuò)展思考模式還低。更讓他不滿的是在Claude Code里能設(shè)置思考級(jí)別但在Claude Cowork里不能。他最后懟了一句,AI公司好像總覺得編碼和技術(shù)工作是唯一重要的智力工作,但實(shí)際上根本不是這樣。
![]()
切爾尼在指南里給了一個(gè)解決辦法。如果你想要模型多思考,就在提示詞里明確說這個(gè)問題比看起來難且仔細(xì)一步步想。如果你想要它快點(diǎn)回應(yīng)少想點(diǎn),就說優(yōu)先快速回應(yīng)且有疑問時(shí)直接答。這樣能省token但難的步驟上可能會(huì)丟失一點(diǎn)準(zhǔn)確度。
其次Claude Code里默認(rèn)努力級(jí)別改成了xhigh。這是新加的一個(gè)檔位,介于high和max之間。官方推薦大多數(shù)編碼任務(wù)用xhigh就夠了,因?yàn)閙ax雖然分?jǐn)?shù)更高但收益遞減還容易過度思考。低和中等努力級(jí)別留給對(duì)成本或延遲敏感的任務(wù)。如果你已經(jīng)是Claude Code用戶但沒手動(dòng)改過設(shè)置會(huì)自動(dòng)升級(jí)到xhigh。切爾尼建議大家試試不同檔位,不要直接把舊設(shè)置搬過來。
第三也是最重要的,跟Opus 4.7說話要直接。它不再像舊模型那樣會(huì)揣摩你的意思而是嚴(yán)格執(zhí)行你給出的指令。以前那種比較隨意且靠模型自己腦補(bǔ)的提示詞現(xiàn)在可能會(huì)翻車。官方建議第一次輪次就把任務(wù)說清楚,包括意圖、限制條件、驗(yàn)收標(biāo)準(zhǔn)、相關(guān)文件位置必須全給齊。而且要減少來回對(duì)話,每多一輪用戶交互就多一輪推理開銷。
能用自動(dòng)模式的就用。Claude Code Max用戶按Shift加Tab就能開自動(dòng)模式,模型不用每步都問你我可以這樣做嗎。對(duì)于你已經(jīng)把上下文都給全了的長期任務(wù)這個(gè)模式特別合適。切爾尼還教了一招,讓Claude完成任務(wù)時(shí)自己放個(gè)聲音通知你,它能自己創(chuàng)建基于hook的通知。
第四模型默認(rèn)行為有變化。響應(yīng)長度會(huì)跟任務(wù)復(fù)雜度匹配,簡單查個(gè)東西不會(huì)像以前那樣啰嗦一堆。切爾尼說如果你對(duì)長度或風(fēng)格有特定要求,在提示詞里明確寫出來,而且給正面例子比給“不要這樣做”的負(fù)面指令效果更好。
模型調(diào)用工具的頻率降低了且更傾向于自己先推理。這在很多情況下效果更好。但如果你確實(shí)希望模型更積極用工具,比如在智能體工作中更主動(dòng)搜索或讀文件,那就得在提示詞里明確說清楚什么時(shí)候以及為什么該用工具。
默認(rèn)生成的子智能體也更少。Opus 4.7在決定是否把工作分給子智能體時(shí)更謹(jǐn)慎。如果你確實(shí)需要并行處理多個(gè)文件或任務(wù)得明確告訴它。切爾尼給了一個(gè)示例提示詞,明確要求不要為你自己能在單次回復(fù)里直接完成的工作生成子智能體,但在跨項(xiàng)目扇出或者讀多個(gè)文件的時(shí)候需要在同一輪里生成多個(gè)子智能體。
切爾尼最后總結(jié)說,Opus 4.7在長時(shí)間運(yùn)行的任務(wù)上比之前的模型表現(xiàn)好很多,特別適合那些以前人工監(jiān)督是瓶頸的任務(wù),比如復(fù)雜的多文件改動(dòng)、說不清楚的調(diào)試問題、跨服務(wù)的代碼審查、多步驟的智能體任務(wù)。他建議把努力級(jí)別保持xhigh并先看看第一輪能跑多遠(yuǎn)。
Replit總裁米歇爾·卡塔斯塔(Michele Catasta)也印證了這一點(diǎn)。他說在日志分析和找bug這類任務(wù)上,Opus 4.7用更低的成本實(shí)現(xiàn)了更高的質(zhì)量且感覺像個(gè)更好的同事。Notion的AI負(fù)責(zé)人莎拉·薩克斯(Sarah Sachs)給出了具體數(shù)據(jù),多步驟工作流改進(jìn)了14%,工具調(diào)用錯(cuò)誤少了66%,智能體現(xiàn)在像個(gè)真正的隊(duì)友了。
![]()
但也有不同的聲音。
爆料大神草莓哥@iruletheworldmo直接潑了冷水。他說Opus 4.7的改進(jìn)不算太大,遠(yuǎn)遠(yuǎn)比不上OpenAI即將推出的東西。他拿產(chǎn)品線做對(duì)比指出,如果看實(shí)驗(yàn)室發(fā)布的產(chǎn)品和功能數(shù)量,Anthropic可能因?yàn)榘l(fā)得多顯得領(lǐng)先,但要比質(zhì)量的話Codex遠(yuǎn)遠(yuǎn)領(lǐng)先于新的Claude Code桌面產(chǎn)品,而新的超級(jí)應(yīng)用比這個(gè)好十倍。他斷言O(shè)penAI將會(huì)拉開差距。
![]()
04企業(yè)要不要升級(jí):看你是干活還是查資料
對(duì)于企業(yè)來說,Opus 4.7標(biāo)志著AI從創(chuàng)意助手轉(zhuǎn)向可靠操作員。但這不是所有場景的通吃。
數(shù)據(jù)標(biāo)注公司Cognition的CEO Scott Wu說,Opus 4.7能連貫工作好幾個(gè)小時(shí),以前讓模型卡住的難題它能硬啃下來。AI法律平臺(tái)Harvey的應(yīng)用研究負(fù)責(zé)人尼科·格魯彭(Niko Grupen)提到,模型在BigLaw Bench上得了90.9%,處理模糊的文檔編輯任務(wù)明顯更聰明了。
![]()
但如果你的團(tuán)隊(duì)在構(gòu)建智能體或者復(fù)雜軟件系統(tǒng),這次升級(jí)很值得。核心價(jià)值是模型的新能力,它不再只是生成一個(gè)答案而是在回答之前自己先驗(yàn)證一下這個(gè)答案對(duì)不對(duì)。這種可靠性對(duì)于長期工程任務(wù)很關(guān)鍵,因?yàn)槿肆ΡO(jiān)督的成本在那里擺著。
但如果你現(xiàn)在的工作流里Opus 4.6跑得好好的,有幾類情況可以先不著急換。
一是你的智能體嚴(yán)重依賴深度網(wǎng)絡(luò)研究和多頁面信息整合。BrowseComp那4.4個(gè)點(diǎn)的退步是真實(shí)的,GPT-5.4 Pro或者Gemini 3.1 Pro在這類任務(wù)上更合適。
二是你已經(jīng)為Opus 4.6的行為精細(xì)調(diào)過提示詞。Anthropic特別提醒,Opus 4.7改進(jìn)的指令遵循意味著它會(huì)比你預(yù)期得更字面地理解指令。依賴舊模型寬松解釋或者習(xí)慣性跳過某些指令的提示詞可能會(huì)出奇怪的結(jié)果。官方建議在切生產(chǎn)流量之前先在代表性樣本上重新測試。
三是你的token預(yù)算卡得比較緊。Opus 4.7的新tokenizer會(huì)讓同樣輸入消耗更多token,而且它在更高努力級(jí)別下會(huì)思考更多。建議在實(shí)際流量上先測一下影響再?zèng)Q定。
從Opus 4.6整體遷移過來得謹(jǐn)慎。分階段推出加重新調(diào)優(yōu)是比較穩(wěn)妥的做法。特別是那些提示詞比較脆弱且利潤空間又薄的遺留應(yīng)用更得小心。
另外還有一個(gè)背景信息。Anthropic目前正跟美國國防部打官司。后者把Anthropic列為“供應(yīng)鏈風(fēng)險(xiǎn)”,因?yàn)锳nthropic拒絕讓模型用于大規(guī)模監(jiān)控或完全自主的致命武器。雖然舊金山法官最初阻止了這個(gè)認(rèn)定,但聯(lián)邦上訴小組最近駁回了Anthropic的中止請(qǐng)求。
與此同時(shí),之前一些忠實(shí)用戶抱怨Opus 4.6和Claude Code產(chǎn)品被悄悄降智,說最近的版本更容易陷入探索循環(huán)、記不住東西并忽略指令。有人直接說Claude Code桌面應(yīng)用十分粗糙,配不上一個(gè)快萬億美元估值的公司。Opus 4.7某種程度上也是Anthropic對(duì)這些批評(píng)的回應(yīng)。
財(cái)務(wù)上Anthropic的發(fā)展倒是很猛。最新估值3800億美元,而且有報(bào)道說投資機(jī)構(gòu)正在給出約8000億美元的新一輪融資報(bào)價(jià)。公司年化營收已經(jīng)沖到300億美元,主要靠企業(yè)客戶和Claude Code帶動(dòng)。
結(jié)語
最后總結(jié)一下。
Opus 4.7是一個(gè)有紀(jì)律性的模型,它不追求在所有任務(wù)上都得第一,而是在編碼、工具使用、視覺理解這些實(shí)際干活的能力上做深。Anthropic通過允許用戶控制努力程度、設(shè)定預(yù)算并驗(yàn)證輸出,正朝著自主數(shù)字勞動(dòng)力的目標(biāo)靠近。
但這不是一個(gè)無腦升級(jí)的版本。它的API變了且老代碼得改。它的提示詞邏輯變了且以前能用的模板可能要重調(diào)。它在網(wǎng)絡(luò)搜索上退步了,如果你主要做研究類任務(wù)反而體驗(yàn)會(huì)下降。而且真正的頂尖模型Mythos還在后面藏著,Opus 4.7只是那個(gè)能公開賣的版本。
對(duì)于Replit、Notion、Shopify這些公司的工程團(tuán)隊(duì)來說,從看著AI干活到管理AI結(jié)果的轉(zhuǎn)變已經(jīng)開始了。Opus 4.7能不能接住這個(gè)期待,得看它在你自己的真實(shí)任務(wù)上跑得怎么樣。
