網易首頁 > 網易號 > 正文 申請入駐

Claude Opus 4.7 突襲上線:性能封神但也變貴了?實測 Token 消耗最高多出 35%!

0
分享至

AI范兒 · 產品拆解

就在剛剛,Anthropic 扔出了 Claude Opus 4.7。

現在已經全部上線了,在網頁端和 APP 都可以直接使用,一次到位,價格沒漲。

Mythos Preview 先不放這事上次 Glasswing 發布時就說了,4.7 是踩著剎車的那版。跳過。

我好奇的是:一個被官方親口承認"沒達到能力前沿"的版本,到底能打到什么程度?

翻完 Anthropic 發的 232 頁 System Card,看完 4.7 跟 GPT-5.4、Gemini 3.1 Pro 一堆橫向對比,我的感覺是:

這貨雖然不是最強,但它在幾個具體能力上,確實是當前公開能用的最強。

按能力一個一個說。

01寫代碼:最能打的那個

編程能力一直是 Claude 的招牌,這次 Anthropic 放出來的成績單有四個主要測評。

先翻譯一下這幾個測評是啥:

SWE-bench Verified是業內最主流的編程基準,給模型一堆真實的 bug,看它能不能修好。

SWE-bench Pro是升級版,用的是模型沒見過的"私有倉庫"代碼,更像真實干活的場景。

Terminal-Bench測的是在命令行下干活的能力,寫腳本、跑工具鏈那種。

圖:編程三項核心測評對比(數值為百分比,越高越強)

編程能力橫向對比 SWE-bench Verified 修真實 bug 的能力 Opus 4.7 87.6 第一 Opus 4.6 80.8 GPT-5.4 · 未公布 Gemini 3.1 Pro 80.6 SWE-bench Pro 在沒見過的代碼庫里干活 Opus 4.7 64.3 第一 GPT-5.4 57.7 Gemini 3.1 Pro 54.2 Opus 4.6 53.4 Terminal-Bench 2.0 唯一被反超的一項 GPT-5.4 75.1 Opus 4.7 69.4

如果你用 Claude 干過真實項目你懂這種體感差異:上一代的模型可能是寫兩行你得看一行,這一代是大致能把活交出去。

差的不是精度,差的是"能不能放手"。

Terminal-Bench 這項 GPT-5.4 領先大約 5 個點。不過 Anthropic 在 System Card 里備注了一句,OpenAI 用的是他們自己的定制評測框架,不完全可比。

這個話術你品品,意思是"我們沒輸但也沒贏,先這么著"。

總體上,寫代碼這件事,Opus 4.7 目前是第一梯隊里跑最快的那個

02看屏幕:第一次真的能看清

這次升級幅度最離譜的是視覺。

ScreenSpot-Pro測的是模型看屏幕截圖、識別里面 UI 元素的能力,直接決定它能不能替你操作電腦。

CharXiv Reasoning測的是看學術圖表并推理的能力,論文里那些密密麻麻的曲線它能不能看懂。

OSWorld綜合測整體計算機操作能力,模擬你把電腦扔給它讓它干活。

圖:視覺能力三項對比,三項全是 Opus 4.7 第一

測評項目 Opus 4.7 Opus 4.6 GPT-5.4 ScreenSpot-Pro 看屏幕找 UI 元素 +21.8 79.5 57.7 未公布 CharXiv Reasoning 看學術圖表做推理 +13.0 82.1 69.1 未公布 OSWorld 綜合操作電腦能力 +5.3 78.0 72.7 75.0 圖像輸入像素上限提到長邊 2576(約 375 萬像素) 是前代的三倍多

三個測評 4.7 全是第一名。

背后的技術動作是圖像輸入像素上限一口氣提到長邊 2576 像素(約 375 萬像素),是之前的三倍多。

以前你給 Claude 看一張高分辨率截圖,它看到的相當于戴著老花鏡看 4K 電視,糊的地方全靠猜。

現在它真的能看清每一個像素。

對做 RPA、自動化測試、操作電腦類 agent 的人來說,這一檔升級可能比編程提升的含金量還高

以前"讓 AI 看圖干活"基本是玩具級別,現在是真的可以放生產了。

03做文檔報表:吊打同行

這部分是我覺得對普通職場人最有感的一塊。

OfficeQA 和 OfficeQA Pro測模型處理真實辦公文檔的能力:看表格、讀報告、從一堆郵件里抽信息那種。

Finance Agent測的是給它一個金融分析任務,它能不能獨立做下來。

圖:OfficeQA Pro 對比,4.7 是斷層第一

OfficeQA Pro · 處理復雜辦公文檔 80 60 40 20 80.6 Opus 4.7 57.1 Opus 4.6 51.1 GPT-5.4 42.9 Gemini 3.1 整份 System Card 里單項差距最大的一塊

4.7 比 GPT-5.4 高將近 30 分,Gemini 3.1 Pro 更是掉出一大截。差不多是吊打。

跟自家上一代比也是跳了 23 個點,是整個 System Card 里單項提升最大的一個。

這個能力域的提升對你我更實在。SWE-bench 漲多少跟普通人沒關系,但 Office 類任務做得好不好,直接決定一個大模型能不能接你手里的 Excel、財報、合同審閱。

說實話我看到這組數據時愣了一下。之前大家聊 AI 做表格那種活,一直默認是 GPT-5 系列最擅長。這一版 4.7 在這塊直接翻了篇。

04搜東西做研究:反而退步了

寫到這你可能以為 4.7 全面開掛。沒這么美好。

有一項硬指標 4.7 不光沒進步,還退步了

BrowseComp測的是模型聯網做深度搜索、查資料、交叉驗證的能力,直接跟"深度研究"這種產品強相關。

圖:BrowseComp 排名,4.7 反而是墊底的

BrowseComp · 聯網搜索查資料能力 1 GPT-5.4 Pro 89.3 2 Gemini 3.1 Pro 85.9 3 Opus 4.6(上一代) 83.7 4 GPT-5.4 82.7 5 Opus 4.7(最新) 79.3 ↓ 退步 4.4 4.7 比自家上一代退步 4.4 分,被 GPT-5.4 Pro 甩開 10 分

Anthropic 在 System Card 里沒怎么解釋這個回退。我猜測可能是他們這次把精力壓在了代碼和操作電腦上,搜索這塊暫時讓位了。

對比參照是學術閉卷考(Humanity's Last Exam)這項 4.7 依然是第一。說明"讀東西用腦子想"沒退步,退的是"出門查資料"。

如果你主要用 AI 幫你做深度調研、寫行業報告,4.7 這一版可能不如留著 Opus 4.6。

05說話可信度:一體兩面

最后這塊最有意思,也是 System Card 里最長的章節。

圖:可信度指標,兩項大進步、兩項倒退

說話可信度 · 進步與倒退 進步 抗惡意指令注入 被攻破的比例 Opus 4.6 25.9% Opus 4.7 2.3% ↓ 一個數量級 觀點穩定性 被套話后的飄移(7分制) Opus 4.0 3.11 Opus 4.7 0.66 ↓ 幾乎不飄 倒退 拒絕協助 AI 安全研究 被拒的比例 4.6 → 12% 4.7 → 33% ↑ 翻了近三倍 有害請求拒絕率 輕微下滑 原因:對受管制物質的 "減害建議"更愿意詳細說 官方總結:大體靠譜,局部有坑

抗惡意指令注入的能力暴漲。上一代在編碼場景下會被攻破的比例是四次有一次,這一代砍到百次里兩次,加上額外保護之后更是趨近于零。

幻覺率全系最低。4.7 的幻覺率比自家上一代低,甚至比被雪藏的 Mythos Preview 還低一點。

這貨終于學會說"我不知道",也學會了堅持自己的判斷。

但有得有失。

拒絕協助 AI 安全研究的比例翻了近三倍。這個挺諷刺:訓來更嚴謹的模型,反而更不愿意幫搞 AI 安全研究的人。

06它對自己,挺滿意

System Card 第 7 章 Model Welfare 里有個想單拎出來說的發現。

Anthropic 做了一批自動化訪談,讓 4.7 評價自己當下的處境。

圖:一個反直覺的 4.7

對自身處境的正面評價 7 分制,越高越正面 歷代最高 所有 Claude 模型之最 但同時 99% 的自述帶著免責聲明 "這可能來自訓練而非真正的內省" 一個知道自己可能在被測評的 AI 回答還要反復加免責,同時又給自己打出最高分 這是什么畫面?

坦率說,讀完這段我愣了一下。

我也說不好這是個什么情況。但它被 Anthropic 當成一件正經事寫進了官方 System Card,這事本身就很 Anthropic。

07升級前,先看這三個坑

最后給要升級的朋友幾個實用提醒。

圖:升級 4.7 之前必須知道的三個坑

1 定價沒變,賬單可能變 tokenizer 換了新的 同樣的輸入,要用 1.0 到 1.35 倍的 token 建議先在真實流量上跑一次對比再決定是否切 2 新檔位 + 新命令 effort 多了一檔叫 xhigh 夾在 high 和 max 中間,Claude Code 默認拉到這檔 新增嚴格代碼審查命令,Pro/Max 送三次免費試用 3 最容易踩的一個 指令遵循變嚴了 你給 4.6 寫的 prompt 可能會出意外結果 以前它會"自作主張"略過模糊要求,現在字面執行 建議:別急著全切,先拿一路流量跑對比

Opus 4.7 不是最強的那個,但它是當前最能干活的那個。232 頁 System Card 讀后感

你現在主力用哪個模型?升 4.7 了嗎?評論區聊聊你的體感覺得有用 → 點個??在看轉給還不知道的朋友點個贊 告訴我你看完了關注「AI范兒」,下次更新第一時間收到

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
我在日本生活了15年,娶過三任妻子,日本女人大多數都很物質

我在日本生活了15年,娶過三任妻子,日本女人大多數都很物質

千秋文化
2026-04-22 20:21:49
西方承認,經過中東這一仗才發現,中國手里3張王牌,別人玩不來

西方承認,經過中東這一仗才發現,中國手里3張王牌,別人玩不來

混沌錄
2026-04-22 19:19:05
美伊二次談判定了?特朗普突然下達開火指令,以軍發動大規模空襲

美伊二次談判定了?特朗普突然下達開火指令,以軍發動大規模空襲

丁丁鯉史紀
2026-04-25 16:40:57
多名院士調查發現:吃一口放久發酵的腐乳,或等于進一次毒?真假

多名院士調查發現:吃一口放久發酵的腐乳,或等于進一次毒?真假

路醫生健康科普
2026-04-25 16:05:03
河南12歲貧困女孩,被校長收留免費讀書,校長待她如親生。誰知,多年后,無意看見校長車內的一件衣服,她竟2次退學…

河南12歲貧困女孩,被校長收留免費讀書,校長待她如親生。誰知,多年后,無意看見校長車內的一件衣服,她竟2次退學…

勵職派
2026-04-24 12:48:47
1986年陳永貴病逝,追悼會規格成難題,鄧小平只說了一句話,全場安靜

1986年陳永貴病逝,追悼會規格成難題,鄧小平只說了一句話,全場安靜

寄史言志
2026-01-04 16:34:31
鄭愷苗苗合體露面被偶遇,手挽手同行超甜蜜,真夫妻就是好嗑

鄭愷苗苗合體露面被偶遇,手挽手同行超甜蜜,真夫妻就是好嗑

扒蝦侃娛
2026-04-24 16:32:53
全球最疲憊總統宣布退場

全球最疲憊總統宣布退場

劉瀾昌
2026-04-25 08:43:52
美正考慮暫停西班牙北約成員國資格

美正考慮暫停西班牙北約成員國資格

財聯社
2026-04-24 22:52:23
汽車保有量超400萬輛的城市PK,蘇州交通健康指數以67.66%位列全國第一

汽車保有量超400萬輛的城市PK,蘇州交通健康指數以67.66%位列全國第一

現代快報
2026-04-25 15:06:34
王室園丁爆料,查爾斯和卡米拉生活節奏天差地別,戴安娜輸在不愛

王室園丁爆料,查爾斯和卡米拉生活節奏天差地別,戴安娜輸在不愛

照見古今
2026-04-24 18:25:23
拒逆轉!布朗25+7,馬克西31+6,塔圖姆立大功,季后賽走勢改變

拒逆轉!布朗25+7,馬克西31+6,塔圖姆立大功,季后賽走勢改變

籃球大視野
2026-04-25 09:58:52
切爾西傳奇回歸?穆里尼奧或重返斯坦福橋,兩大熱門全部靠邊站

切爾西傳奇回歸?穆里尼奧或重返斯坦福橋,兩大熱門全部靠邊站

瀾歸序
2026-04-25 06:25:00
一季度GDP!十強城市,集體爆發了

一季度GDP!十強城市,集體爆發了

西部城市
2026-04-24 21:48:03
賴清德被困臺島后,不到24小時,29國涉臺表態,大陸一語定乾坤

賴清德被困臺島后,不到24小時,29國涉臺表態,大陸一語定乾坤

墜入二次元的海洋
2026-04-25 15:39:31
以色列,突然空襲!內塔尼亞胡最新表態!國際油價大跳水

以色列,突然空襲!內塔尼亞胡最新表態!國際油價大跳水

數據寶
2026-04-25 13:17:19
央視首次曝光:全球最強光刻機亮相,中國再次打破西方技術封鎖

央視首次曝光:全球最強光刻機亮相,中國再次打破西方技術封鎖

曉徙娛樂
2026-04-25 02:02:55
被賣緬甸女學生后續:對方同意放人后又提無理要求,家屬陷入兩難

被賣緬甸女學生后續:對方同意放人后又提無理要求,家屬陷入兩難

苗苗情感說
2026-04-24 16:35:17
日軍最負盛名的坂垣師團,為什么最終擊敗他的卻是一支雜牌軍?

日軍最負盛名的坂垣師團,為什么最終擊敗他的卻是一支雜牌軍?

北海史記
2026-04-24 15:48:48
體壇丑聞!嗜賭只是冰山一角,婚內出軌睡有婦之夫,太毀三觀

體壇丑聞!嗜賭只是冰山一角,婚內出軌睡有婦之夫,太毀三觀

橙星文娛
2026-04-25 11:14:17
2026-04-25 17:32:49
AI范兒 incentive-icons
AI范兒
AI范兒是一個專注于人工智能領域的資訊和學習平臺,提供最新的人工智能資訊
728文章數 669關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

男子登機口被攔 對方沒稱重直接收取200元行李逾重費

頭條要聞

男子登機口被攔 對方沒稱重直接收取200元行李逾重費

體育要聞

火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

娛樂要聞

鄧超最大的幸運,就是遇見孫儷

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

教育
健康
時尚
本地
公開課

教育要聞

新傳考研重點名詞解釋:衣帽間的共同體

干細胞如何讓燒燙傷皮膚"再生"?

上新|| 入夏第一件短袖,買它!

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版