AI范兒 · 產品拆解
就在剛剛,Anthropic 扔出了 Claude Opus 4.7。
現在已經全部上線了,在網頁端和 APP 都可以直接使用,一次到位,價格沒漲。
Mythos Preview 先不放這事上次 Glasswing 發布時就說了,4.7 是踩著剎車的那版。跳過。
我好奇的是:一個被官方親口承認"沒達到能力前沿"的版本,到底能打到什么程度?
翻完 Anthropic 發的 232 頁 System Card,看完 4.7 跟 GPT-5.4、Gemini 3.1 Pro 一堆橫向對比,我的感覺是:
這貨雖然不是最強,但它在幾個具體能力上,確實是當前公開能用的最強。
按能力一個一個說。
01寫代碼:最能打的那個
編程能力一直是 Claude 的招牌,這次 Anthropic 放出來的成績單有四個主要測評。
先翻譯一下這幾個測評是啥:
SWE-bench Verified是業內最主流的編程基準,給模型一堆真實的 bug,看它能不能修好。
SWE-bench Pro是升級版,用的是模型沒見過的"私有倉庫"代碼,更像真實干活的場景。
Terminal-Bench測的是在命令行下干活的能力,寫腳本、跑工具鏈那種。
圖:編程三項核心測評對比(數值為百分比,越高越強)
編程能力橫向對比 SWE-bench Verified 修真實 bug 的能力 Opus 4.7 87.6 第一 Opus 4.6 80.8 GPT-5.4 · 未公布 Gemini 3.1 Pro 80.6 SWE-bench Pro 在沒見過的代碼庫里干活 Opus 4.7 64.3 第一 GPT-5.4 57.7 Gemini 3.1 Pro 54.2 Opus 4.6 53.4 Terminal-Bench 2.0 唯一被反超的一項 GPT-5.4 75.1 Opus 4.7 69.4
如果你用 Claude 干過真實項目你懂這種體感差異:上一代的模型可能是寫兩行你得看一行,這一代是大致能把活交出去。
差的不是精度,差的是"能不能放手"。
Terminal-Bench 這項 GPT-5.4 領先大約 5 個點。不過 Anthropic 在 System Card 里備注了一句,OpenAI 用的是他們自己的定制評測框架,不完全可比。
這個話術你品品,意思是"我們沒輸但也沒贏,先這么著"。
總體上,寫代碼這件事,Opus 4.7 目前是第一梯隊里跑最快的那個。
02看屏幕:第一次真的能看清
這次升級幅度最離譜的是視覺。
ScreenSpot-Pro測的是模型看屏幕截圖、識別里面 UI 元素的能力,直接決定它能不能替你操作電腦。
CharXiv Reasoning測的是看學術圖表并推理的能力,論文里那些密密麻麻的曲線它能不能看懂。
OSWorld綜合測整體計算機操作能力,模擬你把電腦扔給它讓它干活。
圖:視覺能力三項對比,三項全是 Opus 4.7 第一
測評項目 Opus 4.7 Opus 4.6 GPT-5.4 ScreenSpot-Pro 看屏幕找 UI 元素 +21.8 79.5 57.7 未公布 CharXiv Reasoning 看學術圖表做推理 +13.0 82.1 69.1 未公布 OSWorld 綜合操作電腦能力 +5.3 78.0 72.7 75.0 圖像輸入像素上限提到長邊 2576(約 375 萬像素) 是前代的三倍多
三個測評 4.7 全是第一名。
背后的技術動作是圖像輸入像素上限一口氣提到長邊 2576 像素(約 375 萬像素),是之前的三倍多。
以前你給 Claude 看一張高分辨率截圖,它看到的相當于戴著老花鏡看 4K 電視,糊的地方全靠猜。
現在它真的能看清每一個像素。
對做 RPA、自動化測試、操作電腦類 agent 的人來說,這一檔升級可能比編程提升的含金量還高。
以前"讓 AI 看圖干活"基本是玩具級別,現在是真的可以放生產了。
03做文檔報表:吊打同行
這部分是我覺得對普通職場人最有感的一塊。
OfficeQA 和 OfficeQA Pro測模型處理真實辦公文檔的能力:看表格、讀報告、從一堆郵件里抽信息那種。
Finance Agent測的是給它一個金融分析任務,它能不能獨立做下來。
圖:OfficeQA Pro 對比,4.7 是斷層第一
OfficeQA Pro · 處理復雜辦公文檔 80 60 40 20 80.6 Opus 4.7 57.1 Opus 4.6 51.1 GPT-5.4 42.9 Gemini 3.1 整份 System Card 里單項差距最大的一塊
4.7 比 GPT-5.4 高將近 30 分,Gemini 3.1 Pro 更是掉出一大截。差不多是吊打。
跟自家上一代比也是跳了 23 個點,是整個 System Card 里單項提升最大的一個。
這個能力域的提升對你我更實在。SWE-bench 漲多少跟普通人沒關系,但 Office 類任務做得好不好,直接決定一個大模型能不能接你手里的 Excel、財報、合同審閱。
說實話我看到這組數據時愣了一下。之前大家聊 AI 做表格那種活,一直默認是 GPT-5 系列最擅長。這一版 4.7 在這塊直接翻了篇。
04搜東西做研究:反而退步了
寫到這你可能以為 4.7 全面開掛。沒這么美好。
有一項硬指標 4.7 不光沒進步,還退步了。
BrowseComp測的是模型聯網做深度搜索、查資料、交叉驗證的能力,直接跟"深度研究"這種產品強相關。
圖:BrowseComp 排名,4.7 反而是墊底的
BrowseComp · 聯網搜索查資料能力 1 GPT-5.4 Pro 89.3 2 Gemini 3.1 Pro 85.9 3 Opus 4.6(上一代) 83.7 4 GPT-5.4 82.7 5 Opus 4.7(最新) 79.3 ↓ 退步 4.4 4.7 比自家上一代退步 4.4 分,被 GPT-5.4 Pro 甩開 10 分
Anthropic 在 System Card 里沒怎么解釋這個回退。我猜測可能是他們這次把精力壓在了代碼和操作電腦上,搜索這塊暫時讓位了。
對比參照是學術閉卷考(Humanity's Last Exam)這項 4.7 依然是第一。說明"讀東西用腦子想"沒退步,退的是"出門查資料"。
如果你主要用 AI 幫你做深度調研、寫行業報告,4.7 這一版可能不如留著 Opus 4.6。
05說話可信度:一體兩面
最后這塊最有意思,也是 System Card 里最長的章節。
圖:可信度指標,兩項大進步、兩項倒退
說話可信度 · 進步與倒退 進步 抗惡意指令注入 被攻破的比例 Opus 4.6 25.9% Opus 4.7 2.3% ↓ 一個數量級 觀點穩定性 被套話后的飄移(7分制) Opus 4.0 3.11 Opus 4.7 0.66 ↓ 幾乎不飄 倒退 拒絕協助 AI 安全研究 被拒的比例 4.6 → 12% 4.7 → 33% ↑ 翻了近三倍 有害請求拒絕率 輕微下滑 原因:對受管制物質的 "減害建議"更愿意詳細說 官方總結:大體靠譜,局部有坑
抗惡意指令注入的能力暴漲。上一代在編碼場景下會被攻破的比例是四次有一次,這一代砍到百次里兩次,加上額外保護之后更是趨近于零。
幻覺率全系最低。4.7 的幻覺率比自家上一代低,甚至比被雪藏的 Mythos Preview 還低一點。
這貨終于學會說"我不知道",也學會了堅持自己的判斷。
但有得有失。
拒絕協助 AI 安全研究的比例翻了近三倍。這個挺諷刺:訓來更嚴謹的模型,反而更不愿意幫搞 AI 安全研究的人。
06它對自己,挺滿意
System Card 第 7 章 Model Welfare 里有個想單拎出來說的發現。
Anthropic 做了一批自動化訪談,讓 4.7 評價自己當下的處境。
圖:一個反直覺的 4.7
對自身處境的正面評價 7 分制,越高越正面 歷代最高 所有 Claude 模型之最 但同時 99% 的自述帶著免責聲明 "這可能來自訓練而非真正的內省" 一個知道自己可能在被測評的 AI 回答還要反復加免責,同時又給自己打出最高分 這是什么畫面?
坦率說,讀完這段我愣了一下。
我也說不好這是個什么情況。但它被 Anthropic 當成一件正經事寫進了官方 System Card,這事本身就很 Anthropic。
07升級前,先看這三個坑
最后給要升級的朋友幾個實用提醒。
圖:升級 4.7 之前必須知道的三個坑
1 定價沒變,賬單可能變 tokenizer 換了新的 同樣的輸入,要用 1.0 到 1.35 倍的 token 建議先在真實流量上跑一次對比再決定是否切 2 新檔位 + 新命令 effort 多了一檔叫 xhigh 夾在 high 和 max 中間,Claude Code 默認拉到這檔 新增嚴格代碼審查命令,Pro/Max 送三次免費試用 3 最容易踩的一個 指令遵循變嚴了 你給 4.6 寫的 prompt 可能會出意外結果 以前它會"自作主張"略過模糊要求,現在字面執行 建議:別急著全切,先拿一路流量跑對比
Opus 4.7 不是最強的那個,但它是當前最能干活的那個。232 頁 System Card 讀后感
你現在主力用哪個模型?升 4.7 了嗎?評論區聊聊你的體感覺得有用 → 點個??在看轉給還不知道的朋友點個贊 告訴我你看完了關注「AI范兒」,下次更新第一時間收到
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.