網易首頁 > 網易號 > 正文申請入駐

Opus 4.8 發布，但最值錢的升級不在跑分榜上

2026-05-29 07:54:02　來源: AI范兒

上海舉報

分享至

AI范兒 · 產品拆解? 6 分鐘

AI 圈這兩周太消停了，都沒啥新東西發布，所以這兩周我基本上也沒寫什么。

但昨天晚上就看到 X 上說 Claude Opus 要發 4.8，沒想到一早起來真的發布了。

這確實很讓我意外。距離 Opus 4.7 發布也就一個月多一點點，這么短的時間內又發一個新版本，Anthropic 還是太強了。

然后我的時間線同時蹦出兩條消息：Mythos 級模型會在未來幾個星期之內，向所有客戶推出。Anthropic 在 H 輪融資里融了 650 億美元，融完估值將近一萬億（具體是 9650 億美元）。

這家公司著實瘋了。

言歸正傳，這次的 Opus 4.8 到底咋樣，一起來看看。

01先看參數：唯一輸的那項

老規矩，先看跑分對比。

這樣的跑分我們已經看膩了，基本上肯定是新模型在各維度領先市面上其他模型，這次也不例外。

不過我看到有網友嘲笑 Anthropic，把 GPT-5.5 放進來一起對比，這下全世界都知道 GPT-5.5 的編碼能力跟 Opus 有得一比了。

事實也是如此，最近已經不少朋友從 Claude Code 遷到了 Codex。

這里確實有一項指標，居然比 GPT-5.5 差，那就是Terminal-Bench 2.1，它代表啥？

簡單說，它是一個衡量 AI 在真實命令行環境里獨立完成任務能力的評測基準。把 AI 丟進一個真實的 Linux 終端，給它一堆只能靠敲命令解決的活兒，看它能不能自己搞定。

活兒都是終端原生的：編譯代碼、配置環境、調試報錯、跑腳本、修系統問題這類。AI 要像個工程師一樣自己敲命令、看輸出、再決定下一步，不是答個題就行。

它考的是 agentic（智能體）能力，也就是自主多步操作。一個任務往往要幾十步，中間出錯還得自己排查糾正，而不是一次問答。分數越高，越能當那個「會自己動手的命令行助手」。

有意思的地方來了。Opus 4.8 在這項上從 4.7 的 66.1% 漲到了 74.6%，漲了 8.5 個點，是它這次所有項目里漲幅最大的一項。

漲了這么多，結果還是輸了。GPT-5.5 在同一項上是 78.2%。

4.7 → 4.8 漲幅榜（部分項目） Terminal-Bench 2.1 +8.5 66.1 → 74.6 SWE-bench Pro +4.9 64.3 → 69.2 Finance Agent v2 +2.4 SWE-bench Verified +1.0 已近天花板注：Terminal-Bench 漲幅最大，卻仍輸給 GPT-5.5（78.2%）

▲ 圖：4.7 到 4.8 進步最猛的，恰恰是那項輸掉的

一家公司發新模型還主動把自己輸的那項標出來，這事兒本身就挺 Anthropic 的。畢竟在 AI 圈，能承認自己有項目打不過對手，比模型本身聰明還稀罕。

02會說「我不確定」的模型

但跑分這點事，看完也就看完了。這次發布稿里花了最大篇幅講的，其實是一個你在跑分表上根本看不到的東西：誠實。

這事得從 AI 的一個老毛病說起。

所有大模型都有一個通病：愛給自己臉上貼金。你讓它寫段代碼、做個分析，它經常一臉自信地告訴你「搞定了，完美」，但實際上里頭埋著雷，它自己也沒真驗過，只是「感覺應該沒問題」。

這種證據明明很薄、卻敢拍胸脯下結論的毛病，是用 AI 干正經活兒時最讓人頭疼的地方。因為它騙的不是別人，是信任它的你。

Anthropic 說，4.8 在這件事上明顯改了。它更愿意主動告訴你「這塊我不太確定」，更少做那些沒根據的斷言。

具體到一個能量化的數字：在它自己寫的代碼里，4.8 讓缺陷悄悄溜過去、不吭一聲的概率，是 4.7 的大約四分之一。

四分之一是什么概念？以前它寫完代碼，四個雷里能幫你指出一個；現在四個雷它能幫你點出三個，剩下那個才輪到你自己踩。

這個升級聽著不性感，沒有「跑分屠榜」那么唬人。

但凡是真拿 AI 干過活的人都知道，一個會主動說「這里我沒把握」的助手，比一個永遠信誓旦旦、關鍵時刻給你挖坑的助手，值錢太多了。

聰明不稀罕，靠譜才稀罕。

03能放它單飛干大活了

第二個我覺得真正有分量的，是跟 4.8 一起發的新功能：動態工作流（Dynamic Workflows），目前在 Claude Code 里做研究預覽。

一句話說清它干嘛的：以前你給 AI 派個大活兒，它是一步一步串著干，你得在旁邊盯著。

現在它能自己先把活兒拆開，一口氣拉起幾百個分身（subagent）并行去做，做完還會自己先驗一遍貨，確認沒問題了再回來跟你匯報。

Anthropic 舉的例子挺猛：用 Opus 4.8 跑 Claude Code，能把一個幾十萬行代碼的項目，從動工到合并，整套大規模遷移自己干完。驗收標準就是現有的測試用例，跑得過才算數。

這是什么意思呢？意思是 AI 干活的形態，正在從「你問一句它答一句」的助手，變成「你交代一個目標，它自己組隊把活兒包圓」的工頭。

?? 先潑盆冷水這功能我還沒上手試過。幾十萬行遷移這種活兒聽著很美，真實可靠性如何，得真跑過才知道。AI 圈的 demo 和你自己電腦上的實際效果，中間隔著的距離，通常比發布會 PPT 上畫的要遠一點。

但方向是清楚的：模型本身聰明多少分，已經不是這次的重點。重點是它能不能放出去單飛、長時間無人值守地干完一整攤事。

04幾個順手的小更新

除了上面兩個大的，這次還塞了幾個小禮包。

一個是「努力程度」控制，現在普通用戶在 claude.ai 上也能調了。調高，它想得更深、答得更好；調低，它回得更快、也更省你的額度。

說人話就是：以前是它替你決定花多少力氣，現在你能自己擰這個旋鈕了。急活兒調低，硬活兒調高。

這個設置估計是被之前的 4.6 降智給整怕了，因為之前他們默認調低了這個參數。結果雖然反應快了，但也降智了，導致很多用戶抱怨。

另一個是 Fast 模式（快速模式）。Opus 4.8 的快速模式能跑出 2.5 倍速度，而且價格比上一代的快速模式便宜了整整三倍。

又快又便宜，這種好事在 AI 圈不常有。

價格方面，常規使用一分錢沒漲，還是每百萬輸入 token 5 美元、輸出 25 美元，跟 4.7 一模一樣。

05那到底值不值得換

把話說回來。

如果你指望 4.8 是那種「用一次就回不去」的代際飛躍，那它不是，Anthropic 自己都沒這么吹，開口就說這是「不大，但摸得著」的升級。

但如果你是真拿 Claude 干活的人，尤其是寫代碼、跑 agent、做長鏈條任務的，那這次該換。

理由不在那張跑分表上，而在兩件事：它更愿意跟你說實話了，它能放出去干更大的活了。

回到開頭那兩條消息。41 天就發一版、Mythos 未來幾周開放、估值沖到近萬億，這三件事其實是一回事：Anthropic 在拼命往前趕。

所以 4.8 與其說是一次大升級，不如說是個過渡。是它在掏出真家伙（Mythos）之前，先遞過來的一杯水。

水不解渴，但它告訴你，正菜快上了，至少也可以安慰一下大家對 Opus 4.7 失望的心情。

你是已經換上 4.8 了，還是打算憋著等 Mythos？順便聊聊：你最近是 Claude Code 黨，還是已經投奔 Codex 了？評論區見。覺得有用 → 點個 ??在看轉給還在糾結要不要換的朋友點個贊告訴我你看完了關注「AI范兒」，下次更新第一時間收到

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.