AI范兒 · 產品拆解? 6 分鐘
AI 圈這兩周太消停了,都沒啥新東西發布,所以這兩周我基本上也沒寫什么。
但昨天晚上就看到 X 上說 Claude Opus 要發 4.8,沒想到一早起來真的發布了。
這確實很讓我意外。距離 Opus 4.7 發布也就一個月多一點點,這么短的時間內又發一個新版本,Anthropic 還是太強了。
然后我的時間線同時蹦出兩條消息:Mythos 級模型會在未來幾個星期之內,向所有客戶推出。Anthropic 在 H 輪融資里融了 650 億美元,融完估值將近一萬億(具體是 9650 億美元)。
這家公司著實瘋了。
言歸正傳,這次的 Opus 4.8 到底咋樣,一起來看看。
01先看參數:唯一輸的那項
老規矩,先看跑分對比。
這樣的跑分我們已經看膩了,基本上肯定是新模型在各維度領先市面上其他模型,這次也不例外。
不過我看到有網友嘲笑 Anthropic,把 GPT-5.5 放進來一起對比,這下全世界都知道 GPT-5.5 的編碼能力跟 Opus 有得一比了。
事實也是如此,最近已經不少朋友從 Claude Code 遷到了 Codex。
![]()
這里確實有一項指標,居然比 GPT-5.5 差,那就是Terminal-Bench 2.1,它代表啥?
簡單說,它是一個衡量 AI 在真實命令行環境里獨立完成任務能力的評測基準。把 AI 丟進一個真實的 Linux 終端,給它一堆只能靠敲命令解決的活兒,看它能不能自己搞定。
活兒都是終端原生的:編譯代碼、配置環境、調試報錯、跑腳本、修系統問題這類。AI 要像個工程師一樣自己敲命令、看輸出、再決定下一步,不是答個題就行。
它考的是 agentic(智能體)能力,也就是自主多步操作。一個任務往往要幾十步,中間出錯還得自己排查糾正,而不是一次問答。分數越高,越能當那個「會自己動手的命令行助手」。
有意思的地方來了。Opus 4.8 在這項上從 4.7 的 66.1% 漲到了 74.6%,漲了 8.5 個點,是它這次所有項目里漲幅最大的一項。
漲了這么多,結果還是輸了。GPT-5.5 在同一項上是 78.2%。
4.7 → 4.8 漲幅榜(部分項目) Terminal-Bench 2.1 +8.5 66.1 → 74.6 SWE-bench Pro +4.9 64.3 → 69.2 Finance Agent v2 +2.4 SWE-bench Verified +1.0 已近天花板 注:Terminal-Bench 漲幅最大,卻仍輸給 GPT-5.5(78.2%)
▲ 圖:4.7 到 4.8 進步最猛的,恰恰是那項輸掉的
一家公司發新模型還主動把自己輸的那項標出來,這事兒本身就挺 Anthropic 的。畢竟在 AI 圈,能承認自己有項目打不過對手,比模型本身聰明還稀罕。
02會說「我不確定」的模型
但跑分這點事,看完也就看完了。這次發布稿里花了最大篇幅講的,其實是一個你在跑分表上根本看不到的東西:誠實。
這事得從 AI 的一個老毛病說起。
所有大模型都有一個通病:愛給自己臉上貼金。你讓它寫段代碼、做個分析,它經常一臉自信地告訴你「搞定了,完美」,但實際上里頭埋著雷,它自己也沒真驗過,只是「感覺應該沒問題」。
這種證據明明很薄、卻敢拍胸脯下結論的毛病,是用 AI 干正經活兒時最讓人頭疼的地方。因為它騙的不是別人,是信任它的你。
Anthropic 說,4.8 在這件事上明顯改了。它更愿意主動告訴你「這塊我不太確定」,更少做那些沒根據的斷言。
具體到一個能量化的數字:在它自己寫的代碼里,4.8 讓缺陷悄悄溜過去、不吭一聲的概率,是 4.7 的大約四分之一。
四分之一是什么概念?以前它寫完代碼,四個雷里能幫你指出一個;現在四個雷它能幫你點出三個,剩下那個才輪到你自己踩。
這個升級聽著不性感,沒有「跑分屠榜」那么唬人。
但凡是真拿 AI 干過活的人都知道,一個會主動說「這里我沒把握」的助手,比一個永遠信誓旦旦、關鍵時刻給你挖坑的助手,值錢太多了。
聰明不稀罕,靠譜才稀罕。
03能放它單飛干大活了
第二個我覺得真正有分量的,是跟 4.8 一起發的新功能:動態工作流(Dynamic Workflows),目前在 Claude Code 里做研究預覽。
一句話說清它干嘛的:以前你給 AI 派個大活兒,它是一步一步串著干,你得在旁邊盯著。
現在它能自己先把活兒拆開,一口氣拉起幾百個分身(subagent)并行去做,做完還會自己先驗一遍貨,確認沒問題了再回來跟你匯報。
![]()
Anthropic 舉的例子挺猛:用 Opus 4.8 跑 Claude Code,能把一個幾十萬行代碼的項目,從動工到合并,整套大規模遷移自己干完。驗收標準就是現有的測試用例,跑得過才算數。
這是什么意思呢?意思是 AI 干活的形態,正在從「你問一句它答一句」的助手,變成「你交代一個目標,它自己組隊把活兒包圓」的工頭。
?? 先潑盆冷水這功能我還沒上手試過。幾十萬行遷移這種活兒聽著很美,真實可靠性如何,得真跑過才知道。AI 圈的 demo 和你自己電腦上的實際效果,中間隔著的距離,通常比發布會 PPT 上畫的要遠一點。
但方向是清楚的:模型本身聰明多少分,已經不是這次的重點。重點是它能不能放出去單飛、長時間無人值守地干完一整攤事。
04幾個順手的小更新
除了上面兩個大的,這次還塞了幾個小禮包。
一個是「努力程度」控制,現在普通用戶在 claude.ai 上也能調了。調高,它想得更深、答得更好;調低,它回得更快、也更省你的額度。
說人話就是:以前是它替你決定花多少力氣,現在你能自己擰這個旋鈕了。急活兒調低,硬活兒調高。
![]()
這個設置估計是被之前的 4.6 降智給整怕了,因為之前他們默認調低了這個參數。結果雖然反應快了,但也降智了,導致很多用戶抱怨。
另一個是 Fast 模式(快速模式)。Opus 4.8 的快速模式能跑出 2.5 倍速度,而且價格比上一代的快速模式便宜了整整三倍。
又快又便宜,這種好事在 AI 圈不常有。
價格方面,常規使用一分錢沒漲,還是每百萬輸入 token 5 美元、輸出 25 美元,跟 4.7 一模一樣。
![]()
05那到底值不值得換
把話說回來。
如果你指望 4.8 是那種「用一次就回不去」的代際飛躍,那它不是,Anthropic 自己都沒這么吹,開口就說這是「不大,但摸得著」的升級。
但如果你是真拿 Claude 干活的人,尤其是寫代碼、跑 agent、做長鏈條任務的,那這次該換。
理由不在那張跑分表上,而在兩件事:它更愿意跟你說實話了,它能放出去干更大的活了。
回到開頭那兩條消息。41 天就發一版、Mythos 未來幾周開放、估值沖到近萬億,這三件事其實是一回事:Anthropic 在拼命往前趕。
所以 4.8 與其說是一次大升級,不如說是個過渡。是它在掏出真家伙(Mythos)之前,先遞過來的一杯水。
水不解渴,但它告訴你,正菜快上了,至少也可以安慰一下大家對 Opus 4.7 失望的心情。
你是已經換上 4.8 了,還是打算憋著等 Mythos?順便聊聊:你最近是 Claude Code 黨,還是已經投奔 Codex 了?評論區見。覺得有用 → 點個 ??在看 轉給還在糾結要不要換的朋友點個贊 告訴我你看完了關注「AI范兒」,下次更新第一時間收到
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.