昨晚,Anthropic 發布了最新一代模型 Claude Opus 4.8。
圈子里照例又是一波跑分截圖刷屏,Opus 4.8 各種領先,編碼能力全面霸榜。
![]()
但說實話,我現在對跑分已經無感了,幾乎每家模型發布時都會拿跑分說事。
我覺得真正值得關注的,是兩個 0%。
一個是「謊報率」,就是模型處理數據出了問題,但它裝作沒事跟你說搞定了。
Opus 4.5 這個數字是 0.40,Opus 4.7 降到 0.25,到了 4.8 直接歸零。
另一個是「偷懶調查率」,就是遇到需要深挖的問題,模型敷衍了事給你一個似是而非的答案。
在這個指標上,Opus 4.7 還有 25% 的概率偷懶,而 Opus 4.8 同樣是 0%。
兩個 0%,兩個歷史首次。
如果你用 AI 寫過代碼、做過數據分析、搞過一些研究,就知道最怕的不是它能力不夠,而是它能力不夠還裝出一副自己很厲害的樣子。
Opus 4.8 解決的就是這個問題,它不再假裝什么都會,遇到不確定的東西時,也會主動告訴你「這里我沒把握」。
在我看來,這個迭代比跑分高 10 個百分點重要得多。
那么,Opus 4.8 和前代的 4.6、4.7 到底有什么本質區別?
經過大概體驗后,我把幾個核心差異捋一下。
第一,誠實度和可靠性。
我自己目前用的是 Opus 4.6,也是我認為在內容創作上表現最好的模型,沒有之一。
在 4.6 版本里,Claude 在誠實性上雖然已經比同行好,但仍然有不少「過度自信」的問題。
后來的 4.7 做了改善,到了 4.8 則徹底解決了。
說白了,4.6 像一個能力不錯但愛面子的員工,4.7 像一個嚴謹且能力很強的員工,4.8 像一個真正靠譜的高級工程師。
第二,效率。
同樣的任務,4.8 比 4.7 少用 15% 的步驟,少輸出 35% 的 token。
對開發者來說,token 就是成本。做得更好還更省,這才是真正的代際進步。
第三,編碼能力的躍升幅度。
這么說吧,4.6 到 4.7 的編碼提升是漸進式的,4.7 到 4.8 的提升是跨越式的。
在一些極端測試里,比如給你一個編譯好的二進制文件,不準反編譯,讓模型從零重建源代碼。4.8 在 1M token 預算下的表現,4.7 要 5M 才能追上。
第四,Agent 能力本質上的不同。
4.6 的 Agent 能力還處于「能跑但不夠穩」的階段。4.7 穩定性提升了,但遇到復雜情況還是容易走偏。
4.8 有一個明顯的變化,它開始有了真正的判斷力。
官方放了一個案例,開發者在用 Claude Code 遷移代碼,然后中途出去了,Claude 在后臺自己跑。
跑到一半代碼提交被拒絕了,因為同事在這期間也提交了一個緊急修復。Claude 通知開發者,開發者隨口說「直接強制覆蓋就行」。
但是,Claude 拒絕了。
它判斷出強制覆蓋會丟掉同事剛提交的緊急修復,于是自己把兩邊的改動合并好,保證代碼一致、提交歷史干凈,然后推送。
這不是簡單的「執行指令」,這是在該拒絕的時候拒絕。這是 Agent 從工具進化到協作者的關鍵一步。
這次發布的新能力里還有一個我覺得很強的功能,名字叫「Dynamic Workflows」。
簡單說,就是 Claude 接到一個大任務后自己寫腳本并分配給很多并行的 子 Agent 去做。
做完之后,再互相檢查、互相挑刺,最后匯總結果交給你。
這個功能目前還是預覽狀態,而且 token 消耗遠高于普通對話,不適合隨便拿來用。
不過我覺得,這個能力會成為 Claude Code 未來的殺手锏。
我再說個有意思的事。
4.8 上線后不久,有人通過 API 調用問它「你是誰」,它有時候會說自己是 Qwen,有時候說自己是 DeepSeek。
技術社區對此的猜測是,蒸餾。
也就是說,Opus 4.8 的訓練過程中可能用了其他模型的輸出數據做知識蒸餾。
這個事本身不影響能力,但挺值得玩味。
AI 模型之間的知識流動比我們想象的復雜,你用的可能不是一個純血模型,而是一個融合了多家智慧的混合體。
最后,總結一下。
首先,Opus 4.8 第一次讓 AI 模型做到了誠實。
在所有前沿模型里,它是第一個在可靠性指標上做到零缺陷的。這對企業用戶來說,比性能高 5% 重要十倍。
二是效率。
更強的同時更省 token,這直接影響成本結構。雖然依舊不便宜,但是相較于前代能力提升的同時價格維持一致。
三是 Agent 形態的進化。
從單次回答到長任務執行,再到多 Agent 并行協作,Claude 的產品形態已經不再是一個聊天窗口,而是在變成一個工作系統。
此外,Anthropic 同一天還宣布了 650 億美元融資,估值 9650 億,逼近萬億美金。
接下來幾周,Anthropic 還會放出 Claude Mythos,這頭猛獸出來時不知道又會引發什么超級進化。
按照目前的信息,Mythos 是比 Opus 更高一級的模型。有人猜測,Opus 4.8 本身就是 Mythos 的蒸餾版。
如果真是這樣,那 Mythos 正式上線的那天,才是真正的分水嶺的開始。
對此,我十分期待。
················· 唐韌出品 ·················
安可時刻
我已經到上海了,明后兩天舉辦最新一期 AI 個體戶訓練營。
下午先去見昨天文章里說的那個人,很多人說他現在已經不是普通人了。但我覺得,他依舊是普通人的代表。
沒背景、靠自己、出人頭地,算是完成了階級跨越。
就想我昨天說的,做資源、信息、能力的整合者,這就是他成功的秘訣。
不止是他,我從很多和他類似的人身上都看到了一個共性,快速擁抱變化。
無一例外,這些人基本都在共同擁抱 AI。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.