![]()
就在今天凌晨,Anthropic 掏出來了他們最新的 Claude Opus 4.8。
距離 Opus 4.7 才過去一個多月,不得不說,Claude 上新的速度是越來越快了。
本來吧,4.8 注定只是大伙兒眼里的小版本更新。但世超發(fā)現(xiàn),這次事情并沒有那么簡單。
因為不少人懷疑,Opus 4.8 似乎蒸了,蒸的還是 DeepSeek 和千問。。。
很多人通過 API 詢問 Opus 4.8,你是什么模型,你背后的公司是什么,結(jié)果他一會兒說自己是通義千問,一會兒來自深度求索。
![]()
之前無證據(jù)亂錘中國模型蒸餾 Claude,現(xiàn)在反而被揪住小辮子,Anthropic,你小子怎么回事嗯?
當(dāng)然,蒸沒蒸是一回事,好不好用是另一回事。只不過在大伙兒試用之前,Opus 4.8 已經(jīng)先上了一層懷疑的濾鏡。
根據(jù)官方的博客,這回 Opus 4.8 改動并不大。最顯著的改進之一,就是更誠實了。
換句話講,那種莫名自信,嘴硬之后 “ 對不起,我之前說錯了 ” 的情況,Opus 4.8 身上發(fā)生的概率會大大減小。
![]()
另外,據(jù)說它在做 Agent 任務(wù)時會更可靠,判斷力更強,能自己發(fā)現(xiàn)問題,提出異議,用最終最好的答案穩(wěn)穩(wěn)接住你。
而從性能表上來看,Opus 4.8 只能說各方面小有提升,但沒啥特別出彩的,其中一個 coding 指標(biāo)還打不過兩個月前的 GPT-5.5。
![]()
從用戶實際反饋來看,Opus 4.8 褒貶不一。有人表示它確實變誠實了,不會輕易不查資料亂講,經(jīng)常自我反思,干活主動穩(wěn)定,安全性也有了明顯的提升。
來源:小紅書 @on99
![]()
但也有人說它依然不如白月光 Opus 4.6,語言表達的人味兒還沒回來,token 消耗還飛快,甚至還有不少人發(fā)現(xiàn)它依然在 coding 的時候亂講,比起 Opus 4.7 沒啥變化。
![]()
世超親自上手試了試以后,感覺倒也不是 Opus 4.8 不好,但代價是什么呢?
就說它的 “ 誠實 ” 特性,Opus 4.8 在一些比較危險的問題上,確實考慮周到不亂講,但也變得極其保守。
面對一些風(fēng)險較高的決策,比如世超給它一張毒蘑菇照片,問它能不能吃,它的思考過程相當(dāng)客觀冷靜。
![]()
不過,在一些安全項里,Opus 4.8 表現(xiàn)得過度謹(jǐn)慎。即使它覺得大概率沒毛病,也只會說 “ 我的顧慮小了很多,這也可能是劇毒菌撞臉 ”。
![]()
這當(dāng)然是負(fù)責(zé)任的。畢竟真有人照著 AI 的話去吃蘑菇,那可不是鬧著玩的。
但從用戶體驗上來說,這可能會導(dǎo)致很多問題得不到確定的答復(fù),句句都是 AI 給自己疊的甲,相當(dāng)難受。
另外,如果想要 Opus 4.8 保持水準(zhǔn),最好不要嘗試 High 以下的性能(effort)。高消耗,才有好表現(xiàn)。
比如下面這種新聞總結(jié)的活兒,很基礎(chǔ)吧。但 Opus 4.8 Low 給出的第一條新聞就是錯的,Sholto Douglas 發(fā)那條動態(tài)已經(jīng)是三天前的事兒了,怎么能連自家的新聞都搞錯。。。
![]()
想讓它做事實核查,還得再追問一遍,說好的主動檢查發(fā)現(xiàn)問題提出異議,用最準(zhǔn)確的答案穩(wěn)穩(wěn)接住我呢?
![]()
接下來世超又試了試它的代碼能力,這回它的能力強,還是用時間和 token 換的。
常規(guī)的 leetcode 困難算法題,對 Opus 4.8 來說已經(jīng)不成問題了。而當(dāng)我找了一個超難題 LCP 82 丟給 Opus 4.8,即使開 Extra 模式,123 行代碼,它也足足思考了二十多分鐘。
結(jié)果的確是相當(dāng)不錯,Opus 4.8 一遍就過,思考出了第一版代碼還復(fù)查優(yōu)化了一遍,現(xiàn)在能做到這種程度的模型并不多。
![]()
但作為對比,GPT-5.5 思考了兩分鐘,就給出了一個測試案例通過 99% 的答案。唯一一個案例失敗的原因,是時間超限,其實也不算答錯。這明顯比 Opus 4.8 要省得多。
![]()
世超又嘗試讓 Opus 4.8 獨立制作一個日式校園 galgame,不得不說現(xiàn)在 AI 寫的項目代碼層次分明,框架清楚。
![]()
這意味著,在它的基礎(chǔ)上,如果你想改立繪,加劇情,把游戲做大做強是很容易的。
世超淺玩了一下,所有功能包括存檔,自動播放,CG 畫廊等等,沒有任何 bug。
![]()
但是 Claude 斷斷續(xù)續(xù),做了足足一個多小時。下面 GPT-5.5 這個雖然簡陋很多,該有的功能一樣不差,只用了五分鐘。
![]()
所以,花更多的錢和時間換來的答案值不值得?可能也只有大伙兒自己心里清楚了。
總的來說,Opus 4.8 繼承了 Claude 過往的強項,沒有特別出色的表現(xiàn),平平常常普普通通。
而在測試之后,世超最想說的卻不是這個模型本身到底咋樣,而是現(xiàn)在用個 Claude,也太小心翼翼了。
作為業(yè)界價格的巔峰,用 Claude 最好的模型,不舍得開最好的性能;開最高的性能,不舍得用最好的模型。處處是陷阱,在你不注意的時候,無關(guān)緊要的小問題已經(jīng)把 token 燒光了。
而且讓用戶自己選性能,只有 low 和 high 也就算了,這次,Opus 4.8 一口氣推出了 5 種檔位,Low、Medium、High、Extra 和 Max,普通人真搞不明白什么時候用哪個,很容易造成浪費。
![]()
現(xiàn)在,Opus 4.8 相關(guān)的評論區(qū)里,世超看到不少人陷入了 Opus 4.6 下架的恐慌。
大伙兒別擔(dān)心,在更多模型里,老模型還在,想用還能用到。
![]()
但坦白講,這種負(fù)優(yōu)化不僅僅是 Anthropic 一家的困境,不少廠商都透著一股新不如舊的無奈。
雖然交出的參數(shù)答卷越來越漂亮,可那些曾經(jīng)讓用戶感到驚艷的極致體驗,又要什么時候才能回來呢?
撰文:莫莫莫甜甜
編輯:江江 & 面線
美編:煥妍
圖片、資料來源:
X、小紅書、領(lǐng)英、Anthropic 官網(wǎng)
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.