大半夜的,剛準備早睡一下。
然后,我的AIHOT就突然彈了個消息,Claude Opus 4.8上線了。
![]()
除此之外,又發了另一個消息。
![]()
完成了新一輪650億美元的融資,估值逼近一萬億美元。。。
前有港股智譜7000億市值,后有Anthropic估值7萬億人民幣。
果然AI行業的造富神話,比鬼故事還要鬼故事。
但是說實話,距離4月17號Opus 4.7上線,僅僅才過去42天,一個半月,又一個新模型扔出來,在Cluade的發布歷史上,從來沒有過。
看來確實GPT-5.5和Codex給的壓力確實太大了,Opus 4.7的口碑確實把自己也給拉完了,所以沒辦法,要最快速度把Opus 4.8拉出來救火,要不然真的可能被Codex偷家偷瘋了。
在模型的本身參數比如最大上下文、輸出長度、知識庫時間啥的,跟Opus 4.7幾乎是一樣。
![]()
價格也沒變, $5/M輸入、$25/M輸出。
所以基本上用的也是Opus 4.7的基模上直接又調了一下。
然后,我就反應過來了一件事,我靠,你Opus 4.8上了,你不會要把我的Opus 4.6給頂掉了吧。
因為Opus 4.5在內容創作上是我覺得的巔峰,Opus比Opus 4.7差了一點,但是我覺得還能用,而Opus 4.7是我完全覺得不可用的狀態。
按照claude在過去網頁端只保留兩代模型的優良傳統,Opus 4.6可能會被頂掉。
我抱著進展的心情一看。
![]()
Claude我干你大爺。
行吧,只能接受,說不定Opus 4.8,在內容創作上更好呢?(雖然我幾乎不對這個事情抱有期待了。)
說回Claude Opus 4.8。
![]()
不廢話,先看跑分截圖吧。
![]()
跑分我真的不想多聊了,很沒勁,反正就是贏學。
數字又高了一點,大概就是這樣。
唯一一個在上面窮盡洪荒之力還是沒跑過GPT-5.5的類別,是Terminal-Bench 2.1。
這玩意是一個Agentic基準,大概就是用來評估Agent在真實命令行環境里干活的能力,考的就是把模型直接扔進一個沙盒終端里,讓它自己去查文件、敲命令、看報錯、調試等等,看看能不能跨多個步驟把一個任務做完。
![]()
這個是在Claude口徑里,唯一一個跑不過GPT-5.5的,而且這個還挺要命的。
因為 Terminal-Bench基本代表著Agent開發能力的最高峰,窮盡了洪荒之力也沒干過GPT-5.5,那這過兩天GPT-5.6出來,那還玩個屁啊。
這也從側面說明了,GPT-5.5的開發能力,是真的強。。。
然后再說一說這次更新的一些特性。
1. 思考強度給所有人開放
這次 4.8 上線,同時把一個叫 effort(努力程度)的控制,開放給所有人了,也就是你在Chat模式下,也可以調整模型的努力程度了, 所有套餐都有,免費用戶也有 。
Claude Code和Cowork用戶對這個東西肯定很熟悉。
位置就在模型選擇那個地方旁邊。
![]()
上面那個從Low到Max,就是努力等級。
下面那個自適應思考記得別關,還是開著,組合起來用就行。
我自己其實常年喜歡默認開著Extra,然后開大活就上Max的,因為Opus 4.7只有自適應思考,不是很好用,Opus 4.8終于給弄回來了。
2. 變得更精確但也更不主動了
Opus 4.8更新以后,有一個明顯的感覺,就是它更加的精確了,有一點GPT-5.5的感覺,指哪打哪。
更加的遵循你的指令,這確實對于專業的開發者來說,是件好事。
但是同時也帶來一個弊端,就是他的主動性,會變弱。
就是你讓它干A,它現在就只干A,絕不會自作主張覺得誒你這意思是不是順便也想要B然后把B也順帶手給你辦了。
我自己現在就遇到了,晚上測試的時候,習慣性的沒跟它說一定要去看線上數據不要只看本地代碼,但是在Opus 4.6和4.7的時候,他們都還是會主動的去用我的skill連接線上服務器,看生產環境的數據的,但是Opus 4.8卻兩次都沒主動去看,給我的方案,都是基于本地的,這反而給我帶來了一些麻煩,重新調整了一下文檔和記憶,才好一點。
對于一個設計好了自己Harness的環境的專業開發者,我覺得會感覺到非常得勁,那其實能感覺到,它的錯誤率和幻覺率,都在降低,很精準。
但是如果把這個群體,推衍到整個Vibe Coding群體,我其實絕對,不一定是個好事。
我們視頻組同事今晚在用Opus 4.8來測他們的用Skill來做視頻動效的工作流,發現效果反而變差的,有一個很形象的描述就是。
![]()
而且你能明顯的感覺到,更加自信,在過程中跟你確認的時刻變少了。
比如這個,優化方案出來,直接不確認,直接就自己干了。
![]()
因為我們其實很多非專業者,在用AI的時候,是靠著AI的主動性去往前走的,就是真的有的時候會用習慣了那種你懂我意思的爽感。
你含含糊糊扔一句話過去,它就能猜到你心里那個完整的需求,然后問你是不是,在幫你直接搞出來,這種被理解的感覺,其實還挺上頭的。
當然這個爽感,是有代價的,就是模型的主觀性太強,代價就是不可控。
它猜對了你舒服,它猜錯了呢,它就拿著一個你壓根沒提的需求,吭哧吭哧給你干一堆活,最后還得你來擦屁股,這種出發點是好的但是結果是拉的,在長時Agent任務中,尤其要命。
所以,未來再跟Opus 4.8協同的時候,可能需要,對大家需求表達能力,要求的更高了。
3. 變得更加誠實了
這個點更上面有點像,也是Anthropic自己拎出來放在博客核心位置的點。
![]()
過去大家一定遇到過,就比如說Claude幫你寫個功能,它噼里啪啦給你寫了一大段,然后特別自信地跟你說,搞定了,沒問題,可以跑了。
你信了,你一跑,你才發現,另一個地方崩了。
你回去問它,它又特別自信地說,哦抱歉,問題找到了,對不去我沒有發現,我再改一下,這下絕對沒問題了。
你又信了,你又跑,然后你又報錯了。
很多時候經常會出現。
你要知道,它每一次都那么斬釘截鐵,每一次都那么言之鑿鑿,但每一次,它其實自己心里也沒底,AI,很多時候,只是被訓練得看起來很有把握而已,這個毛病,幾乎是所有大模型的通病。
這次Opus 4.8,就在這個問題上做了重點的優化。
官方公告對外說的數字是,4.8讓自己寫的代碼里的瑕疵蒙混過關的概率,比上一代低了大概4倍。
我又去翻了下這次Opus 4.8的系統卡。
然后發現了更牛逼的東西。
![]()
在偷懶這個問題上,Opus 4.8,好像是唯一一個,能做到0%不良率的模型。
在我夜里幾個小時的測試與開發中,我也能感覺到,這是真的不偷懶啊,思考的是真細啊。。。
比如我有一個AIHOT的數據分析頁面,之前Opus 4.7實現的比較粗糙,最大的問題就卡,點一下反應個十幾秒才動彈,問原因就說是這樣的啦,改不了啦,你實時查詢就是這個速度啦。
之前有次都給我干生氣了。
Opus 4.8明顯靠譜很多,非常詳細的在全面審查我的代碼,找盡可能需要優化的地方。
![]()
我同事的反饋也是這樣。
![]()
基本上大家的感覺都差不多。
Opus 4.8在開發上總體的感覺,是有大進步的。
4. 創作能力
同樣的Skill,同樣的創作,比Opus 4.7是有進步的,但是依然比不上Opus 4.6。
比如我把我我之前寫的AI時代的6個人才特質給抽離出來了,讓Opus 4.8用我的寫作Skill去寫,寫出來的一些句子,是這樣的。
![]()
Opus 4.6+我的Skill是絕對不會寫出這種話的,不是XX、而是XX,這是明確的禁用詞,直接給我改成不再是來去規避,真的是耍小聰明。
還有那個奇怪的比喻,為什么要把靠譜特質的人,比喻成“高速運轉的機器里那點潤滑油”,我是真的有點不理解,這是有什么奇怪的癖好嗎。
還有這段,非要把一個人,給比喻成一個物化的錨???
![]()
還有模型奇妙的大段的無意義的排比,把所謂的AI味的禁忌都犯了個遍。
讓它根據《流浪地球2》的故事,續寫一個新的地下城的1000字的小故事。
寫的也挺刻板印象的。
![]()
比4.7好,但是確實沒好多少。
整體的人機味還都挺重的。
5. 其他更新
這次Opus 4.8還迭代了下快速模型,官方叫fast mode。
之前其實就有,你再Claude Code里輸入/fast就有。
![]()
只是之前是Opus 4.7的fast就是比較貴,2.5倍的速度,但是是6倍的價格。
普通版本價格一直是百萬輸入5美元、百萬輸出25美元,然后Opus 4.7 fast模式的價格是輸入30美元、輸出150美元。
但是這次做了一個還不錯的升級,速度直接達到了標準版的2.5倍的速度,價格卻只有之前版本fast的三分之一,降到了輸入10美元,輸出50美元。
從標準版的6倍價格,變成了標準版的2倍價格,但是速度沒變。
也能側面看出來馬斯克的算力確實是給到位了,Claude一下子就財大氣粗了。
然后還有一個東西,也挺有意思的,是Claude Code的dynamic workflows功能。
翻譯過來叫動態工作流。
![]()
大概作用就是,讓Claude自己寫一套編排腳本,在一次任務里,一口氣拉起幾十個、甚至上百個子agent并行開干,干完它還會先自己驗一遍,確認
沒問題了,然后把結果交給你。
原話是:“ 有些問題過于龐大,單次單代理處理難以勝任,尤其是在復雜、遺留的代碼庫中:跨整個服務的缺陷排查、涉及數百個文件的遷移、或是在最終決策前需要從多角度進行壓力測試的方案。動態工作流能夠端到端地處理所有這些任務。”
觸發方式有兩種。
第一種是直接跟Claude Code說,創建一個動態工作流balbalbala。
第二種是,把努力級別調整成一個特殊的選項Ultracode,這個設置會自己會將努力級別調至xhigh,同時讓Claude自動判斷何時使用工作流來處理你的任務。
![]()
這次Opus 4.8的更新總結,大概就是這樣。
我自己還是比較喜歡的,因為在開發上確實有不錯的加成,整體確實變好用了。
但是在創作上,我還是有點失落的,因為把我的Opus 4.6給頂掉了。。。
未來為了適配Opus 4.8,可能我們的很多跟內容相關的Prompt和Skill全都得重寫了,因為這玩意牽扯的東西太多了,調研、歷史文獻撰寫、分鏡撰寫、特效生成啥的,全都是內容。。。
就很煩,好不容易都在Opus 4.6上跑通了,又得全部重新來。
哎。
哦對了,Anthropic 這次還留了個更大的鉤子。
除了Opus這條線,它們手里那個還攥了很久的,比Opus智能還要更高一檔的新模型,代號Mythos,說是過幾周,就能給所有客戶用上了。
到時候,我想看看這個號稱最牛逼的模型。
到底是個什么光景。
AI啊,真好玩。
>/ 作者:卡茲克
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.