无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

實測Claude Opus 4.8,這可能是第一個不會偷懶的模型。

0
分享至

   大半夜的,剛準備早睡一下。

   然后,我的AIHOT就突然彈了個消息,Claude Opus 4.8上線了。

  

   除此之外,又發了另一個消息。

  

   完成了新一輪650億美元的融資,估值逼近一萬億美元。。。

   前有港股智譜7000億市值,后有Anthropic估值7萬億人民幣。

   果然AI行業的造富神話,比鬼故事還要鬼故事。

   但是說實話,距離4月17號Opus 4.7上線,僅僅才過去42天,一個半月,又一個新模型扔出來,在Cluade的發布歷史上,從來沒有過。

   看來確實GPT-5.5和Codex給的壓力確實太大了,Opus 4.7的口碑確實把自己也給拉完了,所以沒辦法,要最快速度把Opus 4.8拉出來救火,要不然真的可能被Codex偷家偷瘋了。

   在模型的本身參數比如最大上下文、輸出長度、知識庫時間啥的,跟Opus 4.7幾乎是一樣。

  

   價格也沒變, $5/M輸入、$25/M輸出。

   所以基本上用的也是Opus 4.7的基模上直接又調了一下。

   然后,我就反應過來了一件事,我靠,你Opus 4.8上了,你不會要把我的Opus 4.6給頂掉了吧。

   因為Opus 4.5在內容創作上是我覺得的巔峰,Opus比Opus 4.7差了一點,但是我覺得還能用,而Opus 4.7是我完全覺得不可用的狀態。

   按照claude在過去網頁端只保留兩代模型的優良傳統,Opus 4.6可能會被頂掉。

   我抱著進展的心情一看。

  

   Claude我干你大爺。

   行吧,只能接受,說不定Opus 4.8,在內容創作上更好呢?(雖然我幾乎不對這個事情抱有期待了。)

   說回Claude Opus 4.8。

  

   不廢話,先看跑分截圖吧。

  

   跑分我真的不想多聊了,很沒勁,反正就是贏學。

   數字又高了一點,大概就是這樣。

   唯一一個在上面窮盡洪荒之力還是沒跑過GPT-5.5的類別,是Terminal-Bench 2.1。

   這玩意是一個Agentic基準,大概就是用來評估Agent在真實命令行環境里干活的能力,考的就是把模型直接扔進一個沙盒終端里,讓它自己去查文件、敲命令、看報錯、調試等等,看看能不能跨多個步驟把一個任務做完。

  

   這個是在Claude口徑里,唯一一個跑不過GPT-5.5的,而且這個還挺要命的。

   因為 Terminal-Bench基本代表著Agent開發能力的最高峰,窮盡了洪荒之力也沒干過GPT-5.5,那這過兩天GPT-5.6出來,那還玩個屁啊。

   這也從側面說明了,GPT-5.5的開發能力,是真的強。。。

   然后再說一說這次更新的一些特性。

   1. 思考強度給所有人開放

   這次 4.8 上線,同時把一個叫 effort(努力程度)的控制,開放給所有人了,也就是你在Chat模式下,也可以調整模型的努力程度了, 所有套餐都有,免費用戶也有 。

   Claude Code和Cowork用戶對這個東西肯定很熟悉。

   位置就在模型選擇那個地方旁邊。

  

   上面那個從Low到Max,就是努力等級。

   下面那個自適應思考記得別關,還是開著,組合起來用就行。

   我自己其實常年喜歡默認開著Extra,然后開大活就上Max的,因為Opus 4.7只有自適應思考,不是很好用,Opus 4.8終于給弄回來了。

   2. 變得更精確但也更不主動了

   Opus 4.8更新以后,有一個明顯的感覺,就是它更加的精確了,有一點GPT-5.5的感覺,指哪打哪。

   更加的遵循你的指令,這確實對于專業的開發者來說,是件好事。

   但是同時也帶來一個弊端,就是他的主動性,會變弱。

   就是你讓它干A,它現在就只干A,絕不會自作主張覺得誒你這意思是不是順便也想要B然后把B也順帶手給你辦了。

   我自己現在就遇到了,晚上測試的時候,習慣性的沒跟它說一定要去看線上數據不要只看本地代碼,但是在Opus 4.6和4.7的時候,他們都還是會主動的去用我的skill連接線上服務器,看生產環境的數據的,但是Opus 4.8卻兩次都沒主動去看,給我的方案,都是基于本地的,這反而給我帶來了一些麻煩,重新調整了一下文檔和記憶,才好一點。

   對于一個設計好了自己Harness的環境的專業開發者,我覺得會感覺到非常得勁,那其實能感覺到,它的錯誤率和幻覺率,都在降低,很精準。

   但是如果把這個群體,推衍到整個Vibe Coding群體,我其實絕對,不一定是個好事。

   我們視頻組同事今晚在用Opus 4.8來測他們的用Skill來做視頻動效的工作流,發現效果反而變差的,有一個很形象的描述就是。

  

   而且你能明顯的感覺到,更加自信,在過程中跟你確認的時刻變少了。

   比如這個,優化方案出來,直接不確認,直接就自己干了。

  

   因為我們其實很多非專業者,在用AI的時候,是靠著AI的主動性去往前走的,就是真的有的時候會用習慣了那種你懂我意思的爽感。

   你含含糊糊扔一句話過去,它就能猜到你心里那個完整的需求,然后問你是不是,在幫你直接搞出來,這種被理解的感覺,其實還挺上頭的。

   當然這個爽感,是有代價的,就是模型的主觀性太強,代價就是不可控。

   它猜對了你舒服,它猜錯了呢,它就拿著一個你壓根沒提的需求,吭哧吭哧給你干一堆活,最后還得你來擦屁股,這種出發點是好的但是結果是拉的,在長時Agent任務中,尤其要命。

   所以,未來再跟Opus 4.8協同的時候,可能需要,對大家需求表達能力,要求的更高了。

   3. 變得更加誠實了

   這個點更上面有點像,也是Anthropic自己拎出來放在博客核心位置的點。

  

   過去大家一定遇到過,就比如說Claude幫你寫個功能,它噼里啪啦給你寫了一大段,然后特別自信地跟你說,搞定了,沒問題,可以跑了。

   你信了,你一跑,你才發現,另一個地方崩了。

   你回去問它,它又特別自信地說,哦抱歉,問題找到了,對不去我沒有發現,我再改一下,這下絕對沒問題了。

   你又信了,你又跑,然后你又報錯了。

   很多時候經常會出現。

   你要知道,它每一次都那么斬釘截鐵,每一次都那么言之鑿鑿,但每一次,它其實自己心里也沒底,AI,很多時候,只是被訓練得看起來很有把握而已,這個毛病,幾乎是所有大模型的通病。

   這次Opus 4.8,就在這個問題上做了重點的優化。

   官方公告對外說的數字是,4.8讓自己寫的代碼里的瑕疵蒙混過關的概率,比上一代低了大概4倍。

   我又去翻了下這次Opus 4.8的系統卡。

   然后發現了更牛逼的東西。

  

   在偷懶這個問題上,Opus 4.8,好像是唯一一個,能做到0%不良率的模型。

   在我夜里幾個小時的測試與開發中,我也能感覺到,這是真的不偷懶啊,思考的是真細啊。。。

   比如我有一個AIHOT的數據分析頁面,之前Opus 4.7實現的比較粗糙,最大的問題就卡,點一下反應個十幾秒才動彈,問原因就說是這樣的啦,改不了啦,你實時查詢就是這個速度啦。

   之前有次都給我干生氣了。

   Opus 4.8明顯靠譜很多,非常詳細的在全面審查我的代碼,找盡可能需要優化的地方。

  

   我同事的反饋也是這樣。

  

   基本上大家的感覺都差不多。

   Opus 4.8在開發上總體的感覺,是有大進步的。

   4. 創作能力

   同樣的Skill,同樣的創作,比Opus 4.7是有進步的,但是依然比不上Opus 4.6。

   比如我把我我之前寫的AI時代的6個人才特質給抽離出來了,讓Opus 4.8用我的寫作Skill去寫,寫出來的一些句子,是這樣的。

  

   Opus 4.6+我的Skill是絕對不會寫出這種話的,不是XX、而是XX,這是明確的禁用詞,直接給我改成不再是來去規避,真的是耍小聰明。

   還有那個奇怪的比喻,為什么要把靠譜特質的人,比喻成“高速運轉的機器里那點潤滑油”,我是真的有點不理解,這是有什么奇怪的癖好嗎。

   還有這段,非要把一個人,給比喻成一個物化的錨???

  

   還有模型奇妙的大段的無意義的排比,把所謂的AI味的禁忌都犯了個遍。

   讓它根據《流浪地球2》的故事,續寫一個新的地下城的1000字的小故事。

   寫的也挺刻板印象的。

  

   比4.7好,但是確實沒好多少。

   整體的人機味還都挺重的。

   5. 其他更新

  這次Opus 4.8還迭代了下快速模型,官方叫fast mode。

  之前其實就有,你再Claude Code里輸入/fast就有。

  

  只是之前是Opus 4.7的fast就是比較貴,2.5倍的速度,但是是6倍的價格。

  普通版本價格一直是百萬輸入5美元、百萬輸出25美元,然后Opus 4.7 fast模式的價格是輸入30美元、輸出150美元。

   但是這次做了一個還不錯的升級,速度直接達到了標準版的2.5倍的速度,價格卻只有之前版本fast的三分之一,降到了輸入10美元,輸出50美元。

   從標準版的6倍價格,變成了標準版的2倍價格,但是速度沒變。

   也能側面看出來馬斯克的算力確實是給到位了,Claude一下子就財大氣粗了。

   然后還有一個東西,也挺有意思的,是Claude Code的dynamic workflows功能。

   翻譯過來叫動態工作流。

  

   大概作用就是,讓Claude自己寫一套編排腳本,在一次任務里,一口氣拉起幾十個、甚至上百個子agent并行開干,干完它還會先自己驗一遍,確認

   沒問題了,然后把結果交給你。

   原話是:“ 有些問題過于龐大,單次單代理處理難以勝任,尤其是在復雜、遺留的代碼庫中:跨整個服務的缺陷排查、涉及數百個文件的遷移、或是在最終決策前需要從多角度進行壓力測試的方案。動態工作流能夠端到端地處理所有這些任務。”

   觸發方式有兩種。

   第一種是直接跟Claude Code說,創建一個動態工作流balbalbala。

   第二種是,把努力級別調整成一個特殊的選項Ultracode,這個設置會自己會將努力級別調至xhigh,同時讓Claude自動判斷何時使用工作流來處理你的任務。

  

   這次Opus 4.8的更新總結,大概就是這樣。

   我自己還是比較喜歡的,因為在開發上確實有不錯的加成,整體確實變好用了。

   但是在創作上,我還是有點失落的,因為把我的Opus 4.6給頂掉了。。。

   未來為了適配Opus 4.8,可能我們的很多跟內容相關的Prompt和Skill全都得重寫了,因為這玩意牽扯的東西太多了,調研、歷史文獻撰寫、分鏡撰寫、特效生成啥的,全都是內容。。。

   就很煩,好不容易都在Opus 4.6上跑通了,又得全部重新來。

   哎。

   哦對了,Anthropic 這次還留了個更大的鉤子。

   除了Opus這條線,它們手里那個還攥了很久的,比Opus智能還要更高一檔的新模型,代號Mythos,說是過幾周,就能給所有客戶用上了。

   到時候,我想看看這個號稱最牛逼的模型。

   到底是個什么光景。

   AI啊,真好玩。

  >/ 作者:卡茲克

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
央視力捧的天才張家裔,在美國當街下跪求饒,牢A的警告一語成讖

央視力捧的天才張家裔,在美國當街下跪求饒,牢A的警告一語成讖

從零到一研究所
2026-06-11 15:58:55
6月12日世界杯賽程對陣及CCTV5節目安排

6月12日世界杯賽程對陣及CCTV5節目安排

格斗社
2026-06-11 13:37:14
美國宣布查封13個互聯網域名,稱這些域名被中國情報部門用來獲取信息,中方:在全球范圍大肆公然搞間諜活動和情報搜集的,恰恰是美國自己

美國宣布查封13個互聯網域名,稱這些域名被中國情報部門用來獲取信息,中方:在全球范圍大肆公然搞間諜活動和情報搜集的,恰恰是美國自己

極目新聞
2026-06-11 16:05:09
天王嫂們,開始露餡了

天王嫂們,開始露餡了

最人物
2026-06-11 15:41:15
女孩吃席“搶獅子頭”,面目猙獰,終于理解了什么叫上不了臺面!

女孩吃席“搶獅子頭”,面目猙獰,終于理解了什么叫上不了臺面!

林林先生
2026-06-11 13:41:48
慘敗之后!馬刺主帥賽后講話內容曝光,指出史詩級崩盤的真因

慘敗之后!馬刺主帥賽后講話內容曝光,指出史詩級崩盤的真因

夜白侃球
2026-06-11 12:46:26
暨南大學六篇碩士論文研究副詞“趕快”“趕緊”“遲早”,AI一口氣可以寫60篇

暨南大學六篇碩士論文研究副詞“趕快”“趕緊”“遲早”,AI一口氣可以寫60篇

老郭在學習
2026-06-11 10:53:59
華人大爺大鬧國際航班,飛機緊急改降!妻子怒懟:在中國服務更好

華人大爺大鬧國際航班,飛機緊急改降!妻子怒懟:在中國服務更好

鐵錘簡科
2026-06-11 21:10:08
養路費改革:油價降0.8元/升,新能源車0.12元/公里,誰受益?

養路費改革:油價降0.8元/升,新能源車0.12元/公里,誰受益?

周哥一影視
2026-06-11 14:15:11
“沒有她,SpaceX早倒閉了”:全世界最有權力的女性工程師是如何煉成的

“沒有她,SpaceX早倒閉了”:全世界最有權力的女性工程師是如何煉成的

鈦媒體APP
2026-06-11 13:43:26
烏克蘭軍費暴漲50%,排名全球第5,澤連斯基支持率61%

烏克蘭軍費暴漲50%,排名全球第5,澤連斯基支持率61%

史政先鋒
2026-06-11 16:58:31
世界上持續最久的軍事同盟!簽了640年還管用,救了葡萄牙3次命

世界上持續最久的軍事同盟!簽了640年還管用,救了葡萄牙3次命

鶴羽說個事
2026-06-09 23:03:52
曾經落地近90萬的神車!路虎攬勝極光L跌至17.98萬

曾經落地近90萬的神車!路虎攬勝極光L跌至17.98萬

中國能源網
2026-06-11 10:58:56
娘娘都不許伐木累同床了

娘娘都不許伐木累同床了

毒舌扒姨太
2026-06-10 22:47:15
突發快訊!中方宣布制裁菲律賓國防部長,引爆國際輿論

突發快訊!中方宣布制裁菲律賓國防部長,引爆國際輿論

科技虎虎
2026-06-11 22:12:36
4年2.22億!馬刺最快速度交易!總決賽史上最強大逆轉

4年2.22億!馬刺最快速度交易!總決賽史上最強大逆轉

籃球實戰寶典
2026-06-11 14:34:04
武契奇:我計劃辭去塞爾維亞總統一職,時機成熟時會通知大家;塞爾維亞計劃于2026年舉行議會和總統選舉,武契奇表示未來可能出任總理

武契奇:我計劃辭去塞爾維亞總統一職,時機成熟時會通知大家;塞爾維亞計劃于2026年舉行議會和總統選舉,武契奇表示未來可能出任總理

日照日報
2026-06-11 21:44:06
每體:FIFA要求海地修改世界杯球衣

每體:FIFA要求海地修改世界杯球衣

懂球帝
2026-06-11 17:45:27
不堆廣告牌,靠技術“控場”:中國品牌的世界杯新打法

不堆廣告牌,靠技術“控場”:中國品牌的世界杯新打法

時代周報
2026-06-11 17:54:53
市委常委會舉行會議:堅決擁護黨中央決定,堅定不移推動全面從嚴治黨向縱深發展

市委常委會舉行會議:堅決擁護黨中央決定,堅定不移推動全面從嚴治黨向縱深發展

縱相新聞
2026-06-11 17:30:13
2026-06-12 00:20:49
數字生命卡茲克 incentive-icons
數字生命卡茲克
反復橫跳于不同的AI領域,努力分享一些很酷的AI干貨
534文章數 665關注度
往期回顧 全部

科技要聞

淘寶、京東、拼多多、抖音、小紅書被約談

頭條要聞

中方對菲國防部長特奧多羅及其親屬實施制裁

頭條要聞

中方對菲國防部長特奧多羅及其親屬實施制裁

體育要聞

比起總冠軍,更大的懸念成了FMVP?

娛樂要聞

《花少8》陣容大揭秘!秒殺前一季

財經要聞

干細胞生意:17萬一針的希望

汽車要聞

傳祺向往M8 PHEV L/E8 PHEV上市 限時落地價16.84萬起

態度原創

游戲
旅游
教育
時尚
本地

R星最新動態震撼來襲!玩家氣笑了:不如取消《GTA6》

旅游要聞

今年暑期出游風向標:北歐領跑,南京廈門長白山“出圈”,高考生愛上“行走的課堂”

教育要聞

400多分能上的3所公辦本科,畢業能進國企,高考生一定要清楚!

薄荷綠色的單品打造夏日清透感,視覺上清爽又治愈,溫柔減齡

本地新聞

世界杯還沒開始,蘇超已經火到爆梗

無障礙瀏覽 進入關懷版