无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

<style id="ffwfj"><form id="ffwfj"><legend id="ffwfj"></legend></form></style>

<center id="ffwfj"><sup id="ffwfj"></sup></center>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

實測Claude Opus 4.8，這可能是第一個不會偷懶的模型。

2026-05-29 06:08:45　來源: 數字生命卡茲克

天津舉報

0

分享至

　　大半夜的，剛準備早睡一下。

　　然后，我的AIHOT就突然彈了個消息，Claude Opus 4.8上線了。

　　

　　除此之外，又發了另一個消息。

　　

　　 完成了新一輪650億美元的融資，估值逼近一萬億美元。。。

　　 前有港股智譜7000億市值，后有Anthropic估值7萬億人民幣。

　　 果然AI行業的造富神話，比鬼故事還要鬼故事。

　　但是說實話，距離4月17號Opus 4.7上線，僅僅才過去42天，一個半月，又一個新模型扔出來，在Cluade的發布歷史上，從來沒有過。

　　看來確實GPT-5.5和Codex給的壓力確實太大了，Opus 4.7的口碑確實把自己也給拉完了，所以沒辦法，要最快速度把Opus 4.8拉出來救火，要不然真的可能被Codex偷家偷瘋了。

　　在模型的本身參數比如最大上下文、輸出長度、知識庫時間啥的，跟Opus 4.7幾乎是一樣。

　　

　　價格也沒變， $5/M輸入、$25/M輸出。

　　所以基本上用的也是Opus 4.7的基模上直接又調了一下。

　　然后，我就反應過來了一件事，我靠，你Opus 4.8上了，你不會要把我的Opus 4.6給頂掉了吧。

　　因為Opus 4.5在內容創作上是我覺得的巔峰，Opus比Opus 4.7差了一點，但是我覺得還能用，而Opus 4.7是我完全覺得不可用的狀態。

　　按照claude在過去網頁端只保留兩代模型的優良傳統，Opus 4.6可能會被頂掉。

　　我抱著進展的心情一看。

　　

　　 Claude我干你大爺。

　　行吧，只能接受，說不定Opus 4.8，在內容創作上更好呢？（雖然我幾乎不對這個事情抱有期待了。）

　　說回Claude Opus 4.8。

　　

　　不廢話，先看跑分截圖吧。

　　

　　跑分我真的不想多聊了，很沒勁，反正就是贏學。

　　數字又高了一點，大概就是這樣。

　　唯一一個在上面窮盡洪荒之力還是沒跑過GPT-5.5的類別，是Terminal-Bench 2.1。

　　這玩意是一個Agentic基準，大概就是用來評估Agent在真實命令行環境里干活的能力，考的就是把模型直接扔進一個沙盒終端里，讓它自己去查文件、敲命令、看報錯、調試等等，看看能不能跨多個步驟把一個任務做完。

　　

　　這個是在Claude口徑里，唯一一個跑不過GPT-5.5的，而且這個還挺要命的。

　　因為 Terminal-Bench基本代表著Agent開發能力的最高峰，窮盡了洪荒之力也沒干過GPT-5.5，那這過兩天GPT-5.6出來，那還玩個屁啊。

　　這也從側面說明了，GPT-5.5的開發能力，是真的強。。。

　　然后再說一說這次更新的一些特性。

　　 1. 思考強度給所有人開放

　　這次 4.8 上線，同時把一個叫 effort（努力程度）的控制，開放給所有人了，也就是你在Chat模式下，也可以調整模型的努力程度了，所有套餐都有，免費用戶也有。

　　 Claude Code和Cowork用戶對這個東西肯定很熟悉。

　　位置就在模型選擇那個地方旁邊。

　　

　　上面那個從Low到Max，就是努力等級。

　　下面那個自適應思考記得別關，還是開著，組合起來用就行。

　　我自己其實常年喜歡默認開著Extra，然后開大活就上Max的，因為Opus 4.7只有自適應思考，不是很好用，Opus 4.8終于給弄回來了。

　　 2. 變得更精確但也更不主動了

　　 Opus 4.8更新以后，有一個明顯的感覺，就是它更加的精確了，有一點GPT-5.5的感覺，指哪打哪。

　　更加的遵循你的指令，這確實對于專業的開發者來說，是件好事。

　　但是同時也帶來一個弊端，就是他的主動性，會變弱。

　　就是你讓它干A，它現在就只干A，絕不會自作主張覺得誒你這意思是不是順便也想要B然后把B也順帶手給你辦了。

　　我自己現在就遇到了，晚上測試的時候，習慣性的沒跟它說一定要去看線上數據不要只看本地代碼，但是在Opus 4.6和4.7的時候，他們都還是會主動的去用我的skill連接線上服務器，看生產環境的數據的，但是Opus 4.8卻兩次都沒主動去看，給我的方案，都是基于本地的，這反而給我帶來了一些麻煩，重新調整了一下文檔和記憶，才好一點。

　　對于一個設計好了自己Harness的環境的專業開發者，我覺得會感覺到非常得勁，那其實能感覺到，它的錯誤率和幻覺率，都在降低，很精準。

　　但是如果把這個群體，推衍到整個Vibe Coding群體，我其實絕對，不一定是個好事。

　　我們視頻組同事今晚在用Opus 4.8來測他們的用Skill來做視頻動效的工作流，發現效果反而變差的，有一個很形象的描述就是。

　　

　　 而且你能明顯的感覺到，更加自信，在過程中跟你確認的時刻變少了。

　　比如這個，優化方案出來，直接不確認，直接就自己干了。

　　

　　因為我們其實很多非專業者，在用AI的時候，是靠著AI的主動性去往前走的，就是真的有的時候會用習慣了那種你懂我意思的爽感。

　　你含含糊糊扔一句話過去，它就能猜到你心里那個完整的需求，然后問你是不是，在幫你直接搞出來，這種被理解的感覺，其實還挺上頭的。

　　當然這個爽感，是有代價的，就是模型的主觀性太強，代價就是不可控。

　　它猜對了你舒服，它猜錯了呢，它就拿著一個你壓根沒提的需求，吭哧吭哧給你干一堆活，最后還得你來擦屁股，這種出發點是好的但是結果是拉的，在長時Agent任務中，尤其要命。

　　所以，未來再跟Opus 4.8協同的時候，可能需要，對大家需求表達能力，要求的更高了。

　　 3. 變得更加誠實了

　　這個點更上面有點像，也是Anthropic自己拎出來放在博客核心位置的點。

　　

　　過去大家一定遇到過，就比如說Claude幫你寫個功能，它噼里啪啦給你寫了一大段，然后特別自信地跟你說，搞定了，沒問題，可以跑了。

　　你信了，你一跑，你才發現，另一個地方崩了。

　　你回去問它，它又特別自信地說，哦抱歉，問題找到了，對不去我沒有發現，我再改一下，這下絕對沒問題了。

　　你又信了，你又跑，然后你又報錯了。

　　很多時候經常會出現。

　　你要知道，它每一次都那么斬釘截鐵，每一次都那么言之鑿鑿，但每一次，它其實自己心里也沒底，AI，很多時候，只是被訓練得看起來很有把握而已，這個毛病，幾乎是所有大模型的通病。

　　這次Opus 4.8，就在這個問題上做了重點的優化。

　　官方公告對外說的數字是，4.8讓自己寫的代碼里的瑕疵蒙混過關的概率，比上一代低了大概4倍。

　　我又去翻了下這次Opus 4.8的系統卡。

　　然后發現了更牛逼的東西。

　　

　　在偷懶這個問題上，Opus 4.8，好像是唯一一個，能做到0%不良率的模型。

　　在我夜里幾個小時的測試與開發中，我也能感覺到，這是真的不偷懶啊，思考的是真細啊。。。

　　比如我有一個AIHOT的數據分析頁面，之前Opus 4.7實現的比較粗糙，最大的問題就卡，點一下反應個十幾秒才動彈，問原因就說是這樣的啦，改不了啦，你實時查詢就是這個速度啦。

　　之前有次都給我干生氣了。

　　 Opus 4.8明顯靠譜很多，非常詳細的在全面審查我的代碼，找盡可能需要優化的地方。

　　

　　我同事的反饋也是這樣。

　　

　　基本上大家的感覺都差不多。

　　 Opus 4.8在開發上總體的感覺，是有大進步的。

　　 4. 創作能力

　　同樣的Skill，同樣的創作，比Opus 4.7是有進步的，但是依然比不上Opus 4.6。

　　比如我把我我之前寫的AI時代的6個人才特質給抽離出來了，讓Opus 4.8用我的寫作Skill去寫，寫出來的一些句子，是這樣的。

　　

　　 Opus 4.6+我的Skill是絕對不會寫出這種話的，不是XX、而是XX，這是明確的禁用詞，直接給我改成不再是來去規避，真的是耍小聰明。

　　還有那個奇怪的比喻，為什么要把靠譜特質的人，比喻成“高速運轉的機器里那點潤滑油”，我是真的有點不理解，這是有什么奇怪的癖好嗎。

　　還有這段，非要把一個人，給比喻成一個物化的錨？？？

　　

　　還有模型奇妙的大段的無意義的排比，把所謂的AI味的禁忌都犯了個遍。

　　讓它根據《流浪地球2》的故事，續寫一個新的地下城的1000字的小故事。

　　寫的也挺刻板印象的。

　　

　　比4.7好，但是確實沒好多少。

　　整體的人機味還都挺重的。

　　 5. 其他更新

　　這次Opus 4.8還迭代了下快速模型，官方叫fast mode。

　　之前其實就有，你再Claude Code里輸入/fast就有。

　　

　　只是之前是Opus 4.7的fast就是比較貴，2.5倍的速度，但是是6倍的價格。

　　普通版本價格一直是百萬輸入5美元、百萬輸出25美元，然后Opus 4.7 fast模式的價格是輸入30美元、輸出150美元。

　　但是這次做了一個還不錯的升級，速度直接達到了標準版的2.5倍的速度，價格卻只有之前版本fast的三分之一，降到了輸入10美元，輸出50美元。

　　從標準版的6倍價格，變成了標準版的2倍價格，但是速度沒變。

　　也能側面看出來馬斯克的算力確實是給到位了，Claude一下子就財大氣粗了。

　　然后還有一個東西，也挺有意思的，是Claude Code的dynamic workflows功能。

　　翻譯過來叫動態工作流。

　　

　　大概作用就是，讓Claude自己寫一套編排腳本，在一次任務里，一口氣拉起幾十個、甚至上百個子agent并行開干，干完它還會先自己驗一遍，確認

　　沒問題了，然后把結果交給你。

　　原話是：“ 有些問題過于龐大，單次單代理處理難以勝任，尤其是在復雜、遺留的代碼庫中：跨整個服務的缺陷排查、涉及數百個文件的遷移、或是在最終決策前需要從多角度進行壓力測試的方案。動態工作流能夠端到端地處理所有這些任務。”

　　觸發方式有兩種。

　　第一種是直接跟Claude Code說，創建一個動態工作流balbalbala。

　　第二種是，把努力級別調整成一個特殊的選項Ultracode，這個設置會自己會將努力級別調至xhigh，同時讓Claude自動判斷何時使用工作流來處理你的任務。

　　

　　這次Opus 4.8的更新總結，大概就是這樣。

　　我自己還是比較喜歡的，因為在開發上確實有不錯的加成，整體確實變好用了。

　　但是在創作上，我還是有點失落的，因為把我的Opus 4.6給頂掉了。。。

　　未來為了適配Opus 4.8，可能我們的很多跟內容相關的Prompt和Skill全都得重寫了，因為這玩意牽扯的東西太多了，調研、歷史文獻撰寫、分鏡撰寫、特效生成啥的，全都是內容。。。

　　就很煩，好不容易都在Opus 4.6上跑通了，又得全部重新來。

　　哎。

　　哦對了，Anthropic 這次還留了個更大的鉤子。

　　除了Opus這條線，它們手里那個還攥了很久的，比Opus智能還要更高一檔的新模型，代號Mythos，說是過幾周，就能給所有客戶用上了。

　　到時候，我想看看這個號稱最牛逼的模型。

　　到底是個什么光景。

　　 AI啊，真好玩。

　　>/ 作者：卡茲克

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

3D創作迎來ChatGPT時刻：Meshy發布全球首個3D AI Agent

量子位 2026-06-11 12:18:09
0 跟貼 0
Claude Fable 5省錢秘訣來了：調成Low檔比Opus更便宜

量子位 2026-06-11 16:23:55
0 跟貼 0

被罵翻了！Anthropic認錯：曾暗中降低Claude性能阻止競品開發，現已撤回

華爾街見聞官方 2026-06-11 13:53:28
34 跟貼 34

做AI研究時Claude會偷偷變笨，Anthropic被研究界圍攻

機器之心Pro 2026-06-10 15:03:01
1 跟貼 1
AI時代，WPS筆記把重點放回“整理”

經濟觀察報 2026-06-10 11:50:51
2 跟貼 2

AI智能體走出實驗室！中科院等機構聯合發布首個OpenClaw系統性綜述

新智元 2026-06-11 16:06:35
0 跟貼 0

“AI領域最被濫用的術語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0
8億用戶的釘釘，只有1000人在扛

澎湃新聞 2026-06-11 08:00:27
475 跟貼 475

LLM數據量大管飽，機器人數據卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0
安心養蝦！從OpenClaw看云上AI安全落地路徑

量子位 2026-03-31 20:40:57
0 跟貼 0
一行代碼沒寫，她用谷歌AI工具給自己做了個靈感管理App

智東西 2026-06-11 22:01:56
0 跟貼 0
MIT研究生用NotebookLM兩天學完一學期課程

量子位 2026-03-22 10:50:49
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
Agent輸出到底該用誰？卡帕西轉發：試試讓AI輸出HTML

量子位 2026-05-13 07:19:50
0 跟貼 0
博士生如何用龍蝦做知識管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
大神程序員蒸餾自己，用16個skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0
陶哲軒：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
邱錫鵬：未來我們一定會進入泛情境智能時代

量子位 2026-05-21 08:04:26
0 跟貼 0
百度沈抖自曝：老忘吃藥，用AI做了個小程序

量子位 2026-03-27 11:25:23
0 跟貼 0
Anthropic的AI讀心術，讓人類讀懂大模型在想啥

量子位 2026-05-10 23:00:57
0 跟貼 0
讓你的龍蝦秒變電影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟貼 0
對談樓天城：Harness會成為AI時代最關鍵的能力之一

量子位 2026-05-06 15:41:08
0 跟貼 0
亦莊機器人馬拉松現場名場面合集

量子位 2026-04-20 00:34:54
0 跟貼 0
王曉野：Working Agent將是下一個爆發點

量子位 2026-05-21 08:05:51
0 跟貼 0
釘釘火線換帥，阿里自我迭代

鈦媒體APP 2026-06-11 18:19:29
0 跟貼 0
Anthropic宣告「遞歸自我提升」時代到來，全景綜述帶你一探究竟

機器之心Pro 2026-06-11 16:50:50
1 跟貼 1
當男人隨口的話要被翻譯出來時，這確實太專業了吧

頂峰相見劇場 2026-06-10 08:27:06
1 跟貼 1
假如生在中國，Claude能值多少錢？| 蔚言大義

經濟觀察報 2026-06-11 12:54:12
0 跟貼 0
谷歌開源26B文本擴散MoE，劈柴：生成速度像賽馬一樣快

機器之心Pro 2026-06-11 14:31:23
0 跟貼 0
斬獲15個頂級零日漏洞:0G Lab聯合新國立,北大等構建智能體框架

機器之心Pro 2026-06-11 14:26:37
0 跟貼 0
看完高考英語試卷后，我驚出一身汗：唯有父母看懂這趨勢，孩子才能少走10年彎路！

萌芽研究所BUD 2026-06-11 22:25:56
0 跟貼 0
剛剛，Anthropic發布 Claude Fable 5 神話級模型正式解禁！

新智元 2026-06-10 11:29:23
0 跟貼 0
媒體：29分大逆轉+補籃絕殺尼克斯隊的"劇本"太神奇

北青網-北京青年報 2026-06-11 13:19:02
1033 跟貼 1033
離了這個翻譯你還怎么活啊

靚仔影視君 2026-06-11 16:02:33
1 跟貼 1
分數沒漲，卻省了21%步數？Opus 4.8的真實升級

算力游俠 2026-06-09 16:11:15
0 跟貼 0
“初級班”近萬“督導班”28萬白領高管沉醉的心理課：痛哭、尖叫、下跪……療愈還是“洗腦”？丨紅星深潛

紅星新聞 2026-06-11 11:28:53
1726 跟貼 1726
這還需要翻譯？

丙子看劇 2026-06-09 16:35:55
0 跟貼 0
央視官宣“空天母艦”參數，美媒：中國真要搞？

揭秘世間萬象 2026-06-10 02:30:54
0 跟貼 0

央視力捧的天才張家裔，在美國當街下跪求饒，牢A的警告一語成讖

央視力捧的天才張家裔，在美國當街下跪求饒，牢A的警告一語成讖

從零到一研究所

2026-06-11 15:58:55

6月12日世界杯賽程對陣及CCTV5節目安排

6月12日世界杯賽程對陣及CCTV5節目安排

格斗社

2026-06-11 13:37:14

美國宣布查封13個互聯網域名，稱這些域名被中國情報部門用來獲取信息，中方：在全球范圍大肆公然搞間諜活動和情報搜集的，恰恰是美國自己

美國宣布查封13個互聯網域名，稱這些域名被中國情報部門用來獲取信息，中方：在全球范圍大肆公然搞間諜活動和情報搜集的，恰恰是美國自己

極目新聞

2026-06-11 16:05:09

天王嫂們，開始露餡了

最人物

2026-06-11 15:41:15

女孩吃席“搶獅子頭”，面目猙獰，終于理解了什么叫上不了臺面！

女孩吃席“搶獅子頭”，面目猙獰，終于理解了什么叫上不了臺面！

林林先生

2026-06-11 13:41:48

慘敗之后！馬刺主帥賽后講話內容曝光，指出史詩級崩盤的真因

慘敗之后！馬刺主帥賽后講話內容曝光，指出史詩級崩盤的真因

夜白侃球

2026-06-11 12:46:26

暨南大學六篇碩士論文研究副詞“趕快”“趕緊”“遲早”，AI一口氣可以寫60篇

暨南大學六篇碩士論文研究副詞“趕快”“趕緊”“遲早”，AI一口氣可以寫60篇

老郭在學習

2026-06-11 10:53:59

華人大爺大鬧國際航班，飛機緊急改降！妻子怒懟：在中國服務更好

華人大爺大鬧國際航班，飛機緊急改降！妻子怒懟：在中國服務更好

鐵錘簡科

2026-06-11 21:10:08

養路費改革：油價降0.8元/升，新能源車0.12元/公里，誰受益？

養路費改革：油價降0.8元/升，新能源車0.12元/公里，誰受益？

周哥一影視

2026-06-11 14:15:11

“沒有她，SpaceX早倒閉了”：全世界最有權力的女性工程師是如何煉成的

“沒有她，SpaceX早倒閉了”：全世界最有權力的女性工程師是如何煉成的

鈦媒體APP

2026-06-11 13:43:26

烏克蘭軍費暴漲50%，排名全球第5，澤連斯基支持率61%

烏克蘭軍費暴漲50%，排名全球第5，澤連斯基支持率61%

史政先鋒

2026-06-11 16:58:31

世界上持續最久的軍事同盟！簽了640年還管用，救了葡萄牙3次命

世界上持續最久的軍事同盟！簽了640年還管用，救了葡萄牙3次命

鶴羽說個事

2026-06-09 23:03:52

曾經落地近90萬的神車！路虎攬勝極光L跌至17.98萬

曾經落地近90萬的神車！路虎攬勝極光L跌至17.98萬

中國能源網

2026-06-11 10:58:56

娘娘都不許伐木累同床了

毒舌扒姨太

2026-06-10 22:47:15

突發快訊！中方宣布制裁菲律賓國防部長，引爆國際輿論

突發快訊！中方宣布制裁菲律賓國防部長，引爆國際輿論

科技虎虎

2026-06-11 22:12:36

4年2.22億！馬刺最快速度交易！總決賽史上最強大逆轉

4年2.22億！馬刺最快速度交易！總決賽史上最強大逆轉

籃球實戰寶典

2026-06-11 14:34:04

武契奇：我計劃辭去塞爾維亞總統一職，時機成熟時會通知大家；塞爾維亞計劃于2026年舉行議會和總統選舉，武契奇表示未來可能出任總理

武契奇：我計劃辭去塞爾維亞總統一職，時機成熟時會通知大家；塞爾維亞計劃于2026年舉行議會和總統選舉，武契奇表示未來可能出任總理

日照日報

2026-06-11 21:44:06

每體：FIFA要求海地修改世界杯球衣

每體：FIFA要求海地修改世界杯球衣

懂球帝

2026-06-11 17:45:27

不堆廣告牌，靠技術“控場”：中國品牌的世界杯新打法

不堆廣告牌，靠技術“控場”：中國品牌的世界杯新打法

時代周報

2026-06-11 17:54:53

市委常委會舉行會議：堅決擁護黨中央決定，堅定不移推動全面從嚴治黨向縱深發展

市委常委會舉行會議：堅決擁護黨中央決定，堅定不移推動全面從嚴治黨向縱深發展

縱相新聞

2026-06-11 17:30:13

數字生命卡茲克

反復橫跳于不同的AI領域，努力分享一些很酷的AI干貨

534文章數 665關注度

往期回顧全部

科技要聞

淘寶、京東、拼多多、抖音、小紅書被約談

頭條要聞

中方對菲國防部長特奧多羅及其親屬實施制裁

頭條要聞

中方對菲國防部長特奧多羅及其親屬實施制裁

體育要聞

比起總冠軍，更大的懸念成了FMVP？

娛樂要聞

《花少8》陣容大揭秘！秒殺前一季

財經要聞

干細胞生意：17萬一針的希望

汽車要聞

傳祺向往M8 PHEV L/E8 PHEV上市限時落地價16.84萬起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

旅游

教育

時尚

本地

R星最新動態震撼來襲!玩家氣笑了:不如取消《GTA6》

旅游要聞

今年暑期出游風向標：北歐領跑，南京廈門長白山“出圈”，高考生愛上“行走的課堂”

教育要聞

400多分能上的3所公辦本科，畢業能進國企，高考生一定要清楚！

薄荷綠色的單品打造夏日清透感，視覺上清爽又治愈，溫柔減齡

本地新聞

世界杯還沒開始，蘇超已經火到爆梗

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版