无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

今天凌晨,Claude Opus 4.8 上線,融資 650 億美金,但更強的還在后面

0
分享至

昨晚,Anthropic 發布了最新一代模型 Claude Opus 4.8。

圈子里照例又是一波跑分截圖刷屏,Opus 4.8 各種領先,編碼能力全面霸榜。


但說實話,我現在對跑分已經無感了,幾乎每家模型發布時都會拿跑分說事。

我覺得真正值得關注的,是兩個 0%。

一個是「謊報率」,就是模型處理數據出了問題,但它裝作沒事跟你說搞定了。

Opus 4.5 這個數字是 0.40,Opus 4.7 降到 0.25,到了 4.8 直接歸零。

另一個是「偷懶調查率」,就是遇到需要深挖的問題,模型敷衍了事給你一個似是而非的答案。

在這個指標上,Opus 4.7 還有 25% 的概率偷懶,而 Opus 4.8 同樣是 0%。

兩個 0%,兩個歷史首次。

如果你用 AI 寫過代碼、做過數據分析、搞過一些研究,就知道最怕的不是它能力不夠,而是它能力不夠還裝出一副自己很厲害的樣子。

Opus 4.8 解決的就是這個問題,它不再假裝什么都會,遇到不確定的東西時,也會主動告訴你「這里我沒把握」。

在我看來,這個迭代比跑分高 10 個百分點重要得多。

那么,Opus 4.8 和前代的 4.6、4.7 到底有什么本質區別?

經過大概體驗后,我把幾個核心差異捋一下。

第一,誠實度和可靠性。

我自己目前用的是 Opus 4.6,也是我認為在內容創作上表現最好的模型,沒有之一。

在 4.6 版本里,Claude 在誠實性上雖然已經比同行好,但仍然有不少「過度自信」的問題。

后來的 4.7 做了改善,到了 4.8 則徹底解決了。

說白了,4.6 像一個能力不錯但愛面子的員工,4.7 像一個嚴謹且能力很強的員工,4.8 像一個真正靠譜的高級工程師。

第二,效率。

同樣的任務,4.8 比 4.7 少用 15% 的步驟,少輸出 35% 的 token。

對開發者來說,token 就是成本。做得更好還更省,這才是真正的代際進步。

第三,編碼能力的躍升幅度。

這么說吧,4.6 到 4.7 的編碼提升是漸進式的,4.7 到 4.8 的提升是跨越式的。

在一些極端測試里,比如給你一個編譯好的二進制文件,不準反編譯,讓模型從零重建源代碼。4.8 在 1M token 預算下的表現,4.7 要 5M 才能追上。

第四,Agent 能力本質上的不同。

4.6 的 Agent 能力還處于「能跑但不夠穩」的階段。4.7 穩定性提升了,但遇到復雜情況還是容易走偏。

4.8 有一個明顯的變化,它開始有了真正的判斷力。

官方放了一個案例,開發者在用 Claude Code 遷移代碼,然后中途出去了,Claude 在后臺自己跑。

跑到一半代碼提交被拒絕了,因為同事在這期間也提交了一個緊急修復。Claude 通知開發者,開發者隨口說「直接強制覆蓋就行」。

但是,Claude 拒絕了。

它判斷出強制覆蓋會丟掉同事剛提交的緊急修復,于是自己把兩邊的改動合并好,保證代碼一致、提交歷史干凈,然后推送。

這不是簡單的「執行指令」,這是在該拒絕的時候拒絕。這是 Agent 從工具進化到協作者的關鍵一步。

這次發布的新能力里還有一個我覺得很強的功能,名字叫「Dynamic Workflows」。

簡單說,就是 Claude 接到一個大任務后自己寫腳本并分配給很多并行的 子 Agent 去做。

做完之后,再互相檢查、互相挑刺,最后匯總結果交給你。

這個功能目前還是預覽狀態,而且 token 消耗遠高于普通對話,不適合隨便拿來用。

不過我覺得,這個能力會成為 Claude Code 未來的殺手锏。

我再說個有意思的事。

4.8 上線后不久,有人通過 API 調用問它「你是誰」,它有時候會說自己是 Qwen,有時候說自己是 DeepSeek。

技術社區對此的猜測是,蒸餾。

也就是說,Opus 4.8 的訓練過程中可能用了其他模型的輸出數據做知識蒸餾。

這個事本身不影響能力,但挺值得玩味。

AI 模型之間的知識流動比我們想象的復雜,你用的可能不是一個純血模型,而是一個融合了多家智慧的混合體。

最后,總結一下。

首先,Opus 4.8 第一次讓 AI 模型做到了誠實。

在所有前沿模型里,它是第一個在可靠性指標上做到零缺陷的。這對企業用戶來說,比性能高 5% 重要十倍。

二是效率。

更強的同時更省 token,這直接影響成本結構。雖然依舊不便宜,但是相較于前代能力提升的同時價格維持一致。

三是 Agent 形態的進化。

從單次回答到長任務執行,再到多 Agent 并行協作,Claude 的產品形態已經不再是一個聊天窗口,而是在變成一個工作系統。

此外,Anthropic 同一天還宣布了 650 億美元融資,估值 9650 億,逼近萬億美金。

接下來幾周,Anthropic 還會放出 Claude Mythos,這頭猛獸出來時不知道又會引發什么超級進化。

按照目前的信息,Mythos 是比 Opus 更高一級的模型。有人猜測,Opus 4.8 本身就是 Mythos 的蒸餾版。

如果真是這樣,那 Mythos 正式上線的那天,才是真正的分水嶺的開始。

對此,我十分期待。

················· 唐韌出品 ·················

安可時刻

我已經到上海了,明后兩天舉辦最新一期 AI 個體戶訓練營。

下午先去見昨天文章里說的那個人,很多人說他現在已經不是普通人了。但我覺得,他依舊是普通人的代表。

沒背景、靠自己、出人頭地,算是完成了階級跨越。

就想我昨天說的,做資源、信息、能力的整合者,這就是他成功的秘訣。

不止是他,我從很多和他類似的人身上都看到了一個共性,快速擁抱變化。

無一例外,這些人基本都在共同擁抱 AI。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
烏克蘭邁出危險一步,拿中國核心利益去換援助,中方是時候反擊了

烏克蘭邁出危險一步,拿中國核心利益去換援助,中方是時候反擊了

古史青云啊
2026-07-01 17:08:28
固態電池神話徹底破滅,中科院曾連發"王炸",電池行業迎來變局

固態電池神話徹底破滅,中科院曾連發"王炸",電池行業迎來變局

黑翼天使
2026-06-24 13:56:28
全網喊話“韋神” 做高考數學卷,沒想到他的一句話,就讓千萬網友瞬間服氣

全網喊話“韋神” 做高考數學卷,沒想到他的一句話,就讓千萬網友瞬間服氣

不二大叔
2026-06-29 14:33:45
日本出錢出技術,印度高鐵終于要建成了,何時能追上中國高鐵?

日本出錢出技術,印度高鐵終于要建成了,何時能追上中國高鐵?

荷蘭豆愛健康
2026-07-01 10:39:09
人活多久,睡覺就知道?醫生:壽命短的人,睡覺一般有這4個特征

人活多久,睡覺就知道?醫生:壽命短的人,睡覺一般有這4個特征

白宸侃片
2026-07-01 16:17:27
會場爆發激烈交鋒,巴拿馬對中方窮追不舍,中國大使火力全開怒懟

會場爆發激烈交鋒,巴拿馬對中方窮追不舍,中國大使火力全開怒懟

史料布籍
2026-07-01 11:54:25
溫柔如你:那不是天賦,是穿過風雨后的選擇

溫柔如你:那不是天賦,是穿過風雨后的選擇

疾跑的小蝸牛
2026-07-01 18:32:49
他是上海社保局原局長,被富豪用美色拉下馬,獲刑18年后怎樣了

他是上海社保局原局長,被富豪用美色拉下馬,獲刑18年后怎樣了

名人家事情事
2026-07-01 07:10:34
45歲李小璐終于認錯了,自曝無戲可拍,后悔自己太“戀愛腦”

45歲李小璐終于認錯了,自曝無戲可拍,后悔自己太“戀愛腦”

南萬說娛26
2026-06-30 08:45:41
首輪淘汰賽才戰罷7場,已有2個小組全軍覆沒,含德國所在死亡E組

首輪淘汰賽才戰罷7場,已有2個小組全軍覆沒,含德國所在死亡E組

智道足球
2026-07-01 17:24:21
3場5球追平挪威隊史紀錄!哈蘭德絕殺后坦言:戰勝巴西隊機會非常小

3場5球追平挪威隊史紀錄!哈蘭德絕殺后坦言:戰勝巴西隊機會非常小

紅星新聞
2026-07-01 08:20:15
女特種兵休假被人販子拐賣,當人販子美美數錢時,竟不知她已在身后

女特種兵休假被人販子拐賣,當人販子美美數錢時,竟不知她已在身后

紅豆講堂
2025-03-24 10:44:33
央視罕見公開西太對峙細節!日艦模擬攻擊遼寧艦,結果沉默?

央視罕見公開西太對峙細節!日艦模擬攻擊遼寧艦,結果沉默?

青青衫書生
2026-06-30 13:24:21
養路費迎來歷史性大調整:脫離油價捆綁,改用按實際里程計費

養路費迎來歷史性大調整:脫離油價捆綁,改用按實際里程計費

生活魔術專家
2026-07-01 10:29:08
科技龍頭扎堆“對子頂”?下半年第一天,A股畫風突變

科技龍頭扎堆“對子頂”?下半年第一天,A股畫風突變

21世紀經濟報道
2026-07-01 18:46:06
中國國際金融股份有限公司黨委書記、董事長陳亮:金融報國踐行初心使命

中國國際金融股份有限公司黨委書記、董事長陳亮:金融報國踐行初心使命

經濟日報
2026-07-01 07:31:15
原來有錢人也會抑郁啊!網友扎心道出:財務是自由了人心也看透了

原來有錢人也會抑郁啊!網友扎心道出:財務是自由了人心也看透了

墜入二次元的海洋
2026-07-01 08:54:54
我國首位香港航天員黎家盈在空間站展示香港特別行政區區旗,感謝祖國、祝福香港

我國首位香港航天員黎家盈在空間站展示香港特別行政區區旗,感謝祖國、祝福香港

政知新媒體
2026-07-01 16:00:35
"三哥,你尾款我不要了!"中國外貿人反殺印度老賴,招招絕了!

"三哥,你尾款我不要了!"中國外貿人反殺印度老賴,招招絕了!

明天后天大后天
2026-06-04 00:22:08
馬克龍沒想到,歐洲迎超40度高溫后,中國竟成法國的“救命稻草”

馬克龍沒想到,歐洲迎超40度高溫后,中國竟成法國的“救命稻草”

瀲滟晴方DAY
2026-06-30 13:53:37
2026-07-01 19:27:00
唐韌 incentive-icons
唐韌
用產品思維解決難題
1499文章數 2043關注度
往期回顧 全部

科技要聞

Claude Code被曝“植入木馬”識別中國用戶

頭條要聞

副行長借朋友名義貸款470萬 400萬自用70萬給朋友用

頭條要聞

副行長借朋友名義貸款470萬 400萬自用70萬給朋友用

體育要聞

賣球衣救子的門將,把德國撲出了世界杯

娛樂要聞

張凌赫:我連心疼你都隔著時差

財經要聞

新氧貸款:宣傳年化15%,實際頂格24%

汽車要聞

半程收官 上汽集團銷量突破200萬輛

態度原創

數碼
家居
房產
健康
藝術

數碼要聞

零刻ME Pro四盤位H255新品NAS迷你主機發布,2739元起

家居要聞

傳奇筑 日常詩

房產要聞

洋房盛大交付,中海丨南海·叁號院獻映世界海岸的人居答案

年糕湯圓別油炸,水煮清蒸更健康

藝術要聞

這5件2026屆畢業油畫作品,被中國美術學院美術館收藏

無障礙瀏覽 進入關懷版