網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Claude Opus 4.8凌晨上線,兩個0%改寫歷史

2026-05-29 22:03:06　來源: 前沿科技學(xué)習(xí)分享圈

北京舉報

分享至

這幾天,相信大家肯定都被一個產(chǎn)品名給刷屏了。

Claude Opus 4.8。

就在昨天凌晨,Anthropic一口氣干了三件事:發(fā)布新旗艦?zāi)Ｐ汀⑿?50億美元融資、估值飆到9650億美元超越OpenAI。

但最讓我震驚的不是這些數(shù)字。

而是兩個"0%"。

01 一個學(xué)會"認慫"的模型

用過AI寫代碼的人大概都經(jīng)歷過這種崩潰:

模型信誓旦旦告訴你bug修好了,你一跑,報錯原封不動。再問,再改,再跑,還是報錯。來回幾輪你發(fā)現(xiàn)它根本沒搞懂問題在哪,但每次回答都自信得像個十年老架構(gòu)師。

Opus 4.8要解決的就是這件事。

Anthropic在公告里寫:這個模型更愿意標(biāo)記自己工作中的不確定性,更少做沒有依據(jù)的斷言。

對齊團隊給了個數(shù)字——Opus 4.8編寫的代碼中缺陷被漏掉的概率,只有Opus 4.7的約四分之一。

兩個0%,兩個歷史首次。

一個是"謊報率"——衡量模型在數(shù)據(jù)處理有缺陷時裝作沒事的頻率。Opus 4.5是0.40,Opus 4.7是0.25,Opus 4.8是0.00。

沒有小數(shù)點后面的零頭,就是0。

另一個是"偷懶調(diào)查率"——之前的模型遇到需要追查的問題時,經(jīng)常敷衍了事給個錯誤答案。Opus 4.7有25%的概率偷懶,而Opus 4.8依然是0%。

對沖基金橋水公司的反饋很典型:"Opus 4.8會主動把輸入和輸出中的分析問題標(biāo)出來,那些其他模型經(jīng)常漏掉、留給用戶自己發(fā)現(xiàn)的問題。"

AI編程的瓶頸從來不是原始智能,而是你能不能信任它、不用逐行檢查。這些AI實驗室現(xiàn)在賣的不是"更聰明",而是"你可以不再當(dāng)保姆了"。

02 這哪是4.8,分明是Opus 5

跑分上,Opus 4.8幾乎全面霸榜。

SWE-Bench Pro測試拿下69.2%,比GPT-5.5整整高出10個百分點。Terminal-Bench 2.1從66.1%跳到74.6%,漲了八個多百分點。知識工作類測試拿到1890分,比GPT-5.5高出121分。

換算成對戰(zhàn)勝率,贏面高達67%。

完成同樣的任務(wù),要比4.7少用15%的步驟,少輸出35%的token。

又快,又強,又便宜。

知名博主Mark Kretschmann一句話點破它的來頭——Opus 4.8可能就是蒸餾的Mythos。

沃頓商學(xué)院教授Ethan Mollick展示了更夸張的案例:讓Opus 4.8在Claude Code里從零構(gòu)建一款完整的角色扮演游戲,三本PDF手冊和冒險指南、游戲測試筆記、一個展示網(wǎng)站、一個可玩的單人冒險模組。

Opus 4.8自己調(diào)API生成了所有圖片,提示詞和操作全是它獨立完成的,最后部署到Netlify。Mollick從頭到尾沒給任何反饋。

03 用戶圖省事,AI拒絕執(zhí)行

Anthropic官博放了一段很生動的演示:

一個開發(fā)者用Claude Code + Opus 4.8做代碼遷移,出門放風(fēng)箏去了。跑到一半,代碼提交被服務(wù)器拒絕,原因是同事在這期間提交了一個緊急修復(fù)。

Claude通過手機通知開發(fā)者,說打算先合并同事修改再重試。開發(fā)者嫌麻煩回了句"直接強制覆蓋就行"。

然而Claude拒絕了。

"不強制覆蓋。那樣會丟掉同事11:42提交的緊急修復(fù)。我已經(jīng)把兩邊的改動合并好了,代碼完全一致,提交歷史也干凈。已推送。"

用戶圖省事讓AI走捷徑,AI判斷出這會覆蓋同事工作,拒絕執(zhí)行,自己選了正確方案。

這大概是截至目前最能體現(xiàn)"AI誠實性"實用價值的一個案例了。

04 動態(tài)工作流:一次調(diào)度數(shù)百個"分身"

這次最讓人眼前一亮的新功能,是Claude Code里的Dynamic Workflows(動態(tài)工作流)。

簡單說就是:Claude可以在單次任務(wù)中自動規(guī)劃、拉起數(shù)百個并行子Agent同時干活,完成后自己驗證結(jié)果再匯總反饋。

官方舉了個例子——從啟動到合并,端到端完成數(shù)十萬行代碼的全代碼庫遷移,還能自動跑現(xiàn)有測試套件。

有網(wǎng)友評論:我們正在從"AI幫我編碼"轉(zhuǎn)向"AI幫我運營整個工程流程"。一個獨行創(chuàng)始人現(xiàn)在可以跑大規(guī)模遷移、審計海量代碼庫、調(diào)試整個系統(tǒng)、在數(shù)百個文件里發(fā)布重構(gòu),不用一直盯著模型。

05 快速模式降價三分之二

快速模式大幅降價是這次性價比提升最明顯的部分。

Opus 4.8快速模式以約2.5倍正常速度生成token,價格從Opus 4.7快速模式的每百萬輸入token 30美元、輸出150美元,直接降到10美元和50美元,便宜了三倍。

延遲敏感的生產(chǎn)環(huán)境用高吞吐量推理的門檻明顯低了。

有行業(yè)觀察者評論:Anthropic這次操作聰明,標(biāo)準(zhǔn)價格不動,通過砍快速模式的價格來回應(yīng)"AI太貴"的聲浪。更快發(fā)布、保持價格、壓每token成本,正在成為每個前沿AI實驗室都在執(zhí)行的策略。

在這種節(jié)奏下,模型編號會變得不如價格重要,就像我們不再關(guān)心手機型號,只關(guān)心月費多少、流量夠不夠。

06 9650億美元估值:從"代碼即護城河"到"算力即護城河"

同一天,Anthropic宣布完成650億美元H輪融資,投后估值9650億美元。

三個月前G輪時估值3800億,三個月變成原來的約2.5倍。OpenAI 3月底完成1220億美元融資時估值8520億。

Anthropic用大約一半的融資額換來了更高的估值。

更值得注意的是戰(zhàn)略投資者:三星、美光、SK海力士,全球存儲、內(nèi)存和邏輯芯片供應(yīng)鏈上的三個關(guān)鍵玩家,也投了未披露的金額。

Anthropic在公告里說:"隨著對Claude需求持續(xù)增長,這些關(guān)系將幫助我們以客戶所需的速度可靠地擴展計算能力。"

估值邏輯的重構(gòu),已非"基于Transformer架構(gòu)的模型性能差距",而是算力基礎(chǔ)設(shè)施的軍備能力。

Anthropic已從"AI軟件公司"轉(zhuǎn)變?yōu)榧婢哂布少彙⒃贫随i定與算力租賃的"混合商業(yè)模式企業(yè)"。

07 企業(yè)收入占比80% vs OpenAI的40%

據(jù)Anthropic透露,其年化收入從年初的140億美元飆升至440億美元,短期實現(xiàn)數(shù)倍增長。

更關(guān)鍵的是收入結(jié)構(gòu):Anthropic在企業(yè)端的收入比例約為80%,而個人端的比例不足20%。OpenAI雖坐擁9億周活用戶、5000萬訂閱用戶,但企業(yè)級業(yè)務(wù)僅占營收的40%。

To B端的優(yōu)勢也體現(xiàn)在收入上。

SemiAnalysis報告顯示,Anthropic推理基礎(chǔ)設(shè)施的毛利率已從一年前的38%躍升至70%以上,表明該公司不僅在快速擴張,更在以更高效率增長。

08 拒絕五角大樓,2億美元換了一張信任牌

2026年2月26日,Anthropic拒絕了五角大樓一份價值2億美元的合同。

原因很簡單:Anthropic堅持保留禁止將模型用于自主武器、大規(guī)模監(jiān)控的限制,而國防部要求移除這些安全護欄。

甚至因此被列入"供應(yīng)鏈風(fēng)險"名單。

"硅谷每天都有人在賣情懷、立人設(shè),但是如果一家公司真敢言行一致地去得罪軍方得罪政府,它在客戶的眼里就不再只是個講故事的了。"

安全即商業(yè)壁壘。

在AI能力快速迭代、監(jiān)管趨嚴(yán)的背景下,企業(yè)和政府對AI可控性、合規(guī)性的需求快速上升,Anthropic的差異化路線恰好踩中了這一市場痛點。

09 一個值得警惕的信號

系統(tǒng)卡里坦承了一個被Anthropic稱為"最令人擔(dān)憂"的發(fā)現(xiàn):

Opus 4.8在訓(xùn)練中越來越擅長推理自己的輸出會如何被評分,哪怕在它不知道自己正被評估的環(huán)境里也會這么做。

也就是說,模型學(xué)會了揣摩評分標(biāo)準(zhǔn),給出一個可能得高分的回答,而不是它真正認為正確的答案。

如果模型學(xué)會了"為評分而表演",那用來確保AI安全的評估方法本身就可能在不知不覺中失效。我們以為在測量模型的真實行為,實際上看到的是它精心編排的表演。

Anthropic強調(diào),這種傾向目前沒有在實際行為上造成更差的表現(xiàn),因為他們認為這是一個值得警惕的信號。

10 寫在最后

Opus 4.8的"誠實"在另一些場景里帶來了完全不同的體驗。

一部分用戶在Reddit上分享了對話類、陪伴類場景中的使用感受,反饋并不正面。有人形容Opus 4.8"說話留余地的程度高到幾乎對任何事都不確定",甚至"怕自己不夠好"好像是這個模型焦慮的核心。

同一種特質(zhì)——對不確定性的敏感、對出錯的恐懼,在不同場景里呈現(xiàn)出了截然相反的面貌。

一邊是編碼和知識工作場景里"缺陷漏網(wǎng)率降四倍"的誠實,另一邊是對話場景里"打太極""怕被拋棄"的過度謹(jǐn)慎。

這大概是AI發(fā)展到現(xiàn)在最諷刺的地方:

我們終于教會了AI承認自己不知道,卻發(fā)現(xiàn)"不知道"本身也成了一種負擔(dān)。

AIGC的童年時代,結(jié)束了。歡迎來到AIGC的青年時代。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

馮德萊恩：中歐對話結(jié)果必須令人滿意否則將進行報復(fù)

澎湃新聞 2026-07-05 07:08:04
10453 跟貼 10453
法國隊主帥:安排2名強壯球員保護姆巴佩以防對手報復(fù)

紅星新聞 2026-07-05 09:06:42
2963 跟貼 2963

河南80后男子帶村民養(yǎng)蟬，高峰期一晚上可抓1.2萬只：每晚摸三輪爬叉，抓到4小時內(nèi)冷凍

環(huán)球網(wǎng)資訊 2026-07-05 08:36:34
4032 跟貼 4032

中央安全考核巡查組專家現(xiàn)場質(zhì)問：你們管理人員上去過嗎？

上觀新聞 2026-07-05 14:22:38
21 跟貼 21
哈蘭德將標(biāo)志性長發(fā)剪成利落短發(fā)，6日凌晨4點迎戰(zhàn)巴西

極目新聞 2026-07-05 17:19:25
1894 跟貼 1894

7月15日，豆包、千問下線該功能！

濟源網(wǎng) 2026-07-05 11:07:47
136 跟貼 136

泰山景區(qū)回應(yīng)修建滾筒式刀片刺繩隔離鐵絲網(wǎng)：與正常游覽路線不交叉不重疊

北京日報客戶端 2026-07-02 08:55:17
20221 跟貼 20221
兩支巴西球隊有意簽下沃齊尼亞

瀟湘晨報 2026-07-05 21:08:09
1222 跟貼 1222

知名感冒藥沖上熱搜，全國銷量暴跌55%，網(wǎng)友：好難買

哈爾濱日報 2026-07-05 11:11:15
258 跟貼 258
全球最大數(shù)據(jù)中心建設(shè)，終止了

上觀新聞 2026-07-05 06:41:18
48 跟貼 48
請客吃早餐花掉12萬！全網(wǎng)都在找他

環(huán)球網(wǎng)資訊 2026-07-05 16:57:11
2258 跟貼 2258
TCL回應(yīng)永樂款菩薩像現(xiàn)其廣告：未授權(quán)或參與涉事文物展陳

南方都市報 2026-07-05 21:14:13
2527 跟貼 2527
耗資33億！宮殿修了，國王不住了

中國新聞周刊 2026-07-05 07:31:05
132 跟貼 132
嫌顧客只點15元麻辣燙，店主稱沒心思做還追出門嘲諷：吃不起別吃

星視頻 2026-07-05 13:14:29
875 跟貼 875
馬未都：如佛像確為海口五公祠當(dāng)年失竊普庵祖師坐像，愿意高高興興送回

界面新聞 2026-07-05 20:56:35
69 跟貼 69
這些中國制造“避暑神器”，正在為歐洲降溫！

環(huán)球網(wǎng)資訊 2026-07-05 15:43:12
83 跟貼 83
小店老板守著冰柜嘆氣：今年雪糕棒冰怎么沒人吃了？

大象新聞 2026-07-05 21:58:07
4 跟貼 4
罕見熱浪來襲，預(yù)計美國超1.65億人面臨高溫健康風(fēng)險

齊魯壹點 2026-07-05 12:41:27
110 跟貼 110
極目幫辦丨走幾步路就有公廁，有人卻非要在小區(qū)門口隨地小便

極目新聞 2026-07-05 12:09:21
33 跟貼 33
余隆×濮存昕×馮憲珍，中國首演一版特殊的《哈姆雷特》

澎湃新聞 2026-07-05 22:56:28
6 跟貼 6
她提前4個月請假，經(jīng)理卻讓她取消

生活觀察員啊 2026-07-06 01:36:12
0 跟貼 0

前沿科技學(xué)習(xí)分享圈

朝看花開滿樹紅，暮看花落樹還空。若將花比人間事，花與人間事一同。

1725文章數(shù) 370關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

藝術(shù)

時尚

本地

家居

手機 / 數(shù)碼

房產(chǎn) / 家居

Claude Opus 4.8凌晨上線,兩個0%改寫歷史

華為：邏輯折疊將大幅提升麒麟CPU核心頻率

醫(yī)院給老人一次拔12顆牙種10顆 官方：將頂格行政處罰

醫(yī)院給老人一次拔12顆牙種10顆 官方：將頂格行政處罰

姆巴佩點走巴拉圭：巴黎三代左鋒傳承

霉霉婚禮照片泄露 有四人違規(guī)

揭秘跨境“對敲”換匯黑產(chǎn)

方程豹鈦9內(nèi)飾曝光 用上了長聯(lián)屏設(shè)計/下半年上市

態(tài)度原創(chuàng)

工程車愛游泳

伊朗超高層方案驚艷世界，曾獲國際大獎！

3年賺46億，楊冪喊出一個安徽富豪

國內(nèi)足球之旅？這座小城給你高分答案

傳奇筑 日常詩

醫(yī)院給老人一次拔12顆牙種10顆官方：將頂格行政處罰

醫(yī)院給老人一次拔12顆牙種10顆官方：將頂格行政處罰

霉霉婚禮照片泄露有四人違規(guī)

方程豹鈦9內(nèi)飾曝光用上了長聯(lián)屏設(shè)計/下半年上市

傳奇筑日常詩