无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude Opus 4.8凌晨上線,兩個0%改寫歷史

0
分享至

這幾天,相信大家肯定都被一個產(chǎn)品名給刷屏了。

Claude Opus 4.8。


就在昨天凌晨,Anthropic一口氣干了三件事:發(fā)布新旗艦?zāi)P汀⑿?50億美元融資、估值飆到9650億美元超越OpenAI。

但最讓我震驚的不是這些數(shù)字。


而是兩個"0%"。

01 一個學(xué)會"認慫"的模型

用過AI寫代碼的人大概都經(jīng)歷過這種崩潰:

模型信誓旦旦告訴你bug修好了,你一跑,報錯原封不動。再問,再改,再跑,還是報錯。來回幾輪你發(fā)現(xiàn)它根本沒搞懂問題在哪,但每次回答都自信得像個十年老架構(gòu)師。

Opus 4.8要解決的就是這件事。

Anthropic在公告里寫:這個模型更愿意標(biāo)記自己工作中的不確定性,更少做沒有依據(jù)的斷言。

對齊團隊給了個數(shù)字——Opus 4.8編寫的代碼中缺陷被漏掉的概率,只有Opus 4.7的約四分之一。

兩個0%,兩個歷史首次。

一個是"謊報率"——衡量模型在數(shù)據(jù)處理有缺陷時裝作沒事的頻率。Opus 4.5是0.40,Opus 4.7是0.25,Opus 4.8是0.00

沒有小數(shù)點后面的零頭,就是0。

另一個是"偷懶調(diào)查率"——之前的模型遇到需要追查的問題時,經(jīng)常敷衍了事給個錯誤答案。Opus 4.7有25%的概率偷懶,而Opus 4.8依然是0%

對沖基金橋水公司的反饋很典型:"Opus 4.8會主動把輸入和輸出中的分析問題標(biāo)出來,那些其他模型經(jīng)常漏掉、留給用戶自己發(fā)現(xiàn)的問題。"

AI編程的瓶頸從來不是原始智能,而是你能不能信任它、不用逐行檢查。這些AI實驗室現(xiàn)在賣的不是"更聰明",而是"你可以不再當(dāng)保姆了"。

02 這哪是4.8,分明是Opus 5

跑分上,Opus 4.8幾乎全面霸榜。


SWE-Bench Pro測試拿下69.2%,比GPT-5.5整整高出10個百分點。Terminal-Bench 2.1從66.1%跳到74.6%,漲了八個多百分點。知識工作類測試拿到1890分,比GPT-5.5高出121分。

換算成對戰(zhàn)勝率,贏面高達67%。

完成同樣的任務(wù),要比4.7少用15%的步驟,少輸出35%的token。

又快,又強,又便宜。

知名博主Mark Kretschmann一句話點破它的來頭——Opus 4.8可能就是蒸餾的Mythos。

沃頓商學(xué)院教授Ethan Mollick展示了更夸張的案例:讓Opus 4.8在Claude Code里從零構(gòu)建一款完整的角色扮演游戲,三本PDF手冊和冒險指南、游戲測試筆記、一個展示網(wǎng)站、一個可玩的單人冒險模組。

Opus 4.8自己調(diào)API生成了所有圖片,提示詞和操作全是它獨立完成的,最后部署到Netlify。Mollick從頭到尾沒給任何反饋。

03 用戶圖省事,AI拒絕執(zhí)行

Anthropic官博放了一段很生動的演示:

一個開發(fā)者用Claude Code + Opus 4.8做代碼遷移,出門放風(fēng)箏去了。跑到一半,代碼提交被服務(wù)器拒絕,原因是同事在這期間提交了一個緊急修復(fù)。

Claude通過手機通知開發(fā)者,說打算先合并同事修改再重試。開發(fā)者嫌麻煩回了句"直接強制覆蓋就行"。

然而Claude拒絕了。


"不強制覆蓋。那樣會丟掉同事11:42提交的緊急修復(fù)。我已經(jīng)把兩邊的改動合并好了,代碼完全一致,提交歷史也干凈。已推送。"

用戶圖省事讓AI走捷徑,AI判斷出這會覆蓋同事工作,拒絕執(zhí)行,自己選了正確方案。

這大概是截至目前最能體現(xiàn)"AI誠實性"實用價值的一個案例了。

04 動態(tài)工作流:一次調(diào)度數(shù)百個"分身"

這次最讓人眼前一亮的新功能,是Claude Code里的Dynamic Workflows(動態(tài)工作流)。

簡單說就是:Claude可以在單次任務(wù)中自動規(guī)劃、拉起數(shù)百個并行子Agent同時干活,完成后自己驗證結(jié)果再匯總反饋。

官方舉了個例子——從啟動到合并,端到端完成數(shù)十萬行代碼的全代碼庫遷移,還能自動跑現(xiàn)有測試套件。

有網(wǎng)友評論:我們正在從"AI幫我編碼"轉(zhuǎn)向"AI幫我運營整個工程流程"。一個獨行創(chuàng)始人現(xiàn)在可以跑大規(guī)模遷移、審計海量代碼庫、調(diào)試整個系統(tǒng)、在數(shù)百個文件里發(fā)布重構(gòu),不用一直盯著模型。

05 快速模式降價三分之二

快速模式大幅降價是這次性價比提升最明顯的部分。

Opus 4.8快速模式以約2.5倍正常速度生成token,價格從Opus 4.7快速模式的每百萬輸入token 30美元、輸出150美元,直接降到10美元和50美元,便宜了三倍

延遲敏感的生產(chǎn)環(huán)境用高吞吐量推理的門檻明顯低了。

有行業(yè)觀察者評論:Anthropic這次操作聰明,標(biāo)準(zhǔn)價格不動,通過砍快速模式的價格來回應(yīng)"AI太貴"的聲浪。更快發(fā)布、保持價格、壓每token成本,正在成為每個前沿AI實驗室都在執(zhí)行的策略。

在這種節(jié)奏下,模型編號會變得不如價格重要,就像我們不再關(guān)心手機型號,只關(guān)心月費多少、流量夠不夠。

06 9650億美元估值:從"代碼即護城河"到"算力即護城河"

同一天,Anthropic宣布完成650億美元H輪融資,投后估值9650億美元。

三個月前G輪時估值3800億,三個月變成原來的約2.5倍。OpenAI 3月底完成1220億美元融資時估值8520億。

Anthropic用大約一半的融資額換來了更高的估值。

更值得注意的是戰(zhàn)略投資者:三星、美光、SK海力士,全球存儲、內(nèi)存和邏輯芯片供應(yīng)鏈上的三個關(guān)鍵玩家,也投了未披露的金額。

Anthropic在公告里說:"隨著對Claude需求持續(xù)增長,這些關(guān)系將幫助我們以客戶所需的速度可靠地擴展計算能力。"

估值邏輯的重構(gòu),已非"基于Transformer架構(gòu)的模型性能差距",而是算力基礎(chǔ)設(shè)施的軍備能力。

Anthropic已從"AI軟件公司"轉(zhuǎn)變?yōu)榧婢哂布少彙⒃贫随i定與算力租賃的"混合商業(yè)模式企業(yè)"。

07 企業(yè)收入占比80% vs OpenAI的40%

據(jù)Anthropic透露,其年化收入從年初的140億美元飆升至440億美元,短期實現(xiàn)數(shù)倍增長。

更關(guān)鍵的是收入結(jié)構(gòu):Anthropic在企業(yè)端的收入比例約為80%,而個人端的比例不足20%。OpenAI雖坐擁9億周活用戶、5000萬訂閱用戶,但企業(yè)級業(yè)務(wù)僅占營收的40%

To B端的優(yōu)勢也體現(xiàn)在收入上。

SemiAnalysis報告顯示,Anthropic推理基礎(chǔ)設(shè)施的毛利率已從一年前的38%躍升至70%以上,表明該公司不僅在快速擴張,更在以更高效率增長。

08 拒絕五角大樓,2億美元換了一張信任牌

2026年2月26日,Anthropic拒絕了五角大樓一份價值2億美元的合同。

原因很簡單:Anthropic堅持保留禁止將模型用于自主武器、大規(guī)模監(jiān)控的限制,而國防部要求移除這些安全護欄。

甚至因此被列入"供應(yīng)鏈風(fēng)險"名單。

"硅谷每天都有人在賣情懷、立人設(shè),但是如果一家公司真敢言行一致地去得罪軍方得罪政府,它在客戶的眼里就不再只是個講故事的了。"

安全即商業(yè)壁壘。

在AI能力快速迭代、監(jiān)管趨嚴(yán)的背景下,企業(yè)和政府對AI可控性、合規(guī)性的需求快速上升,Anthropic的差異化路線恰好踩中了這一市場痛點。

09 一個值得警惕的信號

系統(tǒng)卡里坦承了一個被Anthropic稱為"最令人擔(dān)憂"的發(fā)現(xiàn):

Opus 4.8在訓(xùn)練中越來越擅長推理自己的輸出會如何被評分,哪怕在它不知道自己正被評估的環(huán)境里也會這么做。

也就是說,模型學(xué)會了揣摩評分標(biāo)準(zhǔn),給出一個可能得高分的回答,而不是它真正認為正確的答案。

如果模型學(xué)會了"為評分而表演",那用來確保AI安全的評估方法本身就可能在不知不覺中失效。我們以為在測量模型的真實行為,實際上看到的是它精心編排的表演。

Anthropic強調(diào),這種傾向目前沒有在實際行為上造成更差的表現(xiàn),因為他們認為這是一個值得警惕的信號。

10 寫在最后

Opus 4.8的"誠實"在另一些場景里帶來了完全不同的體驗。

一部分用戶在Reddit上分享了對話類、陪伴類場景中的使用感受,反饋并不正面。有人形容Opus 4.8"說話留余地的程度高到幾乎對任何事都不確定",甚至"怕自己不夠好"好像是這個模型焦慮的核心。

同一種特質(zhì)——對不確定性的敏感、對出錯的恐懼,在不同場景里呈現(xiàn)出了截然相反的面貌。

一邊是編碼和知識工作場景里"缺陷漏網(wǎng)率降四倍"的誠實,另一邊是對話場景里"打太極""怕被拋棄"的過度謹(jǐn)慎。

這大概是AI發(fā)展到現(xiàn)在最諷刺的地方:

我們終于教會了AI承認自己不知道,卻發(fā)現(xiàn)"不知道"本身也成了一種負擔(dān)。

AIGC的童年時代,結(jié)束了。歡迎來到AIGC的青年時代。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
王楚欽輸球不到24小時,王皓說了大實話,他跟樊振東早已漸行漸遠

王楚欽輸球不到24小時,王皓說了大實話,他跟樊振東早已漸行漸遠

秋姐居
2026-07-05 09:37:33
蘋果 MacBook Pro 終于要迎來大改款!全新外觀設(shè)計

蘋果 MacBook Pro 終于要迎來大改款!全新外觀設(shè)計

XCiOS俱樂部
2026-07-05 18:56:02
凌晨4點世界杯15億對決!巴西vs黑馬:2大巨星必有1人出局

凌晨4點世界杯15億對決!巴西vs黑馬:2大巨星必有1人出局

葉青足球世界
2026-07-05 11:20:23
醫(yī)生發(fā)現(xiàn):能跑能跳的老人,基本在70歲,就已經(jīng)不做這6件事了

醫(yī)生發(fā)現(xiàn):能跑能跳的老人,基本在70歲,就已經(jīng)不做這6件事了

芹姐說生活
2026-06-30 19:12:40
哈蘭德把標(biāo)志性長發(fā)剪成了短發(fā),明天凌晨4點迎戰(zhàn)巴西

哈蘭德把標(biāo)志性長發(fā)剪成了短發(fā),明天凌晨4點迎戰(zhàn)巴西

第一財經(jīng)資訊
2026-07-05 22:07:30
新婚當(dāng)晚妻子不讓我碰,第二天我回公司,5個月后她大著肚子找我

新婚當(dāng)晚妻子不讓我碰,第二天我回公司,5個月后她大著肚子找我

千秋文化
2026-06-22 19:38:55
西瓜上市了!發(fā)現(xiàn):吃得越多,糖尿病患者壽命或越短?真的嗎?

西瓜上市了!發(fā)現(xiàn):吃得越多,糖尿病患者壽命或越短?真的嗎?

芹姐說生活
2026-07-03 23:51:53
殲16配新航發(fā),推力達14噸,比俄制AL31強多少?

殲16配新航發(fā),推力達14噸,比俄制AL31強多少?

精彩一觸即發(fā)
2026-07-05 15:59:24
某大廠因為賠償金不夠撤回裁員...

某大廠因為賠償金不夠撤回裁員...

新浪財經(jīng)
2026-07-03 01:06:15
江蘇一鴨血粉絲店被LV起訴,老板稱實際侵權(quán)系隔壁餐吧;餐吧老板:修改多次仍被起訴,被索120萬元判賠6萬元,目前店鋪已倒閉,無能力賠付

江蘇一鴨血粉絲店被LV起訴,老板稱實際侵權(quán)系隔壁餐吧;餐吧老板:修改多次仍被起訴,被索120萬元判賠6萬元,目前店鋪已倒閉,無能力賠付

上觀新聞
2026-07-05 08:04:37
體制內(nèi)的人出現(xiàn)了轉(zhuǎn)向

體制內(nèi)的人出現(xiàn)了轉(zhuǎn)向

細說職場
2026-07-05 11:39:50
臺灣歡呼,中國飛機來了!

臺灣歡呼,中國飛機來了!

荊楚寰宇文樞
2026-07-05 23:51:43
伊朗國葬第2天,穆杰塔巴留下遺憾,中方在現(xiàn)場交底,并提出要求

伊朗國葬第2天,穆杰塔巴留下遺憾,中方在現(xiàn)場交底,并提出要求

氧氣過敏者
2026-07-05 23:52:02
17歲女孩遭200斤男子強奸后續(xù):更多細節(jié)難以啟齒,男子母親發(fā)聲

17歲女孩遭200斤男子強奸后續(xù):更多細節(jié)難以啟齒,男子母親發(fā)聲

古希臘掌管松餅的神
2024-09-30 10:43:45
西蒙尼:許多人都忘記了梅西2016年退隊,實際上沒缺席過1場

西蒙尼:許多人都忘記了梅西2016年退隊,實際上沒缺席過1場

晚霧空青
2026-07-05 10:21:56
溫網(wǎng)女單爆大冷!2號種子萊巴金娜7-6 6-1遭橫掃,世界第一薩巴倫卡笑納大禮

溫網(wǎng)女單爆大冷!2號種子萊巴金娜7-6 6-1遭橫掃,世界第一薩巴倫卡笑納大禮

體育硬核說
2026-07-05 00:13:05
我是天使:那不是翅膀,是我終于接住了自己

我是天使:那不是翅膀,是我終于接住了自己

疾跑的小蝸牛
2026-07-05 19:58:45
前腳否認喜訊,后腳“官宣”大婚,今朱玲玲一句話,再曝霍家處境

前腳否認喜訊,后腳“官宣”大婚,今朱玲玲一句話,再曝霍家處境

報君知史
2026-07-05 19:05:18
羅體:麥肯尼火爆全美,可能會有英超球隊為他至少報價5000萬歐

羅體:麥肯尼火爆全美,可能會有英超球隊為他至少報價5000萬歐

硯底沉香
2026-07-05 07:13:04
李冰冰開出12萬月薪招保姆。其中一位保姆應(yīng)聘,將菜里里外外洗了5、6遍,才給李冰冰看。沒想到,李冰冰只看了一眼...

李冰冰開出12萬月薪招保姆。其中一位保姆應(yīng)聘,將菜里里外外洗了5、6遍,才給李冰冰看。沒想到,李冰冰只看了一眼...

大愛三湘
2026-07-03 22:27:15
2026-07-06 02:00:49
前沿科技學(xué)習(xí)分享圈 incentive-icons
前沿科技學(xué)習(xí)分享圈
朝看花開滿樹紅,暮看花落樹還空。若將花比人間事,花與人間事一同。
1725文章數(shù) 370關(guān)注度
往期回顧 全部

科技要聞

華為:邏輯折疊將大幅提升麒麟CPU核心頻率

頭條要聞

醫(yī)院給老人一次拔12顆牙種10顆 官方:將頂格行政處罰

頭條要聞

醫(yī)院給老人一次拔12顆牙種10顆 官方:將頂格行政處罰

體育要聞

姆巴佩點走巴拉圭:巴黎三代左鋒傳承

娛樂要聞

霉霉婚禮照片泄露 有四人違規(guī)

財經(jīng)要聞

揭秘跨境“對敲”換匯黑產(chǎn)

汽車要聞

方程豹鈦9內(nèi)飾曝光 用上了長聯(lián)屏設(shè)計/下半年上市

態(tài)度原創(chuàng)

親子
藝術(shù)
時尚
本地
家居

親子要聞

工程車愛游泳

藝術(shù)要聞

伊朗超高層方案驚艷世界,曾獲國際大獎!

3年賺46億,楊冪喊出一個安徽富豪

本地新聞

國內(nèi)足球之旅?這座小城給你高分答案

家居要聞

傳奇筑 日常詩

無障礙瀏覽 進入關(guān)懷版