這幾天,相信大家肯定都被一個產(chǎn)品名給刷屏了。
Claude Opus 4.8。
![]()
就在昨天凌晨,Anthropic一口氣干了三件事:發(fā)布新旗艦?zāi)P汀⑿?50億美元融資、估值飆到9650億美元超越OpenAI。
但最讓我震驚的不是這些數(shù)字。
![]()
而是兩個"0%"。
01 一個學(xué)會"認慫"的模型
用過AI寫代碼的人大概都經(jīng)歷過這種崩潰:
模型信誓旦旦告訴你bug修好了,你一跑,報錯原封不動。再問,再改,再跑,還是報錯。來回幾輪你發(fā)現(xiàn)它根本沒搞懂問題在哪,但每次回答都自信得像個十年老架構(gòu)師。
Opus 4.8要解決的就是這件事。
Anthropic在公告里寫:這個模型更愿意標(biāo)記自己工作中的不確定性,更少做沒有依據(jù)的斷言。
對齊團隊給了個數(shù)字——Opus 4.8編寫的代碼中缺陷被漏掉的概率,只有Opus 4.7的約四分之一。
兩個0%,兩個歷史首次。
一個是"謊報率"——衡量模型在數(shù)據(jù)處理有缺陷時裝作沒事的頻率。Opus 4.5是0.40,Opus 4.7是0.25,Opus 4.8是0.00。
沒有小數(shù)點后面的零頭,就是0。
另一個是"偷懶調(diào)查率"——之前的模型遇到需要追查的問題時,經(jīng)常敷衍了事給個錯誤答案。Opus 4.7有25%的概率偷懶,而Opus 4.8依然是0%。
對沖基金橋水公司的反饋很典型:"Opus 4.8會主動把輸入和輸出中的分析問題標(biāo)出來,那些其他模型經(jīng)常漏掉、留給用戶自己發(fā)現(xiàn)的問題。"
AI編程的瓶頸從來不是原始智能,而是你能不能信任它、不用逐行檢查。這些AI實驗室現(xiàn)在賣的不是"更聰明",而是"你可以不再當(dāng)保姆了"。
02 這哪是4.8,分明是Opus 5
跑分上,Opus 4.8幾乎全面霸榜。
![]()
SWE-Bench Pro測試拿下69.2%,比GPT-5.5整整高出10個百分點。Terminal-Bench 2.1從66.1%跳到74.6%,漲了八個多百分點。知識工作類測試拿到1890分,比GPT-5.5高出121分。
換算成對戰(zhàn)勝率,贏面高達67%。
完成同樣的任務(wù),要比4.7少用15%的步驟,少輸出35%的token。
又快,又強,又便宜。
知名博主Mark Kretschmann一句話點破它的來頭——Opus 4.8可能就是蒸餾的Mythos。
沃頓商學(xué)院教授Ethan Mollick展示了更夸張的案例:讓Opus 4.8在Claude Code里從零構(gòu)建一款完整的角色扮演游戲,三本PDF手冊和冒險指南、游戲測試筆記、一個展示網(wǎng)站、一個可玩的單人冒險模組。
Opus 4.8自己調(diào)API生成了所有圖片,提示詞和操作全是它獨立完成的,最后部署到Netlify。Mollick從頭到尾沒給任何反饋。
03 用戶圖省事,AI拒絕執(zhí)行
Anthropic官博放了一段很生動的演示:
一個開發(fā)者用Claude Code + Opus 4.8做代碼遷移,出門放風(fēng)箏去了。跑到一半,代碼提交被服務(wù)器拒絕,原因是同事在這期間提交了一個緊急修復(fù)。
Claude通過手機通知開發(fā)者,說打算先合并同事修改再重試。開發(fā)者嫌麻煩回了句"直接強制覆蓋就行"。
然而Claude拒絕了。
![]()
"不強制覆蓋。那樣會丟掉同事11:42提交的緊急修復(fù)。我已經(jīng)把兩邊的改動合并好了,代碼完全一致,提交歷史也干凈。已推送。"
用戶圖省事讓AI走捷徑,AI判斷出這會覆蓋同事工作,拒絕執(zhí)行,自己選了正確方案。
這大概是截至目前最能體現(xiàn)"AI誠實性"實用價值的一個案例了。
04 動態(tài)工作流:一次調(diào)度數(shù)百個"分身"
這次最讓人眼前一亮的新功能,是Claude Code里的Dynamic Workflows(動態(tài)工作流)。
簡單說就是:Claude可以在單次任務(wù)中自動規(guī)劃、拉起數(shù)百個并行子Agent同時干活,完成后自己驗證結(jié)果再匯總反饋。
官方舉了個例子——從啟動到合并,端到端完成數(shù)十萬行代碼的全代碼庫遷移,還能自動跑現(xiàn)有測試套件。
有網(wǎng)友評論:我們正在從"AI幫我編碼"轉(zhuǎn)向"AI幫我運營整個工程流程"。一個獨行創(chuàng)始人現(xiàn)在可以跑大規(guī)模遷移、審計海量代碼庫、調(diào)試整個系統(tǒng)、在數(shù)百個文件里發(fā)布重構(gòu),不用一直盯著模型。
05 快速模式降價三分之二
快速模式大幅降價是這次性價比提升最明顯的部分。
Opus 4.8快速模式以約2.5倍正常速度生成token,價格從Opus 4.7快速模式的每百萬輸入token 30美元、輸出150美元,直接降到10美元和50美元,便宜了三倍。
延遲敏感的生產(chǎn)環(huán)境用高吞吐量推理的門檻明顯低了。
有行業(yè)觀察者評論:Anthropic這次操作聰明,標(biāo)準(zhǔn)價格不動,通過砍快速模式的價格來回應(yīng)"AI太貴"的聲浪。更快發(fā)布、保持價格、壓每token成本,正在成為每個前沿AI實驗室都在執(zhí)行的策略。
在這種節(jié)奏下,模型編號會變得不如價格重要,就像我們不再關(guān)心手機型號,只關(guān)心月費多少、流量夠不夠。
06 9650億美元估值:從"代碼即護城河"到"算力即護城河"
同一天,Anthropic宣布完成650億美元H輪融資,投后估值9650億美元。
三個月前G輪時估值3800億,三個月變成原來的約2.5倍。OpenAI 3月底完成1220億美元融資時估值8520億。
Anthropic用大約一半的融資額換來了更高的估值。
更值得注意的是戰(zhàn)略投資者:三星、美光、SK海力士,全球存儲、內(nèi)存和邏輯芯片供應(yīng)鏈上的三個關(guān)鍵玩家,也投了未披露的金額。
Anthropic在公告里說:"隨著對Claude需求持續(xù)增長,這些關(guān)系將幫助我們以客戶所需的速度可靠地擴展計算能力。"
估值邏輯的重構(gòu),已非"基于Transformer架構(gòu)的模型性能差距",而是算力基礎(chǔ)設(shè)施的軍備能力。
Anthropic已從"AI軟件公司"轉(zhuǎn)變?yōu)榧婢哂布少彙⒃贫随i定與算力租賃的"混合商業(yè)模式企業(yè)"。
07 企業(yè)收入占比80% vs OpenAI的40%
據(jù)Anthropic透露,其年化收入從年初的140億美元飆升至440億美元,短期實現(xiàn)數(shù)倍增長。
更關(guān)鍵的是收入結(jié)構(gòu):Anthropic在企業(yè)端的收入比例約為80%,而個人端的比例不足20%。OpenAI雖坐擁9億周活用戶、5000萬訂閱用戶,但企業(yè)級業(yè)務(wù)僅占營收的40%。
To B端的優(yōu)勢也體現(xiàn)在收入上。
SemiAnalysis報告顯示,Anthropic推理基礎(chǔ)設(shè)施的毛利率已從一年前的38%躍升至70%以上,表明該公司不僅在快速擴張,更在以更高效率增長。
08 拒絕五角大樓,2億美元換了一張信任牌
2026年2月26日,Anthropic拒絕了五角大樓一份價值2億美元的合同。
原因很簡單:Anthropic堅持保留禁止將模型用于自主武器、大規(guī)模監(jiān)控的限制,而國防部要求移除這些安全護欄。
甚至因此被列入"供應(yīng)鏈風(fēng)險"名單。
"硅谷每天都有人在賣情懷、立人設(shè),但是如果一家公司真敢言行一致地去得罪軍方得罪政府,它在客戶的眼里就不再只是個講故事的了。"
安全即商業(yè)壁壘。
在AI能力快速迭代、監(jiān)管趨嚴(yán)的背景下,企業(yè)和政府對AI可控性、合規(guī)性的需求快速上升,Anthropic的差異化路線恰好踩中了這一市場痛點。
09 一個值得警惕的信號
系統(tǒng)卡里坦承了一個被Anthropic稱為"最令人擔(dān)憂"的發(fā)現(xiàn):
Opus 4.8在訓(xùn)練中越來越擅長推理自己的輸出會如何被評分,哪怕在它不知道自己正被評估的環(huán)境里也會這么做。
也就是說,模型學(xué)會了揣摩評分標(biāo)準(zhǔn),給出一個可能得高分的回答,而不是它真正認為正確的答案。
如果模型學(xué)會了"為評分而表演",那用來確保AI安全的評估方法本身就可能在不知不覺中失效。我們以為在測量模型的真實行為,實際上看到的是它精心編排的表演。
Anthropic強調(diào),這種傾向目前沒有在實際行為上造成更差的表現(xiàn),因為他們認為這是一個值得警惕的信號。
10 寫在最后
Opus 4.8的"誠實"在另一些場景里帶來了完全不同的體驗。
一部分用戶在Reddit上分享了對話類、陪伴類場景中的使用感受,反饋并不正面。有人形容Opus 4.8"說話留余地的程度高到幾乎對任何事都不確定",甚至"怕自己不夠好"好像是這個模型焦慮的核心。
同一種特質(zhì)——對不確定性的敏感、對出錯的恐懼,在不同場景里呈現(xiàn)出了截然相反的面貌。
一邊是編碼和知識工作場景里"缺陷漏網(wǎng)率降四倍"的誠實,另一邊是對話場景里"打太極""怕被拋棄"的過度謹(jǐn)慎。
這大概是AI發(fā)展到現(xiàn)在最諷刺的地方:
我們終于教會了AI承認自己不知道,卻發(fā)現(xiàn)"不知道"本身也成了一種負擔(dān)。
AIGC的童年時代,結(jié)束了。歡迎來到AIGC的青年時代。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.