網易首頁 > 網易號 > 正文申請入駐

Anthropic發布Claude Opus 4.8，重點是：“我不會騙你”

2026-05-29 18:20:15　來源: 鈦媒體APP

北京舉報

分享至

文 | 強調Next

今天凌晨，Anthropic發布了Claude Opus 4.8。距上一版Opus4.7只過了41天。

按照慣例，發布會上少不了一串亮眼的跑分：SWE-bench Pro從64.3%升到69.2%，數學測試USAMO拿了96.7%，綜合推理評分比GPT-5.5領先121個Elo分……但Anthropic選擇把發布的重心放在一個聽起來很“軟”的詞上：誠實。

1 · 跑分之外，更重要的是不撒謊

過去兩年，AI公司在發布模型時的敘事框架幾乎千篇一律：更快、更強、更便宜。Anthropic這次的核心論點是：Opus4.8比上一代“更不會騙你”。

具體來說，他們的評測顯示，新模型在發現自己寫的代碼存在缺陷時，主動報告的概率是Opus4.7的四倍。用Anthropic自己的話說，舊模型有時會“跳到結論上”，信心滿滿地匯報進展，哪怕證據并不支撐。測試過新模型的早期用戶反映，Opus4.8更愿意在不確定的地方說“我不確定”，而不是給出一個聽起來合理、但實際站不住腳的答案。

這個改變看起來不起眼，實則是很多企業在真正落地AI時碰到的核心痛點。一個會寫代碼但不會發現自己代碼有問題的模型，放進生產環境是危險的。一個做了分析但不標注自己在哪里打了折扣的模型，給高管看的報告就需要花大量時間人工復核。可信賴度，在某些場景下比能力更值錢。

2 · AI開始接管“整個任務”

配合新模型同步上線的，還有兩個功能，分量都不輕。

其中一個叫Dynamic Workflows，目前以研究預覽版的形式放在ClaudeCode里。它的邏輯是：把一個大任務交給模型，它會先做規劃，然后同時拉起數百個并行的子智能體分頭干活，最后匯總驗證結果。Anthropic給出的示例場景是對數十萬行代碼進行整庫遷移。從提需求到代碼合并，全程由AI主導推進。

這意味著AI在工程場景里的角色，正在從“寫代碼的助手”向“執行工程任務的主體”遷移。對技術團隊來說，遺留系統改造、跨模塊重構這類歷來耗時又高風險的活，第一次有了被認真“外包”給AI的可能性。

另一個是努力程度控制，面向所有claude.ai用戶開放。用戶可以自己調節模型每次回復投入多少“思考量”，需要深度分析就調高，日常快速交互就調低，相應地也會消耗不同額度的使用配額。把成本與質量的權衡交給用戶自己決定，這個思路倒是挺務實的。

3 · 價格沒變

價格方面沒有變化：輸入$5、輸出$25，每百萬token，和Opus4.7一樣。變的是FastMode，同樣的旗艦模型質量，2.5倍速，價格比前代便宜了三倍，降到輸入$10、輸出$50。對于需要大批量調用的企業來說，這個變化比模型本身的能力提升更直接地影響部署決策。

4 · 更大的伏筆

發布稿里還藏著一條值得關注的信息：Mythos。

這是他們更高級別的模型，目前只在少數企業中小范圍測試。Anthropic說，Mythos級別的模型將在“未來數周內”向所有客戶開放，正在做的是完善安全防護機制。上個月Mythos的有限預覽因為暴露出一些網絡安全方面的隱患而被緊急踩了剎車，這次措辭謹慎，沒有給出具體時間表。

與此同時，Anthropic今天還公布了650億美元的H輪融資，估值來到9650億美元，在賬面上超過了OpenAI的8520億美元。兩家公司誰先上市、誰先過萬億，正在成為硅谷最受關注的懸念之一。

回到模型本身。Opus 4.8是一次定位清晰的迭代。沒有革命性的代際更新，只是在現有基礎上把可靠性、誠實性和長任務執行能力推進了一步。Anthropic自己也承認這是“適度但實質性的改進”。

留給我們的問題是，當AI開始學會說“我不確定”，人與AI之間的協作方式，需要怎么跟著調整？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.