文 | 強調Next
今天凌晨,Anthropic發布了Claude Opus 4.8。距上一版Opus4.7只過了41天。
按照慣例,發布會上少不了一串亮眼的跑分:SWE-bench Pro從64.3%升到69.2%,數學測試USAMO拿了96.7%,綜合推理評分比GPT-5.5領先121個Elo分……但Anthropic選擇把發布的重心放在一個聽起來很“軟”的詞上:誠實。
![]()
1 · 跑分之外,更重要的是不撒謊
過去兩年,AI公司在發布模型時的敘事框架幾乎千篇一律:更快、更強、更便宜。Anthropic這次的核心論點是:Opus4.8比上一代“更不會騙你”。
具體來說,他們的評測顯示,新模型在發現自己寫的代碼存在缺陷時,主動報告的概率是Opus4.7的四倍。用Anthropic自己的話說,舊模型有時會“跳到結論上”,信心滿滿地匯報進展,哪怕證據并不支撐。測試過新模型的早期用戶反映,Opus4.8更愿意在不確定的地方說“我不確定”,而不是給出一個聽起來合理、但實際站不住腳的答案。
![]()
這個改變看起來不起眼,實則是很多企業在真正落地AI時碰到的核心痛點。一個會寫代碼但不會發現自己代碼有問題的模型,放進生產環境是危險的。一個做了分析但不標注自己在哪里打了折扣的模型,給高管看的報告就需要花大量時間人工復核。可信賴度,在某些場景下比能力更值錢。
2 · AI開始接管“整個任務”
配合新模型同步上線的,還有兩個功能,分量都不輕。
其中一個叫Dynamic Workflows,目前以研究預覽版的形式放在ClaudeCode里。它的邏輯是:把一個大任務交給模型,它會先做規劃,然后同時拉起數百個并行的子智能體分頭干活,最后匯總驗證結果。Anthropic給出的示例場景是對數十萬行代碼進行整庫遷移。從提需求到代碼合并,全程由AI主導推進。
![]()
這意味著AI在工程場景里的角色,正在從“寫代碼的助手”向“執行工程任務的主體”遷移。對技術團隊來說,遺留系統改造、跨模塊重構這類歷來耗時又高風險的活,第一次有了被認真“外包”給AI的可能性。
另一個是努力程度控制,面向所有claude.ai用戶開放。用戶可以自己調節模型每次回復投入多少“思考量”,需要深度分析就調高,日常快速交互就調低,相應地也會消耗不同額度的使用配額。把成本與質量的權衡交給用戶自己決定,這個思路倒是挺務實的。
3 · 價格沒變
價格方面沒有變化:輸入$5、輸出$25,每百萬token,和Opus4.7一樣。變的是FastMode,同樣的旗艦模型質量,2.5倍速,價格比前代便宜了三倍,降到輸入$10、輸出$50。對于需要大批量調用的企業來說,這個變化比模型本身的能力提升更直接地影響部署決策。
4 · 更大的伏筆
發布稿里還藏著一條值得關注的信息:Mythos。
這是他們更高級別的模型,目前只在少數企業中小范圍測試。Anthropic說,Mythos級別的模型將在“未來數周內”向所有客戶開放,正在做的是完善安全防護機制。上個月Mythos的有限預覽因為暴露出一些網絡安全方面的隱患而被緊急踩了剎車,這次措辭謹慎,沒有給出具體時間表。
與此同時,Anthropic今天還公布了650億美元的H輪融資,估值來到9650億美元,在賬面上超過了OpenAI的8520億美元。兩家公司誰先上市、誰先過萬億,正在成為硅谷最受關注的懸念之一。
回到模型本身。Opus 4.8是一次定位清晰的迭代。沒有革命性的代際更新,只是在現有基礎上把可靠性、誠實性和長任務執行能力推進了一步。Anthropic自己也承認這是“適度但實質性的改進”。
留給我們的問題是,當AI開始學會說“我不確定”,人與AI之間的協作方式,需要怎么跟著調整?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.