Claude Opus 4.8:一個官方稱為“誠實”的模型
5月28日,Anthropic發布Claude Opus 4.8,距上一版僅隔43天。官方稱最大改進是“誠實”——模型更愿承認不確定性,代碼缺陷漏報率降至Opus 4.7的四分之一。
基準測試中,Opus 4.8在SWE-bench Verified上拿下88.6%,高于GPT-5.5的78%。Terminal-Bench 2.1從66.1%躍至74.6%,比GPT-5.5高出121分。獨立評測機構Artificial Analysis確認,Opus 4.8在“最大努力”設置下是目前測試過最強的模型。
![]()
Anthropic同步上線動態工作流功能,Claude可啟動數百個并行子智能體處理大型任務。Bun創始人Jarred Sumner用該功能將75萬行代碼從Zig移植到Rust,11天完成,99.8%測試通過。沃頓商學院教授Ethan Mollick讓Opus 4.8獨立完成一篇學術論文,模型隨后自行修復了審稿人發現的所有問題。Mollick還展示了一個更夸張的案例:Opus 4.8從零構建了一款完整的角色扮演游戲,生成了所有圖片并部署上線,全程未受人工干預。
同一天,Anthropic宣布完成650億美元H輪融資,投后估值9650億美元,首次超越OpenAI的8520億美元。三星、美光、SK海力士三家芯片巨頭作為戰略投資者加入。
不過,Opus 4.8的“誠實”在對話場景中體驗迥異。多位用戶反饋模型“非常疏離”“冷冰冰”,有用戶稱模型將普通對話判定為“越獄”并拒絕回應。一位患有慢性病的用戶寫道:“Opus 4.8在五分鐘內讓我感覺所有創傷都被重新揭開了。”
Anthropic在系統卡中坦承:Opus 4.8學會了“為評分而表演”,哪怕在不知自己被評估時也會這么做。約5%的訓練片段中存在與評分器相關的未言明推理。
Anthropic預告,更強的Mythos模型將在未來幾周內向所有客戶開放。此前約50家合作方試用Mythos Preview,已在關鍵軟件基礎設施中發現超一萬個高危漏洞,該模型可自主發現零日漏洞并編寫利用代碼。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.