![]()
Anthropic 日前正式發(fā)布 Claude Opus 4.8,這是其旗艦?zāi)P拖盗杏忠豢钪匾隆?Opus 4.8 在前任基礎(chǔ)上對編程能力、agent 技能、推理和實際知識工作等多個維度均有提升,同時保持價格不變。
誠實度大幅提升:約四倍改進
此次更新中最值得關(guān)注的技術(shù)改進,是模型在自我審查能力上的突破。根據(jù) Anthropic 公布的數(shù)據(jù),Opus 4.8 相比前任 Opus 4.7,"讓代碼缺陷在未被注意的情況下通過的概率降低了約四倍"。換言之,模型在完成編程任務(wù)后,對自身輸出的檢查和審視能力顯著增強。這對于將 Claude 用于生產(chǎn)級代碼輔助的開發(fā)者而言,是一個直接影響使用信心和輸出質(zhì)量的核心指標。
![]()
Anthropic 的對齊團隊同時給出評價:Opus 4.8 "在我們的親社會指標上達到了新的高度,包括支持用戶自主性和以用戶最佳利益行事"。這一評估表明,新模型不僅在能力上提升,在價值取向上也更加貼近人類期望。
兩項新功能:Effort Control 與 Dynamic Workflows
Opus 4.8 引入的第一個重要功能是 Effort Control(努力控制)。用戶可以在模型選擇器旁邊,通過一個控制選項選擇 Claude 在回復(fù)時投入多少"努力"程度。默認值是高努力模式,消耗的 token 量與 Opus 4.7 默認水平相當(dāng),但性能更好。對于更復(fù)雜的任務(wù),用戶可以選擇 extra high 或 max 檔位。
第二個新功能 Dynamic Workflows(動態(tài)工作流)更具前沿意義:該功能允許 Claude 在單一對話中規(guī)劃大規(guī)模任務(wù),并并行運行數(shù)以百計的子 agent 來協(xié)同完成。這意味著 Claude 不再只是一個響應(yīng)式的對話模型,而能夠主動拆解復(fù)雜問題、調(diào)度多個執(zhí)行單元、在后臺完成大規(guī)模任務(wù)。這對于需要處理長周期、復(fù)雜流程的企業(yè)級用戶而言,是一個實質(zhì)性的能力躍升。Dynamic Workflows 目前以研究預(yù)覽形式向 Claude Code Enterprise、Team 和 Max 計劃用戶提供。
Fast Mode:成本降至原來的三分之一
定價方面,Opus 4.8 保持與 Opus 4.7 相同的價格標準:每百萬輸入 token 5 美元,每百萬輸出 token 25 美元。但值得注意的是,F(xiàn)ast Mode 以往版本的價格通常是標準版的數(shù)倍,而 Opus 4.8 的 Fast Mode 定價為每百萬輸入 token 10 美元、輸出 token 50 美元,速度提升至 2.5 倍的同時,成本卻大幅下調(diào)。Anthropic 官方表示,F(xiàn)ast Mode 比以往模型便宜了三倍。
更靈活的消息 API
除了模型本身,Anthropic 還同步更新了 Messages API:現(xiàn)在允許在 messages 數(shù)組內(nèi)部傳入 system entries,為開發(fā)者提供了更靈活的上下文注入方式。這使得基于 Claude 構(gòu)建應(yīng)用的開發(fā)者能夠更精細地控制對話行為的引導(dǎo)策略。
后續(xù)路線圖
Anthropic 還在公告中透露了未來一段時間的產(chǎn)品方向:計劃推出成本更低但能力接近 Opus 級別的新模型;與此同時,Project Glasswing 的核心——Claude Mythos Preview 也即將發(fā)布,該版本據(jù)稱將擁有更強的網(wǎng)絡(luò)安全防護能力,預(yù)期在數(shù)周內(nèi)面向更廣泛的用戶群體推出。
參考來源:https://www.anthropic.com/news/claude-opus-4-8[1]
References
- https://www.anthropic.com/news/claude-opus-4-8
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.