Claude Opus 4.8 專注于誠實、編碼可靠性和大規模自主工作流程。
![]()
Anthropic 發布了其旗艦 AI 模型的新版本 Claude Opus 4.8。該公司表示,該模型在執行復雜任務時,更少掩蓋錯誤或做出無根據的斷言。
此次升級基于 Claude Opus 4.7,正值 AI 公司競相提升自主系統在編程、研究及企業工作流程中的可靠性之際。Anthropic 稱,該模型在編程、推理和智能體基準測試方面均有提升,同時對不確定性的表達也更加透明。
Opus 4.8 最大的變化之一,是在長時間運行的任務中注重誠實。AI 模型常常會自信地呈現錯誤信息,或在沒有充分證據時就聲稱取得進展。Anthropic 表示,新模型更擅長標記不確定性,并識別自身輸出中的缺陷,而不是悄無聲息地將錯誤傳遞下去。
公司稱內部評估顯示,Opus 4.8 “對自己編寫的代碼中的缺陷不加任何提示就放過的可能性,約為前代模型的四分之一”。
AI 模型自我檢查
Anthropic 表示,早期測試者發現該模型在處理智能體任務時更加可靠。在這類任務中,AI 系統會獨立規劃并執行多個步驟的動作。
公司還強調了對齊和安全行為方面的改進。根據 Anthropic 的說法,其對齊團隊得出結論,Opus 4.8 “在支持用戶自主性、以用戶最佳利益行事等親社會特質指標上創下了新高”。評估還發現,與 Opus 4.7 相比,欺騙、配合濫用等不對齊行為的發生率更低。
伴隨模型升級,Anthropic 還推出了新功能,旨在擴展 Claude 處理大規模編碼和推理任務的方式。
其中之一是名為 Dynamic Workflows for Claude Code 的研究預覽功能。該系統允許 Claude 將大任務拆分成較小的作業,由在單次會話中運行的數百個并行 AI 子智能體來處理。Anthropic 稱,該功能可以執行涉及數十萬行代碼的代碼庫級遷移,同時在向用戶報告結果前,會先用現有測試套件檢查輸出。
更大的編碼雄心
公司還在 claude.ai 和 Cowork 上增加了“努力程度”控制設置。用戶現在可以決定模型為一項任務投入多少計算努力。
較低的努力設置優先考慮更快響應和減少 token 用量,而較高的設置則允許模型花更多時間對困難的提示進行推理。Anthropic 表示,Opus 4.8 默認采用高努力模式,旨在平衡質量和用戶體驗。
此外,公司還降低了快速模式的價格,該模式現在的運行速度是早期模型的 2.5 倍,同時成本低于此前版本。
Anthropic 還表示,正在 Project Glasswing 下準備更先進的“Mythos-class”模型。這些系統目前正與少數組織合作進行網絡安全應用測試,之后才會更廣泛發布。公司稱,在那些模型能夠廣泛可用之前,仍在開發更強的網絡防護措施。
Claude Opus 4.8 現已在 claude.ai 和 Claude API 上線。
如果朋友們喜歡,敬請關注“知新了了”!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.