![]()
整理 | 屠敏
出品 | CSDN(ID:CSDNnews)
5 月 28 日,Anthropic 正式發布新一代旗艦模型Claude Opus 4.8。
從定位來看,Claude Opus 4.8 并非一次大規模架構升級,而更像是一輪針對實際使用反饋的“強化版本”。用官方的話來說:“用戶會發現,Opus 4.8 相比前代版本雖然提升幅度不算巨大,但改進是切實可感知的。”
值得關注的是,Anthropic 還同步推出了一項名為 Dynamic Workflows(動態工作流)的全新功能,允許 Claude 在執行復雜任務時自動調度大量子智能體協同工作,可以同時調用上百個 Agent 干活。
此外,官方還提前預告,Claude Mythos 將會在幾周之后就到來。
![]()
![]()
僅時隔 43 天,Claude Opus 4.8 發布!
回看過往,Anthropic 以往的模型更新節奏通常以數月為單位。例如 Sonnet、Haiku 等系列模型,兩次主要版本升級之間往往相隔 3 至 7 個月。而此次 Opus 4.8 在 43 天內完成迭代,顯然并不尋常。
原因或許主要來自兩個方面:
一方面,Claude Opus 4.7 發布后,官方雖然稱它在編程和智能體能力測試中取得不錯成績,但部分開發者在真實體驗后,反饋并不太好。不少網友紛紛在各大社交媒體平臺吐槽這一版本生成的代碼注釋過于冗長、工具調用穩定性不足,還有在復雜任務中的決策判斷能力也不行。
對此,不少人向 Anthropic 請愿,保留更舊的 Claude Opus 4.6 版本,甚至威脅稱如果官方要移除 Opus 4.6,他們將取消訂閱并轉向 OpenAI 陣營。
![]()
另一方面,OpenAI、Google 等競爭對手近期持續加碼 AI 編程和智能體賽道。包括 OpenAI 的 Codex、Google 的 等產品陸續發布,使得 Anthropic 需要更快地回應市場需求。
在此背景下,Opus 4.8 升級目標非常明確:更可靠、更誠實、更高效,也更適合智能體場景。
免費領100 小時云算力|CSDN 讀者專屬福利
適配 DeepSeek、Qwen 等主流大模型
掃碼即刻領取,每月還有顯卡、AIPC等實物好禮抽獎
![]()
咖啡領取鏈接: https://s.csdn.cn/4nPsOp
![]()
新版本升級了什么?
根據 Anthropic 公布的數據,Claude Opus 4.8 在代碼生成、智能體執行、復雜推理以及專業辦公任務等多個維度均較前代有所提升。
其中,Anthropic 使用 Terminal-Bench 2.1 對 Claude Opus 4.8 的推理能力進行了評測。該基準測試主要衡量大語言模型在命令行環境中完成任務的能力。測試結果顯示,Claude Opus 4.8 取得了 74.2% 的成績,較 Opus 4.7 提高了 8.4%。
在更通用的軟件工程測試 SWE-Bench Pro 上,Opus 4.8 的得分也比前代版本高出 4.9%。此外,Anthropic 表示,Claude Opus 4.8 在涵蓋計算機操作(Computer Use)和金融分析等任務的多項基準測試中,同樣取得了不同程度的性能提升。
![]()
相比性能提升,Opus 4.8 本次最大升級亮點之一,是對模型生成內容真實性的改進。
這幾年里,大模型普遍存在一個問題:即使缺乏足夠證據,模型仍傾向于給出看似確定的答案,甚至時不時地錯誤宣稱任務已經完成。
Anthropic 表示,Opus 4.8 針對這一問題進行了專門優化。
與前代模型相比,Opus 4.8 更傾向于明確指出自身的不確定性,對于缺乏依據的信息會主動標注風險,而不是強行給出結論。
Anthropic 內部測試結果顯示:Opus 4.8 忽略代碼缺陷、未報告潛在漏洞的概率已降至前代版本的四分之一。
![]()
換句話說,新模型不僅更擅長發現問題,也更愿意承認自己不知道答案。在 AI 逐漸進入企業生產環境的背景下,這種能力尤為重要。
另外,Anthropic 還對 Opus 4.8 進行了全面的安全與對齊測試。
官方數據顯示,在用戶自主權保護、遵循用戶意圖以及避免誤導性行為等指標上,Opus 4.8 達到了目前 Claude 系列的最高水平。與此同時,模型出現欺騙行為、配合違規操作等風險行為的概率也進一步下降。
Anthropic 稱,其整體對齊表現已經接近目前內部測試中的 Claude Mythos 預覽版。
![]()
其他重磅更新
Dynamic Workflows:一次調度數百個 AI 分身
除了模型本身,本次發布最大的亮點之一是動態工作流(Dynamic Workflows)。
該功能目前處于研究預覽階段,主要面向 Claude Code 用戶開放。簡單來說,它讓 Claude 不再只是單獨完成任務,而能夠像項目經理一樣,將復雜任務拆分給多個子智能體并行處理。
整個過程包括:
自動規劃執行步驟
創建多個子智能體
分配不同工作內容
并行執行任務
自動驗證結果
匯總最終輸出
Anthropic 表示,在 Dynamic Workflows 的支持下,Claude 可以在單個任務中調度數百個并行智能體,并持續運行更長時間。
例如,一個涉及數十萬行代碼的大型遷移項目,Claude 可以自主完成需求分析、代碼修改、測試驗證以及最終合并等多個步驟,而無需開發者頻繁介入。
這也是 Anthropic 對 AI Agent 發展方向的一次重要布局。
![]()
新增“思考強度”調節功能
Anthropic 還為 Claude 增加了新的“思考強度”(Effort Controls)控制選項。
用戶可以根據需求調整模型投入的推理資源。
當選擇更高檔位時,Claude 會花費更多時間和 Token 對問題進行分析,從而獲得更高質量的結果;而在較低檔位下,則能夠以更快速度完成響應,并減少調用成本。
Anthropic 表示,Opus 4.8 默認采用高思考強度模式,在輸出質量與成本之間取得了較好的平衡。對于復雜編程任務、長周期智能體工作流等場景,則建議使用更高檔位。
API 也迎來更新
面向開發者,Anthropic 還更新了 Messages API。
新的接口支持在消息數組內部直接插入系統指令,開發者能夠在任務運行過程中動態調整模型行為,而不會影響提示詞緩存機制。
這意味著開發者可以更方便地修改權限設置、資源配額以及運行環境參數,為復雜 Agent 系統提供更高的靈活性。
![]()
Claude Mythos 已在路上
在發布 Opus 4.8 的同時,Anthropic 還透露了下一階段計劃。
其模型團隊正在研發一系列能力更強的新模型,其中包括此前已經曝光的 Claude Mythos。
目前 Mythos 仍處于有限預覽階段,僅向少數合作伙伴開放測試。
Anthropic 表示,由于這類模型具備更強的自主執行和網絡安全能力,因此需要配套更完善的安全防護體系后才能正式開放。
按照官方披露的信息,相關準備工作已經接近完成,預計未來數周內 Mythos 將逐步向更多用戶開放。
![]()
定價
在定價方面,Claude Opus 4.8 常規使用定價與 Opus 4.7 保持一致:每百萬輸入 token 為 5 美元,每百萬輸出 token 為 25 美元。
極速模式定價為:每百萬輸入 token 為 10 美元,每百萬輸出 token 為 50 美元。開發者可通過 Claude API 調用模型 claude-opus-4-8。
隨著這一最新版本已在全平臺正式啟用,不少用戶也率先進行了嘗鮮。
X 用戶@JUMPERZ 基于此還總結了一份適用指南,其表示:
「Claude Opus 4.8 發布了,而有意思的是,Anthropic 這次似乎并沒有把重點放在沖擊各類排行榜上。
從測試成績來看,相比 Opus 4.7,它的基準測試分數提升并不算大。整個版本更新更強調的是 Token 效率——運行成本大約降低了 61%,而 Fast Mode 的成本更是下降了約 3 倍。
這其實透露出 Anthropic 真正在意的方向。
因此,如今討論 “Opus 4.8 和 GPT-5.5 誰更聰明” 已經沒有太大意義了,因為兩者的能力已經非常接近,很難單純用“更聰明”來區分。
真正的問題變成了:你準備用它來做什么。
為此,我整理了一份簡單的“選型指南”。
更適合 Claude Opus 4.8 的場景,包括大型代碼倉庫開發與維護、長時間無人值守運行的智能體任務、需要模型主動發現并糾正自身錯誤的工作、計算機操作(Computer Use)類任務。
更適合 GPT-5.5 / Codex 的場景:大量依賴終端(Terminal)的工作流、Web 搜索與信息研究、高吞吐量、批量化任務處理、對響應速度要求較高的場景。
至于純粹的推理能力,以及生成首個 Token 的速度(Time to First Token),兩者基本處于同一水平,很難拉開明顯差距。」
![]()
那么,你是否已經使用上新版的 Opus 4.8 了?感興趣的小伙伴,不妨一試:https://www.anthropic.com/news/claude-opus-4-8
免費領取 100 小時 AI 算力|CSDN 讀者福利
加入 AI 開發者計劃獲取:
? AI 算力資源
? 官方技術社群
? Workshop 與 AI Academy
? 開發者專屬福利
立即掃碼,前 50 名額外領取「瑞幸咖啡」
咖啡領取鏈接: https://s.csdn.cn/4nPsOp
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.