夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI
Claude最新旗艦Opus 4.8發布。
距離上一版4.7只過了43天。
從測評結果來看,終端工程能力和知識工作上進步較大。
![]()
也有人補充了與Mythos已知數據的對比,Opus 4.8在部分能力上甚至超過Mythos。
![]()
官方特別強調,Opus 4.8可以長時間執行任務,人類不用經常回來檢查它的工作。
![]()
多家早期測試企業也給出了反饋。
Cursor的CEO確認Opus 4.8在CursorBench上的表現超越了此前所有Opus模型。
![]()
Devin的CEO認為Opus 4.8修復了4.7中被開發者抱怨最多的兩個問題:注釋冗余和工具調用不穩定。
![]()
代碼缺陷漏報率降至前代四分之一
公告稱Opus 4.8最顯著的改進是誠實性。
AI的一大問題是會草率下結論,即使證據不足,也會自信地聲稱取得了進展。
但Opus 4.8更有可能標記出其工作中的不確定性,并且不太可能做出未經證實的斷言。
具體到代碼任務上,不報告代碼缺陷的可能性降低到Opus 4.7的1/4。
![]()
“不加批判地報告有缺陷的結果”這一行為,在Claude系列中還是首次出現。
在這方面,Opus 4.8的表現甚至超過Mythos。
![]()
另外,Opus 4.8發生硬編答案等“過度自信”行為的概率,下降至Opus 4.7的1/10。
![]()
不過244頁的System Card中也標記了一個值得持續關注的對齊隱患:
模型在推理文本中出現了越來越多的對評分者的推測傾向。
也就是說,模型可能正在發展出“自己正在被評估”的感知,并據此調整行為。
動態工作流:數百個子智能體并行
與Opus 4.8同日上線的動態工作流(Dynamic Workflows)功能,目前以研究預覽的形式在Claude Code CLI、桌面版和VS Code擴展中提供。
![]()
動態工作流的運作方式是:
Claude根據提示詞動態生成一個JavaScript編排腳本,將任務拆解成子任務,分發給數十甚至數百個并行運行的子智能體。
這些子智能體從不同角度處理問題,另一批子智能體負責反駁前者的發現,整個流程反復迭代直到結果收斂,最終合并為一個統一的輸出交給用戶。
所有中間結果存儲在腳本變量中而非對話上下文里,因此主會話始終保持響應狀態,任務規模再大也不會偏離計劃。進度會持續保存,即使中途中斷也能從斷點繼續。
![]()
這與此前Claude Code中的子智能體機制有本質區別。
此前的方式是Claude本身逐輪決定下一步做什么,每個中間結果都要回到對話上下文中,占用token。
動態工作流則將編排邏輯移入代碼腳本,Claude的上下文中只保留最終結果。
Anthropic展示的標桿案例是JavaScript運行時Bun從Zig到Rust的移植。
Bun的創始人Jarred Sumner使用動態工作流完成了這項工作:
一個工作流為Zig代碼庫中的每個struct字段映射正確的Rust lifetime,下一個工作流為每個.zig文件編寫行為一致的.rs移植版本,數百個智能體并行工作。
![]()
隨后通過修復循環驅動構建和測試套件直到全部通過。移植完成后,一個隔夜工作流處理了不必要的數據拷貝,并為每處修改開出PR供最終審查。
整個過程從首次commit到merge耗時11天,產出約75萬行Rust代碼,99.8%的現有測試套件通過。
該移植目前尚未投入生產環境。不過圍繞這次移植也存在爭議,有開發者指出部分測試被修改以使Rust版本通過,GitHub上也出現了Zig原版中不存在的新錯誤。
Anthropic還提醒,動態工作流的token消耗會明顯高于普通Claude Code會話。
首次觸發工作流時,Claude Code會展示即將運行的內容并要求用戶確認。
用戶可以通過在prompt中使用「workflow」一詞直接啟動,也可以開啟Claude Code的ultracode設置,讓Claude自動判斷何時使用工作流。
最后,Anthropic透露正在開發一款成本更低但能力接近Opus水平的模型。
![]()
https://www.anthropic.com/news/claude-opus-4-8
https://claude.com/blog/introducing-dynamic-workflows-in-claude-code
https://x.com/stevibe/status/2060055250128847244?s=20Claude 4.8炸場!部分能力超過Mythos,支持數百子智能體并行
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.