无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

剛剛!Claude Opus 4.8 炸場(chǎng),一夜升級(jí)成工作流AI

0
分享至

千呼萬(wàn)喚,Claude Opus 4.8 正式發(fā)布了。

北京時(shí)間 5 月 29 日凌晨,Anthropic 正式發(fā)布 Claude Opus 4.8,如果只看名字,Opus 4.8 很容易被理解成 Opus 4.7 后面的一次小版本更新,其實(shí)從官方釋出的性能表來(lái)說(shuō),也確實(shí)如此。比如 Terminal-Bench 2.1 上,GPT-5.5 的 78.2% 仍然高于 Opus 4.8 的 74.6%。



(圖源:Anthropic)

不過(guò),Anthropic 的真正殺招不只是 Claude Opus 4.8,而是隨這個(gè)新旗艦?zāi)P鸵煌尦觯?strong>包括 Claude.ai 的 effort control、Claude Code 的 dynamic workflows 的全新Agent能力。

事實(shí)上,Anthropic 已經(jīng)不再執(zhí)著于讓 Claude 變得更聰明了,而是選擇讓 Claude 變得更能干活了。

判斷力是Opus 4.8 的最大突破

我們先來(lái)看看 Anthropic 這款最新旗艦?zāi)P?Claude Opus 4.8 的具體性能。

官方性能表里,Opus 4.8 在 Agentic Coding、Agentic Computer Use、Knowledge Work、Finance Agent 等多個(gè)項(xiàng)目上超過(guò) Opus 4.7、GPT-5.5 和 Gemini 3.1 Pro。在 SWE-Bench Pro 上,Opus 4.8 是 69.2%,高于 Opus 4.7 的 64.3%;OSWorld-Verified 上,Opus 4.8 是 83.4%;GDPval-AA 上,Opus 4.8 得到 1890;Finance Agent v2 上,Opus 4.8 是 53.9%。



(圖源:Anthropic)

簡(jiǎn)單來(lái)說(shuō),Opus 4.8 的核心升級(jí)是寫(xiě)代碼、用終端、操作電腦、處理知識(shí)工作、做金融分析。更直白一點(diǎn)說(shuō),Opus 4.8 不是為“問(wèn)答”而升級(jí),而是為“代理執(zhí)行”而升級(jí)。

過(guò)去一年,大家對(duì) coding agent 最大的不滿,并不是它完全不會(huì)寫(xiě)代碼,而是它太自信了,比如你讓它跑一個(gè)任務(wù),它會(huì)說(shuō)任務(wù)完成了,但測(cè)試沒(méi)有真正跑通,還有它會(huì)把自己生成的代碼缺陷放過(guò)去,甚至用很篤定的語(yǔ)氣告訴你“一切正常”。換到問(wèn)答里,那就是 AI 又一次“穩(wěn)穩(wěn)地接住了你”。

這類問(wèn)題對(duì)聊天產(chǎn)品來(lái)說(shuō)只是體驗(yàn)不太行,但對(duì) agent 來(lái)說(shuō)就是生產(chǎn)事故。

因?yàn)?agent 的本質(zhì)不是回答,而是行動(dòng)。一個(gè)會(huì)行動(dòng)的模型,最可怕的不是能力不足,而是能力不足卻不知道自己不足,所以 Opus 4.8 的提升點(diǎn)很重要,它更愿意指出不確定性,愿意在證據(jù)不足時(shí)停下來(lái),等待你補(bǔ)充完整信息再去行動(dòng)。官方甚至提到,Opus 4.8 讓代碼缺陷未經(jīng)提醒通過(guò)的概率,比前代低了很多。

從官方早測(cè)反饋看,Cursor、Devin、Databricks、法律 AI、金融分析、瀏覽器 agent 等合作方也提到:

工具調(diào)用更干凈,任務(wù)推進(jìn)更穩(wěn),長(zhǎng)程上下文保持更好,更適合無(wú)人值守或半無(wú)人值守的復(fù)雜工作。

另外,ClaudeDevs 官方賬號(hào)對(duì) dynamic workflows 做了連續(xù)解釋:Claude Code 現(xiàn)在可以臨時(shí)寫(xiě) orchestration script,然后并行啟動(dòng)大量 coordinated subagents 來(lái)處理復(fù)雜任務(wù)。官方還明確說(shuō),這類 workflow 適合 service-wide bug hunt、大型遷移、設(shè)計(jì)壓力測(cè)試這類單 agent loop 很難完成的任務(wù)。



(圖源:Anthropic)

Bun 作者 Jarred Sumner 表示, dynamic workflows 是目前可靠使用 agents 完成中大型項(xiàng)目的前沿方式之一,并提到 Bun 重寫(xiě)為 Rust 的過(guò)程中,dynamic workflows 和 adversarial code review 起到了重要作用。

不難看出,Opus 4.8 就不是一個(gè)單獨(dú)拎出來(lái)很強(qiáng)的模型,它更重要的是在 Claude Code 這套 agent 系統(tǒng)里的核心執(zhí)行模型。

與此同時(shí),Anthropic 一同發(fā)布的幾個(gè)新能力也很有意思,比如Claude.ai 新增的 effort control ,用戶現(xiàn)在可以控制 Claude 在任務(wù)上“花多少力氣”,有幾個(gè)選項(xiàng),低 effort 更快、更省;高 effort 更深、更適合復(fù)雜任務(wù),Opus 4.8 默認(rèn)的是 high effort,假如想要省一些 token,那最好手動(dòng)切換回低 effort。

5 月模型大混戰(zhàn):全員加速 Agent

整個(gè) 5 月,AI 圈幾乎是各家廠商各顯神通。

OpenAI 繼續(xù)強(qiáng)化 Codex,展示用 Codex 構(gòu)建自改進(jìn)稅務(wù)智能體;Google 在 I/O 上發(fā)布一整套 AI agent 開(kāi)發(fā)工具鏈;GitHub、Cursor、OpenAI 都在爭(zhēng)奪企業(yè)級(jí) AI 編程代理的位置;Replit Agent 開(kāi)始和自動(dòng)化 QA 結(jié)合;Luma Agents 用于規(guī)模化生成真實(shí) UGC 廣告;阿里云也在推 DataWorks AI 數(shù)據(jù)智能體和“全天候 AI 勞動(dòng)力”。

國(guó)內(nèi)模型側(cè)也在繼續(xù)高頻迭代,比如Qwen3.7-Max 強(qiáng)調(diào)編程能力,智譜 GLM-5.1 高速版主打 API 速度,MiniCPM5-1B、BitCPM-CANN 繼續(xù)往端側(cè)、低比特、低成本方向推進(jìn),商湯和騰訊混元等也在快速更新迭代。

與此同時(shí),價(jià)格戰(zhàn)也在悄悄打響。

DeepSeek 再次降價(jià),小米 MiMo 大模型也以極低價(jià)格入場(chǎng),表面上看,這是 API 報(bào)價(jià)競(jìng)爭(zhēng),但實(shí)際上還是為了 Agent,因?yàn)?Agent 實(shí)在是太吃 tokens 了。

如果只是聊天,一次可能只消耗幾百到幾千 tokens,但 Agent 不一樣,它要讀上下文、拆任務(wù)、寫(xiě)計(jì)劃、調(diào)用工具、執(zhí)行代碼、檢查結(jié)果、修復(fù)錯(cuò)誤,有時(shí)還要拉起多個(gè) subagents 并行工作。Claude Code 的 dynamic workflows 就是典型例子,官方自己也提醒它 powerful but expensive,會(huì)快速消耗大量 tokens。

所以,token 價(jià)格戰(zhàn)不只是為了讓聊天更便宜,而是為了讓 Agent 這種高消耗形態(tài)跑得起來(lái)。所以,就連 Anthropic 也不得不把 fast mode 的價(jià)格打到了前代的三分之一,來(lái)應(yīng)對(duì)這樣的高消耗。



(圖源:Anthropic)

看起來(lái),大家只是在按部就班更新模型,但似乎都遺漏了一點(diǎn),那就是這些模型的核心已經(jīng)不再是聊天,而是比誰(shuí)更能進(jìn)入真實(shí)工作流。

過(guò)去的大模型競(jìng)爭(zhēng),主戰(zhàn)場(chǎng)是對(duì)話,誰(shuí)回答得更自然,誰(shuí)推理更強(qiáng),誰(shuí)上下文更長(zhǎng),誰(shuí)模態(tài)更好,現(xiàn)在主戰(zhàn)場(chǎng)正在變成 agent。

Agent 競(jìng)爭(zhēng)的核心不是單次回答,而是連續(xù)執(zhí)行,它要求模型會(huì)拆任務(wù)、會(huì)調(diào)用工具、會(huì)管理上下文、會(huì)處理權(quán)限、會(huì)控制成本、會(huì)復(fù)核輸出,還要能在復(fù)雜環(huán)境中長(zhǎng)時(shí)間不跑偏。

這也是為什么 Opus 4.8 的官方?jīng)]有強(qiáng)調(diào)對(duì)話能力,而是把重點(diǎn)放在 agentic coding、computer use、knowledge work、financial analysis。因?yàn)?Anthropic 很清楚,未來(lái)最值錢(qián)的模型調(diào)用,不一定發(fā)生在聊天窗口里,而是發(fā)生在 IDE、終端、瀏覽器、數(shù)據(jù)平臺(tái)、企業(yè)后臺(tái)和各種自動(dòng)化流程里。



(圖源:Anthropic)

從這個(gè)角度看,dynamic workflows 可能比 Opus 4.8 本身更重要。因?yàn)樗?Claude Code 從“一個(gè) AI 程序員”推向“一支 AI 工程隊(duì)”。過(guò)去你讓模型做任務(wù),本質(zhì)上是一個(gè)模型在一個(gè)上下文里循環(huán)。現(xiàn)在它開(kāi)始能拆分任務(wù)、并行分配子代理、讓不同 agent 互相驗(yàn)證,最后再匯總結(jié)果。

綜合來(lái)看,5 月這場(chǎng)模型大混戰(zhàn),不只是“模型更強(qiáng)了”,而是“模型正在被允許做更多事”。

Claude 一夜蛻變成工作流系統(tǒng)

Opus 4.8 雖然在定位上是 Cludue 的旗艦?zāi)P停粫?huì)是一次“震撼全場(chǎng)”的模型發(fā)布。

它更像 Anthropic 給市場(chǎng)遞出的一張路線圖,這張路線圖里,模型不能只追求更聰明,還要更穩(wěn);任務(wù)不能只完成一輪對(duì)話,還要能持續(xù)推進(jìn);AI 不能只給出答案,還要能解釋過(guò)程、復(fù)核結(jié)果、控制成本,并且把工作流沉淀下來(lái)。這些都是未來(lái)所有大模型都要關(guān)注的點(diǎn)。

于是我們可以看到,Opus 4.8 負(fù)責(zé)把 Claude 的判斷力和長(zhǎng)程執(zhí)行能力往前推一步,effort control 讓用戶可以在質(zhì)量、速度和成本之間主動(dòng)調(diào)節(jié),dynamic workflows 則把 Claude Code 從單個(gè) coding agent,推向一個(gè)可以拆任務(wù)、調(diào)度 subagents、并行執(zhí)行和復(fù)核結(jié)果的工程協(xié)作系統(tǒng)。

Claude 正在變成什么呢?答案已經(jīng)很明顯了,Claude 正在從一個(gè)聊天模型,變成一個(gè)工程協(xié)作系統(tǒng)。

接下來(lái),大模型公司的競(jìng)爭(zhēng)也會(huì)越來(lái)越少停留在“誰(shuí)更會(huì)說(shuō)”,而是把目標(biāo)放在更可靠地完成復(fù)雜任務(wù)、更便宜地支撐高頻調(diào)用,把模型、工具、工作流、安全和成本控制,真正打包成生產(chǎn)力系統(tǒng)。

在這一方向上, Anthropic 已經(jīng)交出了第一份答卷。

Opus名字來(lái)自拉丁語(yǔ)中的“作品”,常用來(lái)形容一位作曲家的傳世之作(magnum opus,即“最偉大的作品”)。在古典音樂(lè)里,Opus 后面跟著編號(hào),代表作曲家最重要的創(chuàng)作。貝多芬的《月光奏鳴曲》是 Op. 27,《命運(yùn)交響曲》是 Op. 67。這不是隨便寫(xiě)的東西,這是嘔心瀝血的集大成之作。

從引領(lǐng)加速AI產(chǎn)業(yè)進(jìn)入工作流時(shí)代的意義來(lái)看,Claude Opus 4.8確實(shí)堪稱一個(gè)傳世之作。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
檢察機(jī)關(guān)去年起訴未成年人犯罪人數(shù)等數(shù)據(jù)同比下降

檢察機(jī)關(guān)去年起訴未成年人犯罪人數(shù)等數(shù)據(jù)同比下降

環(huán)球網(wǎng)資訊
2026-06-01 09:14:20
鬧笑話了!黃仁勛攤牌:看不上華為韜定律,卻被業(yè)內(nèi)專家說(shuō)不專業(yè)

鬧笑話了!黃仁勛攤牌:看不上華為韜定律,卻被業(yè)內(nèi)專家說(shuō)不專業(yè)

兵鑒史
2026-05-30 14:32:11
今天,鞠萍姐姐退休了

今天,鞠萍姐姐退休了

澎湃新聞
2026-05-31 22:52:29
包攬賽季三冠!29歲樊振東獨(dú)取2分 率隊(duì)問(wèn)鼎德甲+隊(duì)史首次斬3冠王

包攬賽季三冠!29歲樊振東獨(dú)取2分 率隊(duì)問(wèn)鼎德甲+隊(duì)史首次斬3冠王

風(fēng)過(guò)鄉(xiāng)
2026-05-31 22:21:30
貴陽(yáng)花果園閃婚騙局調(diào)查:娶妻流水線,女子上午離婚下午結(jié)婚

貴陽(yáng)花果園閃婚騙局調(diào)查:娶妻流水線,女子上午離婚下午結(jié)婚

上游新聞
2026-05-31 14:46:25
給錢(qián)我都不坐!多名特斯拉前員工坦言:馬斯克吹的FSD根本不安全

給錢(qián)我都不坐!多名特斯拉前員工坦言:馬斯克吹的FSD根本不安全

快科技
2026-05-31 14:09:06
能源危機(jī):印度“不能承受之重”

能源危機(jī):印度“不能承受之重”

上觀新聞
2026-05-31 19:14:08
74歲老人嫌楊絮礙事竟將其點(diǎn)燃,20輛新能源車(chē)被燒毀!已被采取刑事強(qiáng)制措施

74歲老人嫌楊絮礙事竟將其點(diǎn)燃,20輛新能源車(chē)被燒毀!已被采取刑事強(qiáng)制措施

環(huán)球網(wǎng)資訊
2026-05-31 18:13:21
趙海燕兒子大婚好低調(diào)!喝60塊的喜酒,現(xiàn)場(chǎng)烤全羊,婚車(chē)都是贊助

趙海燕兒子大婚好低調(diào)!喝60塊的喜酒,現(xiàn)場(chǎng)烤全羊,婚車(chē)都是贊助

裕豐娛間說(shuō)
2026-05-31 07:29:17
釋永信4罪并罰,不僅私生子多,資產(chǎn)多,還有3位家喻戶曉明星徒弟

釋永信4罪并罰,不僅私生子多,資產(chǎn)多,還有3位家喻戶曉明星徒弟

天天熱點(diǎn)見(jiàn)聞
2026-05-31 06:12:51
我們要那么多學(xué)這個(gè)專業(yè)的博士干嘛?

我們要那么多學(xué)這個(gè)專業(yè)的博士干嘛?

廖保平
2026-05-31 08:58:24
忙活一桌子,狗都不吃!丈夫過(guò)生日,妻子自我感動(dòng) ,網(wǎng)友吐槽

忙活一桌子,狗都不吃!丈夫過(guò)生日,妻子自我感動(dòng) ,網(wǎng)友吐槽

蝴蝶花雨話教育
2026-05-31 00:05:20
江主席的五大功績(jī),讓中國(guó)人民受益至今,讓世界對(duì)中國(guó)另眼相看

江主席的五大功績(jī),讓中國(guó)人民受益至今,讓世界對(duì)中國(guó)另眼相看

搜史君
2026-06-01 06:45:19
背叛中國(guó)、出賣(mài)孟晚舟兇手現(xiàn)形后,如今遭到了哪些報(bào)應(yīng)?

背叛中國(guó)、出賣(mài)孟晚舟兇手現(xiàn)形后,如今遭到了哪些報(bào)應(yīng)?

混沌錄
2026-05-30 23:51:06
法媒:巴黎奪冠后球員戴護(hù)目鏡慶祝,源于美國(guó)體育界的傳統(tǒng)

法媒:巴黎奪冠后球員戴護(hù)目鏡慶祝,源于美國(guó)體育界的傳統(tǒng)

天光破云來(lái)
2026-06-01 00:53:46
江蘇太倉(cāng)一飛行營(yíng)地墜機(jī)致死案續(xù):獲賠256.8萬(wàn)元,家屬稱將上訴

江蘇太倉(cāng)一飛行營(yíng)地墜機(jī)致死案續(xù):獲賠256.8萬(wàn)元,家屬稱將上訴

澎湃新聞
2026-05-31 13:40:27
"我的錢(qián)可以買(mǎi)你的命!",男子高鐵怒懟乘警,網(wǎng)友:查一下來(lái)源

"我的錢(qián)可以買(mǎi)你的命!",男子高鐵怒懟乘警,網(wǎng)友:查一下來(lái)源

鯨探所長(zhǎng)
2026-05-31 09:57:29
4-0!德國(guó)隊(duì)獲8連勝,2200萬(wàn)鋒霸2射1傳后傷退,兩大億元先生破門(mén)

4-0!德國(guó)隊(duì)獲8連勝,2200萬(wàn)鋒霸2射1傳后傷退,兩大億元先生破門(mén)

我愛(ài)英超
2026-06-01 06:00:38
亞歷山大和主帥公然批評(píng)!拿著頂薪打得不如藍(lán)領(lǐng),球隊(duì)還當(dāng)非賣(mài)品

亞歷山大和主帥公然批評(píng)!拿著頂薪打得不如藍(lán)領(lǐng),球隊(duì)還當(dāng)非賣(mài)品

你的籃球頻道
2026-06-01 08:01:27
烏雙線雙殺,俄當(dāng)日戰(zhàn)損1560人,川普又開(kāi)始吹捧烏克蘭

烏雙線雙殺,俄當(dāng)日戰(zhàn)損1560人,川普又開(kāi)始吹捧烏克蘭

史政先鋒
2026-05-31 16:46:18
2026-06-01 09:43:00
雷科技 incentive-icons
雷科技
專注AI硬科技
36999文章數(shù) 812145關(guān)注度
往期回顧 全部

科技要聞

關(guān)停三年后,天涯社區(qū)今起開(kāi)放訪問(wèn)

頭條要聞

賴清德偷渡竄訪非洲國(guó)家代價(jià)高達(dá)250億 或"全歸王室"

頭條要聞

賴清德偷渡竄訪非洲國(guó)家代價(jià)高達(dá)250億 或"全歸王室"

體育要聞

哭過(guò)之后,文班亞馬想給波波維奇打電話

娛樂(lè)要聞

朱軍退休,正義雖遲但到,女方受懲

財(cái)經(jīng)要聞

網(wǎng)紅驅(qū)蚊產(chǎn)品,標(biāo)注化妝品竟含農(nóng)藥成分

汽車(chē)要聞

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬(wàn)元起

態(tài)度原創(chuàng)

藝術(shù)
本地
手機(jī)
公開(kāi)課
軍事航空

藝術(shù)要聞

李訥劉思齊邵華童年照曝光!"紅二代"狂草熱榜,大草為何難寫(xiě)好?

本地新聞

用剪紙的方式,打開(kāi)江蘇揚(yáng)州

手機(jī)要聞

榮耀600系列、OPPO Reno16系列首銷成績(jī)出爐

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

解放軍代表質(zhì)問(wèn)日防衛(wèi)大臣:日本何時(shí)道歉

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版