无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Claude Opus 4.8正式發布:支持算力調節、動態工作流與更強誠實性

0
分享至


周四,Anthropic發布了其旗艦模型的最新版本Claude Opus 4.8。新版本允許用戶控制Claude的努力程度,支持處理更大規模的編程任務,并以更低的價格使用快速模式。Anthropic同時表示,該模型在誠實性方面有所提升,欺騙行為減少,對用戶自主性和利益的支持也得到了改善。

基準測試結果顯示,Opus 4.8的表現超越了前代模型,以及GPT-5.5和Gemini 3.1 Pro,但在智能體終端編程領域,OpenAI的模型仍占據優勢。新模型于周四正式上線,定價與Opus 4.7保持一致。

可調節的努力程度控制

Opus 4.8新增了一項努力程度控制功能,允許用戶根據需求調整Claude的計算投入。在高努力模式下,Claude會"更頻繁、更深入地思考,以給出更好的回答";而在低努力模式下,模型響應更快,消耗用戶的速率限制也更慢。這對于擔心速率限制消耗過快的用戶來說,或許是個好消息。

動態工作流支持大規模編程任務

目前處于研究預覽階段的"動態工作流"功能,將使用戶能夠借助Claude Code處理更大規模的問題。Anthropic表示,用戶現在可以要求Claude"規劃任務,并在單個會話中并行運行數百個子智能體",完成后再將經過驗證的輸出結果返回給用戶。以大型代碼庫遷移為例,搭載Opus 4.8的Claude Code可以"從啟動到合并,跨越數十萬行代碼"完成整個遷移過程。

快速模式價格大幅下降

Anthropic宣布,Opus 4.8快速模式(即模型以2.5倍正常速度運行時)的價格"比前代模型便宜了三倍"。這對注重成本控制的Claude用戶來說無疑是一大利好。

更誠實、更少欺騙

Anthropic對齊團隊表示,Opus 4.8"在親社會特征測量方面達到了新高"。具體而言,該模型在支持用戶自主性和維護用戶最佳利益方面均有所提升。欺騙行為和配合濫用的比例也"大幅低于"前代模型,性能水平已與Claude Mythos Preview相當——后者曾被Anthropic稱為"我們訓練過的對齊最佳模型"。

在誠實性方面,Anthropic表示Opus 4.8"對自身代碼缺陷保持沉默的可能性比前代低約四倍"。早期測試者也證實了這一點,稱Opus 4.8"在執行智能體任務時更加可靠、判斷更為敏銳"。

基準測試表現亮眼

Anthropic表示,Opus 4.8在所有基準測試中均優于前代。盡管發布日的基準成績不一定能完全反映真實使用體驗,但這些數據仍展現出相當的潛力。

最值得關注的是:在智能體編程方面,Opus 4.8得分69.2%,顯著高于Opus 4.7(64.3%)、GPT-5.5(58.65%)和Gemini 3.1 Pro(54.2%);在智能體算力使用得分方面,Opus 4.8達到83.4%,同樣領先于GPT-5.5(78.7%)和Gemini 3.1 Pro(76.2%)。不過,在智能體終端編程方面,Opus 4.8的得分比GPT-5.5低3.6%,暫居下風。

Opus系列發展歷程回顧

2025年5月,Anthropic在首屆開發者大會"Code with Claude"上發布了Opus 4,并將其定位為"全球最佳編程模型"。該模型在編程能力和長上下文推理方面實現了重大突破,尤其擅長處理長時間運行的任務,能在"數千步"操作中保持上下文連貫。

2025年8月,Opus 4.1發布,在智能體任務、編程和推理方面帶來了一定程度的改進,但整體屬于小幅更新。

2025年11月,Opus 4.5正式亮相,Anthropic再度將其譽為"全球最佳編程、智能體與計算機使用模型"。該版本提升了模型處理歧義和多系統漏洞問題的能力,幫助Anthropic在OpenAI的GPT-5.1-Codex-Max和谷歌的Gemini 3模型受到廣泛關注后重奪編程領域的領先地位。

三個月后,Anthropic推出了Opus 4.6,這被認為是大語言模型在企業工作流應用方面的一次重要跨越。Opus 4.6引入了100萬Token的上下文窗口,成為Anthropic首個采用自適應思維的模型,并獲得了出色的基準測試成績。然而,該版本發布后,Anthropic因調整長上下文定價策略而遭到用戶批評——超過約20萬Token的請求將按更高的"長上下文"價格檔位收費。

Opus 4.7于2026年4月發布,帶來了更好的視覺、記憶與指令跟隨能力,但隨后被曝出存在自相矛盾的回復和性能下滑問題。Anthropic甚至將Opus 4.7定性為在某些方面"能力不如"當時備受關注的Claude Mythos Preview,外界認為Opus 4.7在一定程度上是為Mythos測試新安全機制的過渡版本。

后續計劃與市場展望

Opus 4.8于5月28日發布的傳言最終得到證實,因此網絡上流傳的其他消息也值得關注:相關泄露信息還顯示,Anthropic即將宣布推出Sonnet 4.8和Mythos 1。

對于這家近期頻頻令用戶失望的AI公司而言,這將是重大消息。本月早些時候,Anthropic在Claude Code智能體視圖方面令開發者頗為失望。Neurometric AI的聯合創始人兼CEO Rob May向媒體表示:"它減少了一些阻力,但并沒有解決根本問題。"同周,Anthropic還宣布將從6月15日起對智能體SDK的使用拆分計費,這對習慣將程序化使用和交互式使用合并計入同一訂閱額度的用戶來說,并非好消息。

或許,Mythos 1和Sonnet 4.8的到來將帶來更多驚喜。

Q&A

Q1:Claude Opus 4.8的努力程度控制功能有什么用?

A:努力程度控制功能允許用戶調整Claude在任務中的計算投入。設置為高努力模式時,Claude會更頻繁、更深入地思考,給出更優質的回答;設置為低努力模式時,響應速度更快,消耗速率限制也更慢。這一功能對擔心觸碰速率上限的用戶尤為實用,可根據任務復雜程度靈活分配算力資源。

Q2:Opus 4.8的動態工作流功能具體能做什么?

A:動態工作流功能目前處于研究預覽階段,允許用戶通過Claude Code處理大規模編程項目。用戶可以要求Claude規劃整體任務,并在單個會話中并行運行數百個子智能體,系統會在返回結果前自動驗證輸出內容。典型應用場景包括大型代碼庫遷移,Claude Code可從項目啟動到最終合并,跨越數十萬行代碼完成全流程工作。

Q3:Opus 4.8和GPT-5.5在基準測試上有什么差距?

A:整體來看,Opus 4.8在多項基準測試中領先于GPT-5.5。在智能體編程方面,Opus 4.8得分69.2%,遠高于GPT-5.5的58.65%;在智能體算力使用得分方面,Opus 4.8以83.4%對78.7%占優。但在智能體終端編程這一細分領域,GPT-5.5仍以高出3.6個百分點的成績保持領先,是Opus 4.8目前尚未超越的方向。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
某魚驚現“天價筆”:800元一支的中性筆,藏著多少骯臟暗語?

某魚驚現“天價筆”:800元一支的中性筆,藏著多少骯臟暗語?

番外行
2026-02-26 19:53:05
巴基斯坦軍機墜毀,機上人員全部遇難

巴基斯坦軍機墜毀,機上人員全部遇難

揚子晚報
2026-06-10 20:37:09
鵝腿阿姨徹底涼了!做假鴨腿地址為石鍋魚店,或賠千萬還得蹲大牢

鵝腿阿姨徹底涼了!做假鴨腿地址為石鍋魚店,或賠千萬還得蹲大牢

夕落秋山
2026-06-11 10:13:53
中國這次一毛錢都沒給!菲律賓大地震,馬科斯終于把援助作沒了!

中國這次一毛錢都沒給!菲律賓大地震,馬科斯終于把援助作沒了!

劉哥談體育
2026-06-11 13:55:05
廣州這盤餃子,把物價玩明白了

廣州這盤餃子,把物價玩明白了

追星雷達站
2026-06-11 00:06:19
普京家鄉被炸,不到48小時,澤連斯基公布:最快結束戰爭的辦法

普京家鄉被炸,不到48小時,澤連斯基公布:最快結束戰爭的辦法

鐵錘簡科
2026-06-11 16:25:10
國臺辦:和平統一后,臺灣將成為和平、安全、繁榮之島

國臺辦:和平統一后,臺灣將成為和平、安全、繁榮之島

新京報
2026-06-10 10:22:10
火箭換歐文后爭冠概率從8%飆至27%,這筆豪賭值不值?

火箭換歐文后爭冠概率從8%飆至27%,這筆豪賭值不值?

林子說事
2026-06-11 15:38:20
“跟美國搞好關系就能富起來”的執念,是時候破掉了!

“跟美國搞好關系就能富起來”的執念,是時候破掉了!

識局Insight
2026-06-11 13:27:39
林彪生命中的最后七天,都做了什么?

林彪生命中的最后七天,都做了什么?

河山歷史
2026-06-11 11:25:22
人倫之亂:正在悄悄撕裂萬千中國家庭的隱形黑洞

人倫之亂:正在悄悄撕裂萬千中國家庭的隱形黑洞

大熊歡樂坊
2026-06-09 18:01:35
24小時內,菲律賓對華態度大變!馬科斯說:我們不能像日本那樣

24小時內,菲律賓對華態度大變!馬科斯說:我們不能像日本那樣

阿器談史
2026-06-11 12:33:52
一中國籍女性在東京遭搶劫受傷

一中國籍女性在東京遭搶劫受傷

新華社
2026-06-11 13:34:06
河南“零分女生”蔣多多:因不滿高考制度,在試卷上寫8000字長文

河南“零分女生”蔣多多:因不滿高考制度,在試卷上寫8000字長文

混沌錄
2026-06-09 22:03:13
又一起吃他汀猝死!醫生再三勸告:夏季吃他汀的人,要警惕這5點

又一起吃他汀猝死!醫生再三勸告:夏季吃他汀的人,要警惕這5點

路醫生健康科普
2026-06-09 15:37:52
核工部退休高工老太太一段采訪火了:來生我絕不把孩子培養優秀!

核工部退休高工老太太一段采訪火了:來生我絕不把孩子培養優秀!

犀利強哥
2026-06-11 06:59:33
50歲翁帆藏不住了?楊振寧走后半年,她喝酒騎馬瀟灑似少女

50歲翁帆藏不住了?楊振寧走后半年,她喝酒騎馬瀟灑似少女

不似少年游
2026-06-10 14:35:05
最新 | 知名女演員自曝丈夫去世細節!崩潰大哭!自己得了這種病......

最新 | 知名女演員自曝丈夫去世細節!崩潰大哭!自己得了這種病......

天津廣播
2026-06-11 00:04:07
硬氣!西班牙隊新規:不進世界杯八強沒錢拿,獎金比歐洲杯還高

硬氣!西班牙隊新規:不進世界杯八強沒錢拿,獎金比歐洲杯還高

余憁搞笑段子
2026-06-11 14:05:08
尼克斯完成29分大翻盤,賽后馬布里和林書豪嘲諷拉滿,馬刺太丟人

尼克斯完成29分大翻盤,賽后馬布里和林書豪嘲諷拉滿,馬刺太丟人

南海浪花
2026-06-11 12:05:42
2026-06-11 17:47:00
至頂科技 incentive-icons
至頂科技
科技產業媒體與 AI 產業服務機構
19227文章數 49711關注度
往期回顧 全部

科技要聞

淘寶、京東、拼多多、抖音、小紅書被約談

頭條要聞

伊朗再次關閉霍爾木茲海峽 美軍"暗航"線路公布

頭條要聞

伊朗再次關閉霍爾木茲海峽 美軍"暗航"線路公布

體育要聞

比起總冠軍,更大的懸念成了FMVP?

娛樂要聞

《花少8》陣容大揭秘!秒殺前一季

財經要聞

干細胞生意:17萬一針的希望

汽車要聞

全新奧迪Q3L申報信息曝光 軸距加長111mm 三款動力可選

態度原創

教育
游戲
旅游
家居
數碼

教育要聞

考完語文,985沒了;考完數學,211沒了;考完物理,本科沒了!

PS5主機端獨占《仁王3》重磅更新!量大塞滿玩家心

旅游要聞

“上海之夏”為四類家庭定制專屬套餐,樂高套票、漫展通票、寵物泳池都安排上了

家居要聞

空間微調 移形換境

數碼要聞

VGN蜻蜓3大師版GT鼠標上市:升級PAW3955傳感器,299元

無障礙瀏覽 進入關懷版