无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude Opus 4.7深夜發(fā)布,編程能力狂飆

0
分享至

Anthropic昨夜扔下了一顆重磅炸彈。Claude Opus 4.7正式上線。

在最關(guān)鍵的軟件工程能力上,它完成了對GPT-5.4的超越,甚至在某些指標(biāo)上逼近了尚未全面開放的Claude Mythos Preview。

01 編程能力暴漲

Opus 4.7在代碼領(lǐng)域的表現(xiàn)相當(dāng)出色。

在權(quán)威的SWE-bench Pro基準(zhǔn)測試中,Opus 4.7的得分從4.6版本的53.4%直接跳漲至64.3%。


這是什么概念?

GPT-5.4在同一測試中的成績是57.7%,而Opus 4.7一口氣拉開了近7個(gè)百分點(diǎn)的差距。

而在SWE-bench Verified的成績是87.6%,相比4.6的80.8%提升近7個(gè)百分點(diǎn)。


這些數(shù)據(jù)的早期測試用戶反饋,以前那些需要工程師盯著看的高難度編程任務(wù),現(xiàn)在可以放心地交給Opus 4.7獨(dú)立完成。

因?yàn)樗粌H能處理復(fù)雜的長時(shí)任務(wù),還會主動(dòng)驗(yàn)證自己的輸出,甚至?xí)趫?zhí)行前進(jìn)行「自我糾錯(cuò)」。

Stripe的工程團(tuán)隊(duì)在測試中提到:「Opus 4.7能在規(guī)劃階段就捕捉到自己的邏輯缺陷,并加速執(zhí)行。這對需要大規(guī)模交付可信金融解決方案的我們來說,可能是游戲規(guī)則的改變者。」

02 視覺3倍分辨率

Opus 4.7新版本支持高達(dá)2,576像素(長邊)的圖像輸入,分辨率是前代模型的三倍以上,約3.75兆像素。

它可以看清復(fù)雜技術(shù)圖紙上的微小標(biāo)注,能準(zhǔn)確解讀化學(xué)分子的立體結(jié)構(gòu),在計(jì)算機(jī)操作任務(wù)中,能從高分辨率截圖里識別出細(xì)枝末節(jié)的UI元素。

在CharXiv視覺推理基準(zhǔn)測試中,Opus 4.7的得分從4.6的 69.1% 躍升至 82.1%;配合工具使用時(shí),更是達(dá)到了91.0%,相較于前代的84.7%提升巨大。


XBOW,即自主滲透測試平臺,的測試數(shù)據(jù)更為震撼:在視覺敏銳度基準(zhǔn)測試中,Opus 4.7得分98.5%,而Opus 4.6僅為54.5%。

「我們最大的痛點(diǎn)一夜之間消失了」,XBOW團(tuán)隊(duì)表示。

03 金融、法律、科研等方面也大有提升

別以為Opus 4.7只是個(gè)程序員專屬模型。在多個(gè)專業(yè)領(lǐng)域,它都展現(xiàn)出了專家級的素養(yǎng)。

金融領(lǐng)域,它在Finance Agent v1.1測試中取得64.4%的成績,并在 GDPval-AA,即第三方經(jīng)濟(jì)價(jià)值知識工作評估測試中創(chuàng)下Claude系列模型的最佳表現(xiàn)。

從財(cái)務(wù)建模到專業(yè)演示文稿制作,Opus 4.7被評價(jià)為「比4.6更嚴(yán)謹(jǐn)?shù)慕鹑诜治鰩煛埂?/p>

法律領(lǐng)域,在BigLaw Bench測試中,Opus 4.7在高難度任務(wù)下達(dá)到 90.9%的準(zhǔn)確率。

它能準(zhǔn)確區(qū)分「轉(zhuǎn)讓條款」和「控制權(quán)變更條款」,要知道,這可是前沿模型普遍頭疼的微妙區(qū)別。

科研與多語言,在Graduate-level reasoning測試中,Opus 4.7達(dá)到 94.2%,與GPT-5.4 Pro的94.4%和Gemini 3.1 Pro的94.3%處于同一梯隊(duì);多語言問答(MMMLU)也提升至91.5%。

04 新版本特性

Opus 4.7在行為模式上有一個(gè)有趣的轉(zhuǎn)變:它變得更擅長遵循指令,也更愿意表達(dá)專業(yè)觀點(diǎn)。

一方面,它的指令遵循能力顯著增強(qiáng)。

Anthropic特別提示,以前為舊版本編寫的提示詞可能需要重新調(diào)整,因?yàn)镺pus 4.7會嚴(yán)格按照字面意思執(zhí)行,而不會像4.6那樣寬松解釋或跳過部分指令。

另一方面,它在技術(shù)討論中表現(xiàn)出更強(qiáng)的專業(yè)素養(yǎng)。

Replit團(tuán)隊(duì)注意到:它會在技術(shù)討論中提出反駁,幫助我做更好的決策。感覺真的像一個(gè)更好的同事,而不是一個(gè)只會說好的的應(yīng)聲蟲。

此外,Opus 4.7在文件系統(tǒng)記憶方面也有改進(jìn),能在長時(shí)間、多會話的工作中記住重要筆記,減少重復(fù)上下文的輸入。


05 安全、價(jià)格與獲取方式

安全防護(hù)是這次發(fā)布的重要一環(huán)。

Anthropic表示,Opus 4.7是網(wǎng)絡(luò)安全風(fēng)險(xiǎn)研究項(xiàng)目框架下的首個(gè)模型,其網(wǎng)絡(luò)攻擊能力相比Mythos Preview已被差異化降低。


模型內(nèi)置了自動(dòng)檢測機(jī)制,可阻止高風(fēng)險(xiǎn)的網(wǎng)絡(luò)安全濫用請求。

當(dāng)然,合法的漏洞研究、滲透測試和紅隊(duì)測試并不在此列,安全專業(yè)人士可申請加入全新的Cyber Verification Program。

價(jià)格方面,Opus 4.7維持與4.6相同的定價(jià),輸入定價(jià)$5/百萬token,輸出定價(jià)$25/百萬token。

目前,Claude網(wǎng)頁端和App已全面上線,API模型名稱為claude-opus-4-7,同時(shí)登陸Amazon Bedrock、Google Cloud Vertex AI和Microsoft Foundry。

但Claude近日要搞AI實(shí)名制,國內(nèi)用戶可能體驗(yàn)不到這波更新了。

(注:本文數(shù)據(jù)及引述均來自Anthropic官方發(fā)布)

來源 | AI普瑞斯(ID:AIPress2025)

作者 | AI普瑞斯 ; 編輯 | 呼呼大睡

內(nèi)容僅代表作者獨(dú)立觀點(diǎn),不代表早讀課立場


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
疑阿里員工爆料:所在部門50%已離職,N+1到手轉(zhuǎn)行跨境電商

疑阿里員工爆料:所在部門50%已離職,N+1到手轉(zhuǎn)行跨境電商

六子吃涼粉
2026-06-12 11:13:32
紐約新王登基!冠軍戰(zhàn)狂砍45分封神了!布倫森榮膺總決賽FMVP!

紐約新王登基!冠軍戰(zhàn)狂砍45分封神了!布倫森榮膺總決賽FMVP!

鍋鍋愛歷史
2026-06-14 17:14:38
王星昊苦戰(zhàn)6小時(shí)半目惜敗申旻埈,LG杯決賽0比1落后

王星昊苦戰(zhàn)6小時(shí)半目惜敗申旻埈,LG杯決賽0比1落后

老牛體育解說
2026-06-14 15:55:28
他是外交部原部長,1985年被鄧小平怒批“胡說八道”,活到了98歲

他是外交部原部長,1985年被鄧小平怒批“胡說八道”,活到了98歲

歷史人文2
2026-05-09 22:00:03
其實(shí),青島最好吃的不是海鮮,而是這8樣

其實(shí),青島最好吃的不是海鮮,而是這8樣

簡食記工作號
2026-06-13 00:05:05
6月14日,人社部公布2026年養(yǎng)老金調(diào)整通知了嗎?會提低控高嗎?

6月14日,人社部公布2026年養(yǎng)老金調(diào)整通知了嗎?會提低控高嗎?

社保小達(dá)人
2026-06-14 10:21:23
正式官宣!前山東泰山助教出任主教練,球隊(duì)卻迎來讓人揪心的消息

正式官宣!前山東泰山助教出任主教練,球隊(duì)卻迎來讓人揪心的消息

王大發(fā)不懂球
2026-06-13 21:02:56
董潔曬北京大平層,深夜一個(gè)人煮夜宵吃,陪17歲兒子在北京讀高二

董潔曬北京大平層,深夜一個(gè)人煮夜宵吃,陪17歲兒子在北京讀高二

墜入二次元的海洋
2026-06-08 15:31:07
劉青山有多奢侈?開進(jìn)口轎車,為吃頓餃子,派人去北京運(yùn)韭菜

劉青山有多奢侈?開進(jìn)口轎車,為吃頓餃子,派人去北京運(yùn)韭菜

人生錄
2026-06-10 19:21:18
鵝腿阿姨的麻煩越來越大了

鵝腿阿姨的麻煩越來越大了

大張的自留地
2026-06-13 20:34:31
醫(yī)生發(fā)現(xiàn):吃一個(gè)西紅柿,就等于喝了一大口碳酸飲料,真的假的?

醫(yī)生發(fā)現(xiàn):吃一個(gè)西紅柿,就等于喝了一大口碳酸飲料,真的假的?

路醫(yī)生健康科普
2026-06-13 15:45:43
巴基斯坦的天塌了!美國和印度太狠了,中國:真的愛莫能助

巴基斯坦的天塌了!美國和印度太狠了,中國:真的愛莫能助

嘻嘻笑
2026-06-14 13:38:20
相親女故意用3萬酒菜羞辱我,結(jié)賬時(shí)服務(wù)員一句話,她當(dāng)場傻眼了

相親女故意用3萬酒菜羞辱我,結(jié)賬時(shí)服務(wù)員一句話,她當(dāng)場傻眼了

墨染塵香
2026-06-13 15:16:50
連邊疆高校都不再躺平!高校內(nèi)卷徹底無路可退,青椒已成耗材

連邊疆高校都不再躺平!高校內(nèi)卷徹底無路可退,青椒已成耗材

侃故事的阿慶
2026-06-14 16:37:15
阿里亂成一鍋粥

阿里亂成一鍋粥

逐浪Linkworld
2026-06-14 14:13:31
紀(jì)委追查現(xiàn)金流向的隱秘方法,很多人栽了還不知道哪里露的餡

紀(jì)委追查現(xiàn)金流向的隱秘方法,很多人栽了還不知道哪里露的餡

職場資深秘書
2026-06-14 12:04:28
只因5歲女孩尿床,父親一腳踹死女兒,尸檢撕開生父繼母惡毒真相

只因5歲女孩尿床,父親一腳踹死女兒,尸檢撕開生父繼母惡毒真相

易玄
2026-06-14 10:34:18
女生吐槽深圳北高鐵站陽奉陰違,說好禁煙還設(shè)吸煙區(qū)

女生吐槽深圳北高鐵站陽奉陰違,說好禁煙還設(shè)吸煙區(qū)

映射生活的身影
2026-06-14 17:26:37
國家一級演員何政軍,為啥結(jié)婚多年無緋聞?看他妻子是誰就明白了

國家一級演員何政軍,為啥結(jié)婚多年無緋聞?看他妻子是誰就明白了

探源歷史
2026-06-14 12:22:18
巴西一女子蹦極時(shí)被拋下30米高平臺當(dāng)場死亡,人在空中才發(fā)現(xiàn)未系繩子,3人因涉嫌過失殺人罪被警方逮捕

巴西一女子蹦極時(shí)被拋下30米高平臺當(dāng)場死亡,人在空中才發(fā)現(xiàn)未系繩子,3人因涉嫌過失殺人罪被警方逮捕

大風(fēng)新聞
2026-06-14 12:04:02
2026-06-14 18:00:49
互聯(lián)網(wǎng)早讀課 incentive-icons
互聯(lián)網(wǎng)早讀課
專注互聯(lián)網(wǎng)產(chǎn)品、運(yùn)營、交互
9720文章數(shù) 55199關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報(bào)信

頭條要聞

巴西女孩蹦極沒系繩被拋下40米高橋身亡 現(xiàn)場畫面披露

頭條要聞

巴西女孩蹦極沒系繩被拋下40米高橋身亡 現(xiàn)場畫面披露

體育要聞

8年8隊(duì)奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財(cái)經(jīng)要聞

金價(jià)跌至900元關(guān)口,大媽又來抄底了!

汽車要聞

綜合續(xù)航超1600km/零百加速4秒級 2027款星途ES預(yù)售18.99萬起

態(tài)度原創(chuàng)

手機(jī)
數(shù)碼
時(shí)尚
游戲
公開課

手機(jī)要聞

消息稱小米MIX Fold 5闊折疊手機(jī)首發(fā)澎湃OS4

數(shù)碼要聞

Meta向旗下Quest 2/3/Pro頭顯全面推送新版Navigator界面

伊姐周六熱推:電視劇《南部檔案》;電視劇《意外調(diào)查組》......

一千多個(gè)NPC!《神鬼寓言4》全用真人配音

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版