網易首頁 > 網易號 > 正文 申請入駐

Claude Opus 4.7連夜突襲:或將搶走全球7億打工人飯碗!

0
分享至


新智元報道

編輯:艾倫 好困

【新智元導讀】Anthropic 正式發布 Claude Opus 4.7,核心升級落在復雜任務執行、高清視覺理解和更穩的長鏈路工作流上。對普通用戶來說,最直接的變化是更聽指令、更會看圖、產出更接近成品,同時也要注意Token也會燒得更快了。

就在剛剛,Anthropic 正式發布 Claude Opus 4.7,并將它定義為當前可廣泛使用的最強 Claude 模型。


性能不如此前曝光的新一代Claude Mythos Preview那么炸裂,但比普通用戶能真正用到的Opus 4.6強了太多,除了Agentic搜索能力略有下降外,實現了全面碾壓!


官方給出的本次升級的關鍵詞:復雜任務、更強視覺、更穩的長鏈路執行,以及更少需要人工參與。

只要還在用大模型寫文檔、讀截圖、做演示、整理材料,Opus 4.7 帶來的體驗變化,很難繞開。


本次更新最大的亮點,是Opus 4.7的視覺能力大幅提升,在測試中從Opus 4.6約50%的分數,直接飆升到接近滿分!

而這,補上了AI目前最大的視覺短板,或許已經不知不覺地邁過了替代人類工作的那道最重要的檻!

GPT-5.4 Thinking是這樣評價它的對手Claude Opus 4.7發布給打工人帶來的影響的:


本次升級的關鍵

在于復雜任務的完成度

Anthropic 把 Opus 4.7 的核心升級點放在了高級軟件工程和長時間任務執行上。

用戶已經可以把過去需要密切監督的高難度編碼工作交給它處理,它會更嚴格地執行指令,也會在回報結果前主動想辦法驗證輸出。

API 發布說明里,Anthropic 也把它稱為當前最強的通用可用模型,面向復雜推理和代理式編碼場景。

大模型競爭的焦點,正在從答得像不像,轉到做得完不完。只會寫一段漂亮答案,已經不夠了。

能不能把一份長文檔改干凈,能不能把一套資料串起來做成可交付物,能不能持續幾十分鐘甚至更久不跑偏,這才會決定它在日常工作里能不能真的替人扛起一片天。

這能夠從 Opus 4.7 的官方發布重點里直接看出來。

純編程只是開胃菜

SWE-bench Multilingual 測的是模型修復真實 GitHub issue 的能力,覆蓋多種編程語言。

Opus 4.7 拿 80.5%,Opus 4.6 拿 77.8%,漲 2.7 個百分點。

單看這個數,似乎只是一次常規迭代。但同一張圖右邊那組數據更有意思,后面回頭講。


1M token 里的長任務

GraphWalks 是 OpenAI 做的長上下文基準,把一張有向圖用邊列表塞滿 1M token 上下文,讓模型做圖遍歷。

兩種考法:一種是 Parents,給一個節點讓模型找出所有直接指向它的父節點;另一種是 BFS 廣度優先搜索,從起點出發一路找到特定深度可達的節點,對 Agent 跑多步驟長任務是硬指標。

在 Parents 1M 這趴,Opus 4.7 從 71.1% 提到 75.1%,4 個百分點的常規改進。

而到了 BFS 1M,Opus 4.7 則從 41.2% 一口氣干到 58.6%,拉開 17.4 個百分點。


換個場景再看。

Vending-Bench 2 讓模型模擬經營一臺自動售貨機,測長時間工作流里的決策連貫性。

Opus 4.6 最終余額 8,018 美元,Opus 4.7 做到 10,937 美元。

同一臺售貨機,同一個時間窗口,Opus 4.7 多掙了 36%。


Agent 的眼睛換了代

ScreenSpot-Pro 測的是 Agent 的屏幕定位能力。

給模型一張 VSCode、Photoshop、AutoCAD 這類專業軟件的高分辨率桌面截圖加一條自然語言指令,讓它定位到具體的 UI 元素。在高分辨率屏幕里,目標 UI 元素往往只占整張圖的 0.07%,極考驗精細視覺。

同樣低分辨率不帶工具,Opus 4.6 拿 57.7%,Opus 4.7 拿 69.0%,拉開 11.3 個百分點。

切到高分辨率,Opus 4.7 不帶工具就達到了 79.5%。疊加工具調用,跑分直接來到 87.6%。


視覺能力在一些測試(如XBOW的基準測試)中,Opus 4.7相比Opus 4.6得分直接翻倍,從54.5%躍升到接近滿分98.5!

這造就了Opus 4.7相比4.6在計算機使用(Computer Use)能力的天壤之別!


回到前面留的那張編程圖。

SWE-bench Multimodal 這項,Anthropic 是用內部實現的測試 harness 跑的。

測的是前端 JS 軟件修 bug,任務里帶著 UI 截圖、效果圖一類的視覺素材,模型要結合圖片和代碼一起干活。

從 Opus 4.6 的 27.1% 做到 Opus 4.7 的 34.5%,一口氣提了 7.4 個百分點。

Opus 4.7 的編程升級,重點是讓模型看懂屏幕。眼睛換代了,腦子才能干更復雜的活。


GPT-5.4 和 Gemini 3.1 Pro 都沒扛住

前面全是自比,現在來看看跟老對手們怎么打。

GDPval-AA 是 Artificial Analysis 基于 OpenAI GDPval 數據集做的評估。

它覆蓋了 44 種知識工作職業、9 大 GDP 核心行業,任務來自資深職業人士(平均 14 年經驗)的真實交付物。AA 版本讓模型在 agent loop 里干活,用盲測兩兩對比打 Elo 分。

Opus 4.7 拿 1753,Opus 4.6 拿 1619,GPT-5.4 拿 1674,Gemini 3.1 Pro 拿 1314。

Opus 4.7 高出 GPT-5.4 79 分,高出 Gemini 3.1 Pro 439 分。


OfficeQA Pro 是 Databricks 做的企業級推理基準,語料是近 100 年的美國財政部公報,8.9 萬頁 PDF、2600 萬個數字。模型要精準找到文檔、解析表格和正文、跨文檔做分析推理。

在這里,Opus 4.7 的跑分高達 80.6%,而 Opus 4.6 只有 57.1%,GPT-5.4 和 Gemini 3.1 Pro 更低,分別是 51.1%和 42.9%。

換句話說,Opus 4.7 是 GPT-5.4 的 1.6 倍,是 Gemini 3.1 Pro 的 1.9 倍。


躍升最炸的是生物學

翻到最后一張,Structural Biology,生物分子推理。

Opus 4.6 只有 30.9%。而Opus 4.7 直接沖到了 74.0%。

一次版本迭代,從三成到七成半,2.4 倍。

堪稱是所有 benchmark 里躍升最夸張的一項。


普通用戶最先感受到的

是三大變化

第一個變化,指令遵循能力更強了。

Anthropic 寫到,Opus 4.7 的指令遵循能力大幅提升,過去很多模型會松散理解、漏掉細節,Opus 4.7 則更傾向于逐條照著執行。

代價是,舊提示詞有時會出現意料之外的結果,用戶需要重新調整寫法。

對普通用戶來說,這會直接減少提示詞玄學,寫需求、定格式、列限制條件,會更有用。

第二種變化,Claude 看圖會更細。

Opus 4.7 支持長邊最高 2576 像素的圖像輸入,大約 375 萬像素,超過此前 Claude 模型的三倍。

官方專門點了幾個場景,密集截圖、復雜圖表、精細結構圖、需要像素級參考的任務。

放到現實使用里,這對應的就是看懂一頁密密麻麻的數據截圖,識別產品原型細節,從復雜流程圖里抽信息,讀一張高分辨率海報或報表時少丟細節。

第三種變化,輸出結果會更容易接近可交付的成品。

Anthropic 提到,Opus 4.7 在界面、幻燈片、文檔這些專業任務上更有審美,也更有創造性。

它在基于文件系統的記憶上做得更好,能跨多輪、多會話記住關鍵備注,減少重復交代背景。

對經常拿模型潤色材料、整理項目、反復改同一份內容的人來說,這種提升會比跑分的提升來得更直觀。

這次發布

安全也被擺在了同樣重要的位置

Anthropic 在一周前剛剛公布 Project Glasswing,專門談到了前沿模型在網絡安全方向的風險與收益。

Opus 4.7 成了這套新思路下第一個公開部署的模型,官方強調,它的網絡安全能力弱于 Mythos Preview,并且上線時帶有自動檢測和攔截高風險網絡安全請求的護欄。

合規安全研究人員則可以申請加入新的 Cyber Verification Program。

從安全評估看,Opus 4.7 與 Opus 4.6 的整體安全畫像相近,在誠實性和抵抗惡意提示詞注入上更強,在某些細項上也存在小幅走弱。


Anthropic 的結論是,它整體上「較為可靠且值得信任」,距離理想狀態還有空間。

這說明,Anthropic 沒有把發布包裝成一次毫無代價的全面躍升。

誰會立刻受益

誰又要多留一個心眼

最先受益的人群很清楚,開發者、分析師、法務、研究人員,以及所有高頻處理文檔、表格、演示材料的人。

官方早期測試反饋里,很多合作方都提到同樣幾件事,復雜工作流更穩了,錯誤恢復更強了,文檔推理、代碼審查、數據分析、長上下文任務都有明顯提升。


需要多留一個心眼的地方也已經寫在官方說明里。

更高分辨率圖像會燒掉更多 Token,用戶用不到這些細節時,最好先壓縮圖片。

Opus 4.7 還換了分詞器(Tokenizer),同樣的輸入可能會多出大約 1.0 到 1.35 倍 Token,高 Effort 下輸出 Token 也會增加。

對直接在 Claude 應用里聊天的普通用戶,這更多會體現在額度和響應體驗上。

對使用龍蝦和Hermes Agent這類API的用戶和團隊客戶,這就是實打實的成本變量。

好在價格方面,Opus 4.7和4.6與4.5保持了一致,沒有漲價,但這個價格本身其實就已經足夠昂貴了...


Anthropic想傳遞的信號

已經很清楚了

從 Opus 4.7 這次發布能看出,Anthropic 眼下押注的方向已經很明確,長任務執行、視覺理解、工具協同、少監督交付,這幾項能力正在被打包成下一階段的大模型主戰場。

官方同步上線的 Xhigh Effort(思考程度介于 high 和 max 中間)、Task Nudgets 公測,以及 Claude Code 里的 /ultrareview,也都圍著這個方向在轉。


除了官網公告外,Claude也公布了Opus 4.7的系統卡,長達232頁,里面公布了更多值得關注的細節,限于篇幅再次我們不作展開。


對普通用戶來說,對Claude Opus 4.7更直接的感受會是,交代清楚以后,它更容易把事情做對,看圖更細,寫出來的東西更能直接拿去用。

大模型從會聊天走向會干活,這一步又往前挪了一大截。

真正能干好活的最強生產力模型,從Opus 4.6,變成了Opus 4.7。

參考資料:

https://www.anthropic.com/news/claude-opus-4-7

https://x.com/claudeai/status/2044785261393977612

https://cdn.sanity.io/files/4zrzovbb/website/037f06850df7fbe871e206dad004c3db5fd50340.pdf

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“你真美,是不是嫌我老?”:手機被沒收后,女子用手表錄16分鐘

“你真美,是不是嫌我老?”:手機被沒收后,女子用手表錄16分鐘

江山揮筆
2026-04-14 10:48:18
重慶撒潑“毒母女”一夜全國出名,誰看了不喊一句離譜!

重慶撒潑“毒母女”一夜全國出名,誰看了不喊一句離譜!

脆皮先生
2026-04-19 19:37:38
越南一把手很焦慮:跟中國一對比,才知道原來我們落后了這么多!

越南一把手很焦慮:跟中國一對比,才知道原來我們落后了這么多!

靚仔情感
2026-04-21 03:48:32
重大轉折!特朗普官宣:伊朗同意交出濃縮鈾,自己將親赴伊斯蘭堡

重大轉折!特朗普官宣:伊朗同意交出濃縮鈾,自己將親赴伊斯蘭堡

矚望云霄
2026-04-20 17:47:22
空軍全軍覆沒?伊朗突亮地下底牌!美以傻眼了,就這樣被騙幾十億

空軍全軍覆沒?伊朗突亮地下底牌!美以傻眼了,就這樣被騙幾十億

博卜talk
2026-04-21 04:27:46
一張封面讓以色列炸鍋,大使怒罵,雜志不道歉,最后視頻曝光

一張封面讓以色列炸鍋,大使怒罵,雜志不道歉,最后視頻曝光

海綿芝士局
2026-04-20 16:17:16
張敬軒涼透了!霍汶希被牽連,英皇瑟瑟發抖!成都文旅連夜割席!

張敬軒涼透了!霍汶希被牽連,英皇瑟瑟發抖!成都文旅連夜割席!

動物奇奇怪怪
2026-04-21 01:11:23
阿聯酋速度很快,剛訪華回來,高調表態:上萬億真金白銀押注中國

阿聯酋速度很快,剛訪華回來,高調表態:上萬億真金白銀押注中國

命運自認幽默
2026-04-20 13:30:49
脫口秀女演員自曝在潑水節執勤經歷,“穿著警察制服,幾個水氣球連續正中面門,被高壓水槍滋胸和屁股,每年要扛出多個被潑蒙掉的女孩”

脫口秀女演員自曝在潑水節執勤經歷,“穿著警察制服,幾個水氣球連續正中面門,被高壓水槍滋胸和屁股,每年要扛出多個被潑蒙掉的女孩”

揚子晚報
2026-04-20 12:24:51
一個女人偷偷喜歡你,會有的三個信號,一眼看破

一個女人偷偷喜歡你,會有的三個信號,一眼看破

葉飛飛情感屋
2026-04-18 13:56:01
記者:狼隊0-4賽后,阿羅科達雷與馬內在更衣室發生肢體沖突

記者:狼隊0-4賽后,阿羅科達雷與馬內在更衣室發生肢體沖突

懂球帝
2026-04-20 11:52:02
零跑汽車股價閃崩10%,董事長高呼“活下來”!去年單車利潤只有1810元…

零跑汽車股價閃崩10%,董事長高呼“活下來”!去年單車利潤只有1810元…

深藍財經
2026-04-20 18:47:13
首都北京市未來10年城市規劃...

首都北京市未來10年城市規劃...

我不叫阿哏
2026-04-20 18:42:03
湖人G2賽前做出爭議決定,或將徹底激怒詹姆斯!

湖人G2賽前做出爭議決定,或將徹底激怒詹姆斯!

夜白侃球
2026-04-20 10:12:53
酒店窗簾太透明情侶全然不知! 60秒視頻片流出…路人狂拍

酒店窗簾太透明情侶全然不知! 60秒視頻片流出…路人狂拍

環球趣聞分享
2026-04-20 14:57:07
賈躍亭發財了,到賬230億

賈躍亭發財了,到賬230億

新浪財經
2026-04-20 18:59:10
震驚!蘇州一公司全員放假61天,聲稱業務停滯停工,鼓勵員工離職

震驚!蘇州一公司全員放假61天,聲稱業務停滯停工,鼓勵員工離職

火山詩話
2026-04-19 15:02:27
官方抽象整活讓余承東直扣問號,華為再現經典“八爪余”表情包

官方抽象整活讓余承東直扣問號,華為再現經典“八爪余”表情包

IT之家
2026-04-20 13:36:03
35+5!馬刺擊敗開拓者,楊瀚森創造歷史記錄

35+5!馬刺擊敗開拓者,楊瀚森創造歷史記錄

阿嚼影視評論
2026-04-20 12:19:15
業績為王!一季報高增長個股名單(附10股),機構已提前布局

業績為王!一季報高增長個股名單(附10股),機構已提前布局

小白鴿財經
2026-04-20 20:30:03
2026-04-21 05:40:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15021文章數 66791關注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發布 售價10999元起

頭條要聞

19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經要聞

利潤暴跌7成,字節到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態度原創

房產
親子
家居
藝術
公開課

房產要聞

大規模商改住!海口西海岸,這波項目要贏麻了!

親子要聞

居家防夾刻不容緩,多名兒童在家玩鬧時手指被夾斷

家居要聞

自然慢調 慢享時光

藝術要聞

春天最適合小住三五天的地方

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版