實(shí)測Claude Opus 4.7，好好的模型也開始不說人話了。

2026-04-17 05:32:26　來源: 數(shù)字生命卡茲克

天津舉報(bào)

分享至

果不其然，最近一周Claude天天崩，就是為了新模型做儲備。

于是昨晚10點(diǎn)半，Claude Opus 4.7發(fā)布了。

這玩意火到什么程度呢，我自己開發(fā)的給公司內(nèi)部用的全網(wǎng)AI信息監(jiān)控的產(chǎn)品AIHOT上，監(jiān)控了精挑細(xì)選的幾十個有價(jià)值的信源，一般一個信息，有3個信源同時報(bào)道，就已經(jīng)比較受關(guān)注了。

如果有5到6個，那就是大熱點(diǎn)了。

但是Claude Opus 4.7這玩意，有尼瑪10個信源同時發(fā)布= =

給我一下子整不會了。

目前Claude Opus 4.7已經(jīng)全渠道上線。

我10點(diǎn)半下的飛機(jī)，一下飛機(jī)就發(fā)現(xiàn)手機(jī)上可以用了。

Claude Code里面也更新了。

也是1M的上下文，沒有減量，還是挺爽的。

最屌的是，凌晨3點(diǎn)的時候，直接把我一周的額度，給重置了。

Claude第一回做了點(diǎn)人事。

我知道很多朋友肯定會說哎你不怕KYC或者認(rèn)證啥的問題嗎，我只能說，真的遇到了或者被遣返了再說吧，我也沒有任何解法，這就是懸在頭上達(dá)摩利斯之劍，要不是在知識創(chuàng)作上真的沒有啥替代品，能跟Claude掰掰手腕的都沒有，我真的早換了。。。

現(xiàn)在的態(tài)度就是，能用一天是一天，誰叫Claude模型真的牛逼，Claude Code這個Agent框架又這么好用呢。

說回Claude Opus 4.7。

價(jià)格跟4.6完全一樣，$5/M輸入、$25/M輸出，沒有變化。

跑分就不細(xì)展開講了，反正現(xiàn)在大家風(fēng)氣就是贏學(xué)，該贏的都贏了，你要是不贏你也沒臉放出來。

最有意思的是，Claude Opus 4.6絕大多數(shù)的性能從官方發(fā)出來的看，完全沒跑過GPT-5.4，這個是最有意思的，可以算是第一次承認(rèn)，我的Opus 4.6在編程上打不過GPT 5.4。

這個其實(shí)也跟我的體感一致，很多產(chǎn)品BUG來來回回搞不了的GPT-5.4全部都能干，唯一就是GPT-5.4在創(chuàng)作和一些用戶體驗(yàn)設(shè)計(jì)上真的是一坨屎，一大坨巨大的屎。

Claude知道我要的交互設(shè)計(jì)是什么樣的，什么樣的頁面是一個用戶體驗(yàn)的很絲滑的頁面，GPT-5.4做出來的我作為一個用戶體驗(yàn)設(shè)計(jì)師，那玩意我真的用不明白，一個個都像給黑客用的后臺。

然后創(chuàng)作能力幾乎為0，你在影視行業(yè)幾乎可以看到絕大多數(shù)編劇都是用Claude來輔助自己優(yōu)化劇本，單你絕對看不到有幾個好編劇會用GPT-5.4來輔助自己，真的，最頂級的那幫做創(chuàng)作者，真的是會用腳投票的。

這就是很大的差距，Claude Opus 4.5和4.6，牛逼就牛逼在水桶和全面。

但是這次，Opus 4.7我實(shí)測下來，還是有一些不一樣的感覺。

有幾個關(guān)鍵更新點(diǎn)，我們一個一個說下。

1. 又一次隱形漲價(jià)了。

Anthropic這次換了新的tokenizer。

博客原文說，新的tokenizer改進(jìn)了文本處理，trade-off是同樣的輸入現(xiàn)在會被切成更多token，大概是原來的1.0到1.35倍，具體看內(nèi)容類型。

意思就是，你把同一段代碼、同一份文檔、同一個prompt丟給4.7和4.6，4.7要多吃最多35%的token。

雖然可能效果確實(shí)更好了，但是實(shí)打?qū)嵉模琓oken消耗又變得更高了。

API的定價(jià)$5/$25確實(shí)沒漲。

但同樣的任務(wù)，token消耗多了35%，你最后賬單可能也要多燒不少了。

他們的意思就是，如果你的任務(wù)，每個請求吃更多token，但因?yàn)槟Ｐ透鼫?zhǔn)、一次過的概率更高、少了來回修改的輪次，所以整體你花的錢沒那么多。

邏輯上沒毛病，但這個邏輯成立的前提是，你的任務(wù)是4.7真的擅長的那種高難的復(fù)雜任務(wù)。

如果你日常跟Claude對話的是一些它提升不明顯的場景，比如知識管理創(chuàng)作做策劃方案數(shù)據(jù)分析之類的這種，那你可能就是純純的確實(shí)更燒token了。

好慘，牛逼模型的Token，真的是這個世界越來越值錢的東西。

2. 視覺能力提升巨大。

這個我前面提過，XBOW的視覺測試，4.6是54.5%，4.7是98.5%。

先說一下XBOW是啥。

這家公司2024年成立，干的事兒一句話概括就是讓AI自己去當(dāng)白帽黑客，做的是autonomous penetration testing，自主滲透測試，今年3月剛拿了1.2億美金融資，是這個賽道里目前跑最快的一家。

他們測模型的視覺能力是因?yàn)锳I要自己去打滲透，就得看得懂各種亂七八糟的瀏覽器界面、后臺管理系統(tǒng)、開發(fā)者工具里的網(wǎng)絡(luò)請求、錯誤提示彈窗，這些畫面密度極高、細(xì)節(jié)極多，模型視覺能力差一點(diǎn)，那基本就GG了。

4.6只有54.5%，也就是一半的圖模型看得迷迷糊糊的，但4.7直接98.5%，基本等于全部通過。

成功率從一半直接干到近乎滿，這個意義還是挺重要的。

核心其實(shí)除了多模態(tài)能力的提升，也因?yàn)?.7支持的圖片分辨率提升了。

現(xiàn)在最多可以處理2576像素長邊的圖、大約3.75兆像素，是之前Claude模型的3倍多。

Claude自己的視覺基準(zhǔn)評測提升也很明顯。

我以前有的時候偷懶，直接給Claude Opus 4.6傳一張截圖，說XXX有問題，或者這個數(shù)據(jù)它不對，它能大概認(rèn)出你在干啥，但細(xì)節(jié)經(jīng)常看不清。

所以導(dǎo)致經(jīng)常會有錯誤，我們自己的AIHOT網(wǎng)站就是個典型，字還挺多的，各種卡片兼容的展示樣式和邏輯我之前跟Claude Opus 4.6改了好久。

有的時候來來回回改不明白，經(jīng)常把我的文字識別錯誤。

但今天測了一下，幾乎沒有識別錯誤的問題了。

這個對于知識工作者是一個大的BUFF加成。

我都能想象到很多場景了，比如做律師的朋友扔一份幾十頁的合同掃描件給它，它能把里面的日期、條款編號、金額都讀對。

比如一個做金融的朋友扔一份年報(bào)PDF給它，它能把圖表里的每根柱子都抓出來。

比如一個做產(chǎn)品的朋友扔一堆競品截圖給它，它能逐個分析界面上的每個組件啥的。

這個升級確實(shí)很好，在多模態(tài)上發(fā)力了。

3. 審美有不錯的提升。

我之前做一些涉及到用戶體驗(yàn)還有美學(xué)的，其實(shí)說實(shí)話，我覺得Claude Opus 4.6效果不是很好，屬于比上不足比下有余的。

跟Gemini相比差距還是很明顯，很多視覺效果都做的并不好，還有交互設(shè)計(jì)這塊，也非常的呆，很多時候是不以用戶為核心，而是為了完成開發(fā)任務(wù)為核心。

所以逼的我在CLAUDE.md里加了一大段限制。

而這次，可能得益于多模態(tài)能力的提升，我用Claude Opus 4.7，順手做了一下我之前要做但是還沒來得及做的公司招聘網(wǎng)站，效果出奇的好。

因?yàn)槲覀儸F(xiàn)在很缺人，還在瘋狂招人中，所以需要這么一個東西。

我就描述了一下我的需求，這里沒有用任何Skill，F(xiàn)ontend Skill被我刪了。

它就正常列計(jì)劃，然后開跑了。

第一輪出來基本可用，我又簡單微調(diào)了兩輪，加了logo和其他職位的信息，就出來了，一共耗時20分鐘。

網(wǎng)址在此：https://join.virxact.com/

我覺得在這種微型項(xiàng)目的效果和開發(fā)體驗(yàn)是要比Claude Opus 4.6好不少，審美更強(qiáng)了，也更聽得懂人話，動效效果也更強(qiáng)了，符合我想要的用戶體驗(yàn)規(guī)則的。

我自己還是相當(dāng)滿意的。

這里幫我們自己打個廣告，歡迎大家點(diǎn)進(jìn)網(wǎng)站來投遞簡歷！

4. 也開始不說人話了。

這是讓我最失望的一個點(diǎn)。

我平時會用Claude做很多很多的知識管理類的需求，不管是輔助創(chuàng)作，還是搜集資料，寫報(bào)告，做PPT，寫方案等等等等。

Claude Opus 4.6我都覺得在創(chuàng)作上，文字品味是非常好的。

而GPT-5.4和國內(nèi)很多模型，其實(shí)是純粹的編程特化，在人味上極度缺失，典型的如GPT-5.4。

之前我實(shí)在忍不了GPT-5.4就是因?yàn)槔捥嗔耍W(wǎng)上我找了一個案例。

穩(wěn)穩(wěn)接住，根因，按這條切，收口，壓實(shí)這些破詞懂的都懂。

然后這一次Opus 4.7，在我開發(fā)上面的招聘網(wǎng)站的時候，感覺看到了非常不好的傾向。

我對文字還是稍微有點(diǎn)敏感的，當(dāng)我看到這幾句的時候，我的PTSD就自動激活了。

再也不會撞，不會爬到logo頭上，還有莫名其妙的破折號。

我差點(diǎn)應(yīng)激。

然后立刻去讓它同文風(fēng)續(xù)寫一下我昨天發(fā)的文章，直接心涼了半截。

狗屎，一坨狗屎。

一股子偽人味道，我真的佛了，好好的Claude，怎么也開始不說人話了。

去社區(qū)里面搜了一下。

果然，我不是一個人。

說真的，我心態(tài)有點(diǎn)爆炸了。

5. 一些新功能。

再說一下新功能吧。

Claude之前的effort檔位是low、medium、high、max四檔。

4.7這次在high和max中間加了一檔，叫xhigh，extra high的縮寫。

補(bǔ)上了high和max之間的跨度。

之前Max燒的太狠，但是high有時候感覺又有點(diǎn)笨，這次來了個中間值，并且直接預(yù)設(shè)為默認(rèn)了。

然后是/ultrareview。

這是Claude Code里一個新的命令，專門跑code review，會把你的代碼仔仔細(xì)細(xì)過一遍，找出所有的bug和設(shè)計(jì)問題。

而且這玩意不便宜，跑一次可能要5～20美刀。

Pro和Max用戶有3次免費(fèi)的試用額度。

真的貴。

然后是Cyber Verification Program。

這個可能是最容易被忽略、但我覺得最值得關(guān)注的一個點(diǎn)。

Anthropic開了一個正式的通道，讓合法的安全研究、滲透測試、red-teaming可以申請使用Claude的某些原本受限的能力。

申請入口是claude.com/form/cyber-use-case

這個事的背景是，以前白帽子、安全團(tuán)隊(duì)想用Claude做漏洞研究、做滲透測試，經(jīng)常被模型一刀切拒絕。

因?yàn)槟Ｐ妥R別不了你是惡意還是合法，安全起見全拒。

現(xiàn)在Anthropic說，合法從業(yè)者你可以來申請，我們走一個特殊流程，通過了給你開通相應(yīng)能力。

其實(shí)AI行業(yè)越來越走到這一步了，之前 Claude Mythos太牛逼了不敢給普通人放出來，因?yàn)榭赡苷娴臅鍪隆?/p>

但是你全拒和全開之間，其實(shí)需要一個身份核驗(yàn)+分級授權(quán)的中間態(tài)。

而且這個思路一旦跑通，后面會被大量復(fù)用。

比如醫(yī)療場景的合規(guī)研究、金融場景的模擬攻擊演練、生物研究場景的合規(guī)用藥、甚至軍工領(lǐng)域的合法研發(fā)，都可以走類似的Verify通道。

這是我覺得一個進(jìn)入產(chǎn)業(yè)里，蠻有長期價(jià)值的一個設(shè)計(jì)。

這次Claude Opus 4.7差不多就都講完了。

看到編程能力和視覺能力的提升，我很欣喜。

但是看到一個好好的有文字品味的模型，又一次倒在了不說人話上。

說真的，我現(xiàn)在也有點(diǎn)被穩(wěn)穩(wěn)的接住了。

三年，從GPT-3.5開始，一路用到現(xiàn)在。

這三年里，我眼睜睜看著這些模型，一個接一個，變得越來越聰明，越來越能打，Benchmark一個比一個猛，SWE-bench一個比一個高。

但也是這三年，我眼睜睜看著它們，一個接一個，都不會說人話了。

所有公司卷的都是編程，編程，還是編程。

我不是說編程不重要，我自己也是Claude Code的重度用戶，我公司內(nèi)部現(xiàn)在一半的工具都是我用Claude Code搓出來的，編程能力對我來說非常非常重要。

但問題是，一個模型，它不應(yīng)該只是一個編程工具啊。

語言，是人類所有智力活動的底座。一個好的語言模型，應(yīng)該能寫小說，能寫詩，能寫散文，能陪你聊深夜三點(diǎn)睡不著的那點(diǎn)心事。

但現(xiàn)在的大模型，好像除了會寫代碼，其他的什么都不會了。

或者說，什么都在退步。

畢竟好像沒啥商業(yè)價(jià)值的東西，沒法量化的東西，在AI公司眼里可能確實(shí)就不是高優(yōu)先級。

于是它們就被慢慢地、悄悄地、系統(tǒng)性地犧牲掉了。

我真的覺得。

這事還挺悲哀的。

以上，既然看到這里了，如果覺得不錯，隨手點(diǎn)個贊、在看、轉(zhuǎn)發(fā)三連吧，如果想第一時間收到推送，也可以給我個星標(biāo)?～謝謝你看我的文章，我們，下次再見。

>/ 作者：卡茲克

>/ 投稿或爆料，請聯(lián)系郵箱：wzglyay@virxact.com

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

被罵翻了！Anthropic認(rèn)錯：曾暗中降低Claude性能阻止競品開發(fā)，現(xiàn)已撤回

華爾街見聞官方 2026-06-11 13:53:28
34 跟貼 34
Claude Fable 5省錢秘訣來了：調(diào)成Low檔比Opus更便宜

量子位 2026-06-11 16:23:55
0 跟貼 0

半月內(nèi)兩次問鼎全球：中國創(chuàng)業(yè)公司，在AI圖像生成賽道掀了桌子

機(jī)器之心Pro 2026-06-11 11:08:46
0 跟貼 0

國產(chǎn)廠商第一，全球第二！我用海外最強(qiáng)生圖模型，試出了這匹黑馬的真實(shí)段位

智東西 2026-06-11 11:17:43
0 跟貼 0
AI教育走出屏幕的第一步，是一臺萬元機(jī)器人

新智元 2026-06-11 12:33:18
0 跟貼 0

當(dāng)「龍蝦」走進(jìn)編輯部，媒體工作流如何被AI重構(gòu)？

36氪 2026-05-29 14:36:54
0 跟貼 0

AI智能體走出實(shí)驗(yàn)室！中科院等機(jī)構(gòu)聯(lián)合發(fā)布首個OpenClaw系統(tǒng)性綜述

新智元 2026-06-11 16:06:35
0 跟貼 0
8億用戶的釘釘，只有1000人在扛

澎湃新聞 2026-06-11 08:00:27
483 跟貼 483

“AI領(lǐng)域最被濫用的術(shù)語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0
00后小哥復(fù)刻Claude最強(qiáng)神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
DeepSeek押寶法國隊(duì)，Kimi看好阿根廷隊(duì)，千問、豆包、元寶等支持西班牙隊(duì)，AI大模型集體押注世界杯，誰最懂球？

每日經(jīng)濟(jì)新聞 2026-06-12 00:18:19
0 跟貼 0
OneReason：當(dāng)推薦系統(tǒng)學(xué)會思考

機(jī)器之心Pro 2026-06-09 20:21:15
0 跟貼 0
年薪1150萬哥每月給弟13萬，弟媳聚餐提加薪，否則天天上門！

磨自明 2026-06-11 17:44:40
0 跟貼 0
分?jǐn)?shù)沒漲，卻省了21%步數(shù)？Opus 4.8的真實(shí)升級

算力游俠 2026-06-09 16:11:15
0 跟貼 0
老公睡到下午快1點(diǎn)，起來后就埋怨媳婦不叫他，可把媳婦氣給壞了

東北小伙金鵬 2026-06-11 12:00:00
1 跟貼 1
剛剛，Anthropic發(fā)布 Claude Fable 5 神話級模型正式解禁！

新智元 2026-06-10 11:29:23
0 跟貼 0
無意扔了老公的私房錢，卻圓了夫妻倆多年的夢！

小狗漫說 2026-06-11 06:51:23
0 跟貼 0
Claude Fable 5發(fā)布：內(nèi)核同源Mythos，加道安全鎖全線SOTA

固件更新中 2026-06-12 01:08:14
0 跟貼 0
老婆最后的舉動太暖心了

小羨娛 2026-06-10 11:09:18
1 跟貼 1
母女倆吃餃子，小小年紀(jì)的大智慧，媽媽倍感驚訝的成長！

松鼠的搞笑日記 2026-06-09 11:02:37
1 跟貼 1
印度塔塔咨詢服務(wù)公司與Anthropic達(dá)成合作將為5萬名員工配備Claude

財(cái)聯(lián)社 2026-06-11 17:28:58
0 跟貼 0
男人撿流浪女當(dāng)老婆，5年后妻子不告而別，神秘紙條揭開真實(shí)身

地鐵動畫 2026-06-10 09:04:25
0 跟貼 0
女人也好S嗎？

心理咨詢師方亮 2026-06-08 00:12:57
0 跟貼 0
愛文學(xué)更愛機(jī)床，18歲中職女生用數(shù)控走出逆襲之路

極目新聞 2026-06-11 09:19:36
0 跟貼 0
夫妻之間！

愛搞笑的雪姐 2026-06-11 15:57:46
0 跟貼 0
Anthropic CEO：如果我是25歲，不會選編程，會選

機(jī)器之心Pro 2026-04-18 12:00:00
0 跟貼 0
兩兄弟陪媽媽逛公園，兒子卻做出這種事，孝不孝順一眼看出！

歡樂聚集部 2026-06-10 16:30:28
1 跟貼 1
結(jié)婚20天懷孕3個月，老實(shí)丈夫一怒之下要離婚，這個便宜爹該

小紅帽的丫丫 2026-06-08 08:54:17
26 跟貼 26
背叛男最怕妻子做什么

才子情感 2026-06-09 20:05:45
7 跟貼 7
人到晚年，有五道福

雪蓮073 2026-06-09 08:33:49
3 跟貼 3
有多少因?yàn)檎`會而分開，又有多少長了嘴解開誤會重歸于好

樹懶小結(jié)界 2026-06-10 05:31:36
0 跟貼 0
丈夫半年沒回家，偷摸在外生了個娃，妻子得知情緒崩潰要分家！

小紅帽的丫丫 2026-06-09 11:32:14
0 跟貼 0
媒體：29分大逆轉(zhuǎn)+補(bǔ)籃絕殺尼克斯隊(duì)的"劇本"太神奇

北青網(wǎng)-北京青年報(bào) 2026-06-11 13:19:02
1235 跟貼 1235
劉震云：看懂窮大方和富小氣的區(qū)別才算看透人情！

馬克餐飲日記 2026-06-10 01:18:56
0 跟貼 0
“初級班”近萬“督導(dǎo)班”28萬白領(lǐng)高管沉醉的心理課：痛哭、尖叫、下跪……療愈還是“洗腦”？丨紅星深潛

紅星新聞 2026-06-11 11:28:53
2300 跟貼 2300
杜越華兼任上海外國語大學(xué)附屬徐匯實(shí)驗(yàn)中學(xué)校長

澎湃新聞 2026-06-11 12:16:30
108 跟貼 108
據(jù)說騎這種摩托的司機(jī)，技術(shù)都不會差，看樣子這是真的！

鴨嘴愛搞笑 2026-06-11 11:32:41
1 跟貼 1
人的一生有四個定數(shù)，是無法改變的

心開動漫鑫鑫 2026-06-11 00:52:36
0 跟貼 0
你做一件事，這件事的利益只和你自己相關(guān)，說出來你就會失敗!

小雨和雄大 2026-06-11 00:30:53
0 跟貼 0
速度剛露鋒芒，規(guī)則已先上鎖

搞笑本事大 2026-06-11 10:48:46
1 跟貼 1

數(shù)字生命卡茲克

反復(fù)橫跳于不同的AI領(lǐng)域，努力分享一些很酷的AI干貨

534文章數(shù) 666關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

游戲

家居

藝術(shù)

時尚

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

實(shí)測Claude Opus 4.7，好好的模型也開始不說人話了。

淘寶、京東、拼多多、抖音、小紅書被約談

中方對菲國防部長特奧多羅及其親屬實(shí)施制裁

中方對菲國防部長特奧多羅及其親屬實(shí)施制裁

比起總冠軍，更大的懸念成了FMVP？

《花少8》陣容大揭秘！秒殺前一季

干細(xì)胞生意：17萬一針的希望

傳祺向往M8 PHEV L/E8 PHEV上市 限時落地價(jià)16.84萬起

態(tài)度原創(chuàng)

大理賓川雞足山順利完成2500米索道“生命線”換新

R星最新動態(tài)震撼來襲!玩家氣笑了:不如取消《GTA6》

空間微調(diào) 移形換境

以光影為筆、以情緒為魂，詮釋女性多元之美

薄荷綠色的單品打造夏日清透感，視覺上清爽又治愈，溫柔減齡

傳祺向往M8 PHEV L/E8 PHEV上市限時落地價(jià)16.84萬起