无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

實(shí)測Claude Opus 4.7,好好的模型也開始不說人話了。

0
分享至

果不其然,最近一周Claude天天崩,就是為了新模型做儲備。

于是昨晚10點(diǎn)半,Claude Opus 4.7發(fā)布了。

這玩意火到什么程度呢,我自己開發(fā)的給公司內(nèi)部用的全網(wǎng)AI信息監(jiān)控的產(chǎn)品AIHOT上,監(jiān)控了精挑細(xì)選的幾十個有價(jià)值的信源,一般一個信息,有3個信源同時報(bào)道,就已經(jīng)比較受關(guān)注了。

如果有5到6個,那就是大熱點(diǎn)了。

但是Claude Opus 4.7這玩意,有尼瑪10個信源同時發(fā)布= =


給我一下子整不會了。

目前Claude Opus 4.7已經(jīng)全渠道上線。

我10點(diǎn)半下的飛機(jī),一下飛機(jī)就發(fā)現(xiàn)手機(jī)上可以用了。


Claude Code里面也更新了。


也是1M的上下文,沒有減量,還是挺爽的。

最屌的是,凌晨3點(diǎn)的時候,直接把我一周的額度,給重置了。


Claude第一回做了點(diǎn)人事。


我知道很多朋友肯定會說哎你不怕KYC或者認(rèn)證啥的問題嗎,我只能說,真的遇到了或者被遣返了再說吧,我也沒有任何解法,這就是懸在頭上達(dá)摩利斯之劍,要不是在知識創(chuàng)作上真的沒有啥替代品,能跟Claude掰掰手腕的都沒有,我真的早換了。。。

現(xiàn)在的態(tài)度就是,能用一天是一天,誰叫Claude模型真的牛逼,Claude Code這個Agent框架又這么好用呢。

說回Claude Opus 4.7。

價(jià)格跟4.6完全一樣,$5/M輸入、$25/M輸出,沒有變化。

跑分就不細(xì)展開講了,反正現(xiàn)在大家風(fēng)氣就是贏學(xué),該贏的都贏了,你要是不贏你也沒臉放出來。


最有意思的是,Claude Opus 4.6絕大多數(shù)的性能從官方發(fā)出來的看,完全沒跑過GPT-5.4,這個是最有意思的,可以算是第一次承認(rèn),我的Opus 4.6在編程上打不過GPT 5.4。

這個其實(shí)也跟我的體感一致,很多產(chǎn)品BUG來來回回搞不了的GPT-5.4全部都能干,唯一就是GPT-5.4在創(chuàng)作和一些用戶體驗(yàn)設(shè)計(jì)上真的是一坨屎,一大坨巨大的屎。

Claude知道我要的交互設(shè)計(jì)是什么樣的,什么樣的頁面是一個用戶體驗(yàn)的很絲滑的頁面,GPT-5.4做出來的我作為一個用戶體驗(yàn)設(shè)計(jì)師,那玩意我真的用不明白,一個個都像給黑客用的后臺。

然后創(chuàng)作能力幾乎為0,你在影視行業(yè)幾乎可以看到絕大多數(shù)編劇都是用Claude來輔助自己優(yōu)化劇本,單你絕對看不到有幾個好編劇會用GPT-5.4來輔助自己,真的,最頂級的那幫做創(chuàng)作者,真的是會用腳投票的。

這就是很大的差距,Claude Opus 4.5和4.6,牛逼就牛逼在水桶和全面。

但是這次,Opus 4.7我實(shí)測下來,還是有一些不一樣的感覺。

有幾個關(guān)鍵更新點(diǎn),我們一個一個說下。

1. 又一次隱形漲價(jià)了。

Anthropic這次換了新的tokenizer。

博客原文說,新的tokenizer改進(jìn)了文本處理,trade-off是同樣的輸入現(xiàn)在會被切成更多token,大概是原來的1.0到1.35倍,具體看內(nèi)容類型。


意思就是,你把同一段代碼、同一份文檔、同一個prompt丟給4.7和4.6,4.7要多吃最多35%的token。

雖然可能效果確實(shí)更好了,但是實(shí)打?qū)嵉模琓oken消耗又變得更高了。

API的定價(jià)$5/$25確實(shí)沒漲。

但同樣的任務(wù),token消耗多了35%,你最后賬單可能也要多燒不少了。

他們的意思就是,如果你的任務(wù),每個請求吃更多token,但因?yàn)槟P透鼫?zhǔn)、一次過的概率更高、少了來回修改的輪次,所以整體你花的錢沒那么多。

邏輯上沒毛病,但這個邏輯成立的前提是,你的任務(wù)是4.7真的擅長的那種高難的復(fù)雜任務(wù)。

如果你日常跟Claude對話的是一些它提升不明顯的場景,比如知識管理創(chuàng)作做策劃方案數(shù)據(jù)分析之類的這種,那你可能就是純純的確實(shí)更燒token了。

好慘,牛逼模型的Token,真的是這個世界越來越值錢的東西。

2. 視覺能力提升巨大。

這個我前面提過,XBOW的視覺測試,4.6是54.5%,4.7是98.5%。

先說一下XBOW是啥。

這家公司2024年成立,干的事兒一句話概括就是讓AI自己去當(dāng)白帽黑客,做的是autonomous penetration testing,自主滲透測試,今年3月剛拿了1.2億美金融資,是這個賽道里目前跑最快的一家。

他們測模型的視覺能力是因?yàn)锳I要自己去打滲透,就得看得懂各種亂七八糟的瀏覽器界面、后臺管理系統(tǒng)、開發(fā)者工具里的網(wǎng)絡(luò)請求、錯誤提示彈窗,這些畫面密度極高、細(xì)節(jié)極多,模型視覺能力差一點(diǎn),那基本就GG了。

4.6只有54.5%,也就是一半的圖模型看得迷迷糊糊的,但4.7直接98.5%,基本等于全部通過。

成功率從一半直接干到近乎滿,這個意義還是挺重要的。

核心其實(shí)除了多模態(tài)能力的提升,也因?yàn)?.7支持的圖片分辨率提升了。

現(xiàn)在最多可以處理2576像素長邊的圖、大約3.75兆像素,是之前Claude模型的3倍多。

Claude自己的視覺基準(zhǔn)評測提升也很明顯。


我以前有的時候偷懶,直接給Claude Opus 4.6傳一張截圖,說XXX有問題,或者這個數(shù)據(jù)它不對,它能大概認(rèn)出你在干啥,但細(xì)節(jié)經(jīng)常看不清。

所以導(dǎo)致經(jīng)常會有錯誤,我們自己的AIHOT網(wǎng)站就是個典型,字還挺多的,各種卡片兼容的展示樣式和邏輯我之前跟Claude Opus 4.6改了好久。


有的時候來來回回改不明白,經(jīng)常把我的文字識別錯誤。

但今天測了一下,幾乎沒有識別錯誤的問題了。

這個對于知識工作者是一個大的BUFF加成。

我都能想象到很多場景了,比如做律師的朋友扔一份幾十頁的合同掃描件給它,它能把里面的日期、條款編號、金額都讀對。

比如一個做金融的朋友扔一份年報(bào)PDF給它,它能把圖表里的每根柱子都抓出來。

比如一個做產(chǎn)品的朋友扔一堆競品截圖給它,它能逐個分析界面上的每個組件啥的。

這個升級確實(shí)很好,在多模態(tài)上發(fā)力了。

3. 審美有不錯的提升。

我之前做一些涉及到用戶體驗(yàn)還有美學(xué)的,其實(shí)說實(shí)話,我覺得Claude Opus 4.6效果不是很好,屬于比上不足比下有余的。

跟Gemini相比差距還是很明顯,很多視覺效果都做的并不好,還有交互設(shè)計(jì)這塊,也非常的呆,很多時候是不以用戶為核心,而是為了完成開發(fā)任務(wù)為核心。

所以逼的我在CLAUDE.md里加了一大段限制。


而這次,可能得益于多模態(tài)能力的提升,我用Claude Opus 4.7,順手做了一下我之前要做但是還沒來得及做的公司招聘網(wǎng)站,效果出奇的好。

因?yàn)槲覀儸F(xiàn)在很缺人,還在瘋狂招人中,所以需要這么一個東西。

我就描述了一下我的需求,這里沒有用任何Skill,F(xiàn)ontend Skill被我刪了。


它就正常列計(jì)劃,然后開跑了。


第一輪出來基本可用,我又簡單微調(diào)了兩輪,加了logo和其他職位的信息,就出來了,一共耗時20分鐘。

網(wǎng)址在此:https://join.virxact.com/


我覺得在這種微型項(xiàng)目的效果和開發(fā)體驗(yàn)是要比Claude Opus 4.6好不少,審美更強(qiáng)了,也更聽得懂人話,動效效果也更強(qiáng)了,符合我想要的用戶體驗(yàn)規(guī)則的。

我自己還是相當(dāng)滿意的。



這里幫我們自己打個廣告,歡迎大家點(diǎn)進(jìn)網(wǎng)站來投遞簡歷!

4. 也開始不說人話了。

這是讓我最失望的一個點(diǎn)。

我平時會用Claude做很多很多的知識管理類的需求,不管是輔助創(chuàng)作,還是搜集資料,寫報(bào)告,做PPT,寫方案等等等等。

Claude Opus 4.6我都覺得在創(chuàng)作上,文字品味是非常好的。

而GPT-5.4和國內(nèi)很多模型,其實(shí)是純粹的編程特化,在人味上極度缺失,典型的如GPT-5.4。

之前我實(shí)在忍不了GPT-5.4就是因?yàn)槔捥嗔耍W(wǎng)上我找了一個案例。


穩(wěn)穩(wěn)接住,根因,按這條切,收口,壓實(shí)這些破詞懂的都懂。

然后這一次Opus 4.7,在我開發(fā)上面的招聘網(wǎng)站的時候,感覺看到了非常不好的傾向。

我對文字還是稍微有點(diǎn)敏感的,當(dāng)我看到這幾句的時候,我的PTSD就自動激活了。


再也不會撞,不會爬到logo頭上,還有莫名其妙的破折號。

我差點(diǎn)應(yīng)激。

然后立刻去讓它同文風(fēng)續(xù)寫一下我昨天發(fā)的文章,直接心涼了半截。


狗屎,一坨狗屎。

一股子偽人味道,我真的佛了,好好的Claude,怎么也開始不說人話了。

去社區(qū)里面搜了一下。

果然,我不是一個人。


說真的,我心態(tài)有點(diǎn)爆炸了。

5. 一些新功能。

再說一下新功能吧。

Claude之前的effort檔位是low、medium、high、max四檔。

4.7這次在high和max中間加了一檔,叫xhigh,extra high的縮寫。

補(bǔ)上了high和max之間的跨度。

之前Max燒的太狠,但是high有時候感覺又有點(diǎn)笨,這次來了個中間值,并且直接預(yù)設(shè)為默認(rèn)了。


然后是/ultrareview。

這是Claude Code里一個新的命令,專門跑code review,會把你的代碼仔仔細(xì)細(xì)過一遍,找出所有的bug和設(shè)計(jì)問題。

而且這玩意不便宜,跑一次可能要5~20美刀。


Pro和Max用戶有3次免費(fèi)的試用額度。

真的貴。

然后是Cyber Verification Program。

這個可能是最容易被忽略、但我覺得最值得關(guān)注的一個點(diǎn)。

Anthropic開了一個正式的通道,讓合法的安全研究、滲透測試、red-teaming可以申請使用Claude的某些原本受限的能力。

申請入口是claude.com/form/cyber-use-case


這個事的背景是,以前白帽子、安全團(tuán)隊(duì)想用Claude做漏洞研究、做滲透測試,經(jīng)常被模型一刀切拒絕。

因?yàn)槟P妥R別不了你是惡意還是合法,安全起見全拒。

現(xiàn)在Anthropic說,合法從業(yè)者你可以來申請,我們走一個特殊流程,通過了給你開通相應(yīng)能力。

其實(shí)AI行業(yè)越來越走到這一步了,之前 Claude Mythos太牛逼了不敢給普通人放出來,因?yàn)榭赡苷娴臅鍪隆?/p>

但是你全拒和全開之間,其實(shí)需要一個身份核驗(yàn)+分級授權(quán)的中間態(tài)。

而且這個思路一旦跑通,后面會被大量復(fù)用。

比如醫(yī)療場景的合規(guī)研究、金融場景的模擬攻擊演練、生物研究場景的合規(guī)用藥、甚至軍工領(lǐng)域的合法研發(fā),都可以走類似的Verify通道。

這是我覺得一個進(jìn)入產(chǎn)業(yè)里,蠻有長期價(jià)值的一個設(shè)計(jì)。

這次Claude Opus 4.7差不多就都講完了。

看到編程能力和視覺能力的提升,我很欣喜。

但是看到一個好好的有文字品味的模型,又一次倒在了不說人話上。

說真的,我現(xiàn)在也有點(diǎn)被穩(wěn)穩(wěn)的接住了。

三年,從GPT-3.5開始,一路用到現(xiàn)在。

這三年里,我眼睜睜看著這些模型,一個接一個,變得越來越聰明,越來越能打,Benchmark一個比一個猛,SWE-bench一個比一個高。

但也是這三年,我眼睜睜看著它們,一個接一個,都不會說人話了。

所有公司卷的都是編程,編程,還是編程。

我不是說編程不重要,我自己也是Claude Code的重度用戶,我公司內(nèi)部現(xiàn)在一半的工具都是我用Claude Code搓出來的,編程能力對我來說非常非常重要。

但問題是,一個模型,它不應(yīng)該只是一個編程工具啊。

語言,是人類所有智力活動的底座。一個好的語言模型,應(yīng)該能寫小說,能寫詩,能寫散文,能陪你聊深夜三點(diǎn)睡不著的那點(diǎn)心事。

但現(xiàn)在的大模型,好像除了會寫代碼,其他的什么都不會了。

或者說,什么都在退步。

畢竟好像沒啥商業(yè)價(jià)值的東西,沒法量化的東西,在AI公司眼里可能確實(shí)就不是高優(yōu)先級。

于是它們就被慢慢地、悄悄地、系統(tǒng)性地犧牲掉了。

我真的覺得。

這事還挺悲哀的。

以上,既然看到這里了,如果覺得不錯,隨手點(diǎn)個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標(biāo)?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克

>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
自費(fèi)也被追責(zé)?多省開始查自費(fèi)項(xiàng)目

自費(fèi)也被追責(zé)?多省開始查自費(fèi)項(xiàng)目

醫(yī)脈圈
2026-06-10 20:25:59
本屆世界杯首球誕生!墨西哥開場9分鐘閃擊 29歲沙特聯(lián)金靴創(chuàng)歷史

本屆世界杯首球誕生!墨西哥開場9分鐘閃擊 29歲沙特聯(lián)金靴創(chuàng)歷史

我愛英超
2026-06-12 03:32:14
深度? 特朗普“用炸彈談判”,伊朗再“關(guān)”霍爾木茲:美伊爭的究竟是什么?

深度? 特朗普“用炸彈談判”,伊朗再“關(guān)”霍爾木茲:美伊爭的究竟是什么?

上觀新聞
2026-06-11 21:08:54
美國五角大樓被封鎖

美國五角大樓被封鎖

新華社
2026-06-11 23:08:02
馬斯克發(fā)出終極警報(bào):5年內(nèi)世界將巨變,人類優(yōu)勢或面對終極危機(jī)

馬斯克發(fā)出終極警報(bào):5年內(nèi)世界將巨變,人類優(yōu)勢或面對終極危機(jī)

流史歲月
2026-06-11 19:10:06
北京退衣姐被刑拘!警方上門逮捕仍囂張,勢力大不差錢,疑有靠山

北京退衣姐被刑拘!警方上門逮捕仍囂張,勢力大不差錢,疑有靠山

奇思妙想草葉君
2026-06-11 17:29:38
炸機(jī)庫,炸第五艦隊(duì),炸戰(zhàn)機(jī)!伊朗打瘋了,特朗普求和37次沒用

炸機(jī)庫,炸第五艦隊(duì),炸戰(zhàn)機(jī)!伊朗打瘋了,特朗普求和37次沒用

策前論
2026-06-11 16:16:40
金與正去哪兒了?

金與正去哪兒了?

天氣觀察站
2026-06-11 13:52:57
曾被全網(wǎng)罵“表情猙獰”的高考誓師女孩,活成所有人羨慕的樣子

曾被全網(wǎng)罵“表情猙獰”的高考誓師女孩,活成所有人羨慕的樣子

魔都姐姐雜談
2026-06-11 10:57:21
印度游客大鬧杭州醫(yī)院,200元急診費(fèi)就受不了了,高喊“敲詐”!

印度游客大鬧杭州醫(yī)院,200元急診費(fèi)就受不了了,高喊“敲詐”!

魔都姐姐雜談
2026-06-11 09:56:08
4億買世界杯版權(quán)!央視出重拳:禁止錄視頻發(fā)朋友圈 禁用賀煒聲音

4億買世界杯版權(quán)!央視出重拳:禁止錄視頻發(fā)朋友圈 禁用賀煒聲音

風(fēng)過鄉(xiāng)
2026-06-11 12:59:17
人大附中“體制內(nèi)考生”刷屏全網(wǎng),高考成績是他們最不值一提的優(yōu)勢

人大附中“體制內(nèi)考生”刷屏全網(wǎng),高考成績是他們最不值一提的優(yōu)勢

桌子的生活觀
2026-06-11 12:29:43
美國頂級戰(zhàn)略家一針見血,中國的這場危機(jī)不解決,未來后果很嚴(yán)重

美國頂級戰(zhàn)略家一針見血,中國的這場危機(jī)不解決,未來后果很嚴(yán)重

共工之錨
2026-06-11 13:45:16
香港首位航天員黎家盈,人上天還不到10天,提出一個破天荒的請求

香港首位航天員黎家盈,人上天還不到10天,提出一個破天荒的請求

荊楚寰宇文樞
2026-06-11 22:52:46
世界杯狂歡夜!開場9分鐘首球誕生!墨西哥夢幻開局,南非送大禮

世界杯狂歡夜!開場9分鐘首球誕生!墨西哥夢幻開局,南非送大禮

侃球熊弟
2026-06-12 03:21:02
戰(zhàn)略金屬,爆出重大利好!

戰(zhàn)略金屬,爆出重大利好!

君臨財(cái)富
2026-06-11 16:02:45
警方通報(bào):男子駕車時突發(fā)疾病撞到6車,前車1乘客擦傷、涉事司機(jī)已送醫(yī)

警方通報(bào):男子駕車時突發(fā)疾病撞到6車,前車1乘客擦傷、涉事司機(jī)已送醫(yī)

澎湃新聞
2026-06-11 10:44:30
羅馬諾:B席加盟皇馬即將HWG,雙方簽約2年

羅馬諾:B席加盟皇馬即將HWG,雙方簽約2年

懂球帝
2026-06-12 02:49:06
天王嫂們,開始露餡了

天王嫂們,開始露餡了

最人物
2026-06-11 15:41:15
慘敗之后!馬刺主帥賽后講話內(nèi)容曝光,指出史詩級崩盤的真因

慘敗之后!馬刺主帥賽后講話內(nèi)容曝光,指出史詩級崩盤的真因

夜白侃球
2026-06-11 12:46:26
2026-06-12 04:44:49
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
534文章數(shù) 666關(guān)注度
往期回顧 全部

科技要聞

淘寶、京東、拼多多、抖音、小紅書被約談

頭條要聞

中方對菲國防部長特奧多羅及其親屬實(shí)施制裁

頭條要聞

中方對菲國防部長特奧多羅及其親屬實(shí)施制裁

體育要聞

比起總冠軍,更大的懸念成了FMVP?

娛樂要聞

《花少8》陣容大揭秘!秒殺前一季

財(cái)經(jīng)要聞

干細(xì)胞生意:17萬一針的希望

汽車要聞

傳祺向往M8 PHEV L/E8 PHEV上市 限時落地價(jià)16.84萬起

態(tài)度原創(chuàng)

旅游
游戲
家居
藝術(shù)
時尚

旅游要聞

大理賓川雞足山順利完成2500米索道“生命線”換新

R星最新動態(tài)震撼來襲!玩家氣笑了:不如取消《GTA6》

家居要聞

空間微調(diào) 移形換境

藝術(shù)要聞

以光影為筆、以情緒為魂,詮釋女性多元之美

薄荷綠色的單品打造夏日清透感,視覺上清爽又治愈,溫柔減齡

無障礙瀏覽 進(jìn)入關(guān)懷版