无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

剛剛 Claude Opus 4.8 發布,被實錘蒸餾了國產 DeepSeek 和千問?!附一手實測,夯還是拉?

0
分享至

大家好,我是程序員魚皮。

剛剛 Anthropic 又發布了新模型 Claude Opus 4.8,從 2 月的 Opus 4.6 到 4 月的 Opus 4.7,短短 3 個月就迭代了 3 版!


每次大模型一更新,全網都在搬官方的跑分數據、翻譯一下更新日志就完事了。

但跑分高不代表實際好用,我還是更想親自測一測,哪怕已經發如雨下……


正好最新的 Claude Opus 4.8 已經能在 Cursor 里用了,我干脆把 Opus 最近三代(4.6、4.7、4.8)和當紅的 GPT-5.5 放到一起,用同一個提示詞開發同一個全棧項目,看看到底誰最能打。

開始之前,先介紹一下本次 Opus 4.8 的更新,也請大家預測一下最終的測試結果~

Opus 4.8 更新了什么?

Opus 4.8 的定價和 Opus 4.7 一樣,每百萬 token 輸入 5 美元、輸出 25 美元,上下文依然是 100 萬 tokens。

跑分這塊本來我都懶得看了,反正 Opus 每次更新都是往上漲。不過和 GPT-5.5 的對比還是值得關注的,編程能力方面,SWE-bench Pro(Agent 編程能力)從 4.7 的 64.3% 提升到 69.2%,大幅領先 GPT-5.5 的 58.6%。不過在 Terminal-Bench 2.1(終端編程能力)上,GPT-5.5 以 78.2% 仍然領先 Opus 4.8 的 74.6%。


這次更新我覺得最值得關注的有 3 點:

1)動態工作流:Claude Code 里可以一次性派出幾百個并行子 Agent,最多 16 個同時跑、單次上限 1000 個 Agent。適合大規模代碼遷移這種硬骨頭活兒。

不過大多數用戶應該用不上這個功能,就好比你開了個公司,也沒必要一次性雇幾百個人,日常開發哪來這么大的遷移需求。

2)代碼自查能力暴漲:官方說 Opus 4.8 漏檢代碼缺陷的概率比 4.7 降低了 4 倍。也就是說 AI 寫完代碼之后,自己就能發現更多 Bug,一把梭跑通的成功率更高了。

3)Fast Mode 大降價:Fast 模式可以讓同樣的模型處理速度翻倍,而且比之前的 Fast Mode 便宜 3 倍。

看數據是一方面,AI 編程模型好不好用,還是得拿真實項目來檢驗。

不過正式開測之前,先說個最近跟 Claude 有關的樂子。

有人發現用 Anthropic 官方 API(注意是 官方 API,不是中轉站)直接調 Claude,中文問它「你是什么模型?」,它竟然一本正經地回答「我是通義千問」。據說換個問法,它還會說自己是 DeepSeek。


我盲猜一個原因,API 調用沒有像網頁端那樣的系統提示詞來錨定身份,而中文互聯網上「我是通義千問 / DeepSeek」的訓練數據遠比「我是 Claude」多得多。模型在沒有身份提示的情況下,自然就輸出了概率最高的那個回答。

不過也有可能,Claude 就是蒸餾了國產模型,好一個回旋鏢~


好了說回正題,這些頂級模型在實際編程中表現到底如何呢?

讓 Cursor 自動并行測試

如果讓你來做 4 個模型的編程能力對比,你會怎么做呢?手動一個一個跑么?

那也太累了,我選擇直接讓 AI 幫我測。

現在 Cursor 這類 AI 編程工具已經內置了「子 Agent」能力,可以并行啟動多個獨立的 AI 任務,而且每個任務可以指定用不同的模型。

相當于 Cursor 是一個包工頭,我下一個指令,它就幫我同時調度 4 個不同的「工人」干活。

我只需要發一段提示詞,Cursor 就自動幫我同時啟動 4 個子 Agent,分別用 Opus 4.6、4.7、4.8 和 GPT-5.5,全部開到 High thinking 檔位,用同一段提示詞在各自的目錄里開發同一個項目。

我讓 AI 開發的項目是一個「TaskFlow 任務管理看板」全棧應用,類似簡化版飛書看板,包含 7 個功能需求:用戶注冊登錄、三列看板拖拽、任務增刪改查、數據圖表面板、搜索篩選、暗色 / 亮色主題切換、響應式設計。技術棧是 React + TypeScript 前端 + Python FastAPI 后端 + SQLite 數據庫,前后端分離。


再次強調,4 個模型用的是完全一樣的提示詞,而且全程不做任何人工干預。我主要關注這幾個指標:UI 設計水平、功能完成度、代碼質量和架構合理性。

前端界面對比

先看登錄頁。

Opus 4.6 和 Opus 4.7 類似,都做了一個很干凈的居中卡片式登錄:


Opus 4.7 登錄頁

Opus 4.8 也差不多,但多了注冊 / 登錄 Tab 切換,還貼心地把演示賬號密碼直接標在了頁面底部:


Opus 4.8 登錄頁

GPT-5.5 的風格就完全變了,而且一看就是 GPT 的風格,左邊一大塊全是文案宣傳,右邊才是登錄表單。符合我對 GPT 的刻板印象 —— 喜歡在頁面上堆信息:


GPT-5.5 登錄頁

登錄之后,再來看任務看板頁面。

Opus 4.6 的排版整齊,但沒什么背景色,中規中矩吧:


Opus 4.6 看板頁

Opus 4.7 加了漸變背景色,列頭有顏色區分,整體更優雅:


Opus 4.7 看板頁

Opus 4.8 的看板跟 4.6 效果差不多,有點素:


Opus 4.8 看板頁

GPT-5.5 則直接把看板和數據面板合到了一個頁面,上面是圖表,下面是三列任務看板,用最少的頁面完成最多的事。但是任務列的標題直接用了英文,細節上差了點兒意思。


GPT-5.5 看板+數據面板

再來看看數據面板頁面。

Opus 4.6 的數據面板比較簡潔,三張圖表排成一排,沒有多余的裝飾:


Opus 4.6 數據面板

Opus 4.7 的匯總卡片做了圓角漸變色圖標,更生動了:


Opus 4.7 數據面板

Opus 4.8 的數據面板風格和 4.6 類似,不對,比 4.6 更樸素了:


Opus 4.8 數據面板

再來看看深色模式,4 個模型的差距就更明顯了。

Opus 4.6 的深色模式切換過來之后整體顏色還算協調,但背景和卡片的對比度偏低,看起來有點灰蒙蒙的:


Opus 4.6 深色模式

Opus 4.7 的深色模式大不相同,漸變背景色在深色底色下顯得更高級,卡片和圖表的配色也很統一:


Opus 4.7 深色模式

Opus 4.8 的深色模式中規中矩,沒有什么驚喜,也沒什么硬傷,和 4.6 比較接近:


Opus 4.8 深色模式

GPT-5.5 的深色模式風格有點兒像 Opus 4.6,也是一大片灰色,差點兒意思。。。


GPT-5.5 深色模式

你們覺得誰最好看呢?

我個人投 Opus 4.7 一票,深色模式下那個漸變背景色真的很舒服。

功能實現對比

功能方面就不一一展示了,4 個模型全部實現了 7 個功能需求:注冊登錄、看板拖拽、任務管理、圖表、搜索、主題切換、響應式,都能正常使用。

畢竟主流模型一把梭全棧項目已經不是什么新鮮事了,這些功能都不復雜,很難拉開區分度。

代碼質量對比

既然功能都一樣、UI 差異也是見仁見智,那真正能拉開差距的就是代碼質量了。

我讓 AI 幫我分析了 4 個項目的代碼結構,還是能發現明顯的區別的。

首先,4 個模型的項目結構出奇地一致,甚至連文件名都幾乎一模一樣。一方面應該是我提示詞限定技術框架的原因,另一方面看來這些頂級模型的編程思路已經高度趨同了,大家都在往同一套最佳實踐上靠攏。


看看生成的代碼規模:

模型

源碼文件數

代碼行數

Opus 4.6

25

1,865

Opus 4.7

32

2,259

Opus 4.8

33

2,701

GPT-5.5

13

1,221

顯然,Opus 4.8 代碼量最大,GPT-5.5 最精簡。

但代碼多不一定是好事,少也不代表差。關鍵還是看架構是否清晰、有沒有明顯的 Bug。下面逐個來看。

1)Opus 4.7 的架構是最清晰的

后端拆了 3 個 router(auth、tasks、stats),前端狀態管理用獨立的 store 文件,注冊和登錄分頁面,有專門的 AppLayout 布局組件,axios 請求也做了集中封裝。分層非常規整,拿去做團隊項目也沒問題。

2)Opus 4.8 拆得最細

有獨立的 context 目錄、FilterBar 組件、工具模塊,代碼量最大。另外 CORS 跨域配置直接配了 allow_origins=["*"],安全意識差了點。

3)GPT-5.5 走的是極簡路線

只用了 Opus 4.8 一半行數的代碼就搞定了全部功能,但缺點是后端所有路由都寫在 main.py 一個文件里,300 多行擠在一起。能跑是能跑,就是后面要改的話會比較頭疼。

4)Opus 4.6 功能完整,但有 2 個 Bug

一個是缺少 React import 導致白屏,另一個是 Tailwind v4 的 CSS 層級沖突,說明 4.6 對最新框架版本的適配還不夠。

綜合排名

最終,這次測試下來 4 個模型的排名如下:

排名

模型

一句話評價

1

Opus 4.7

架構最清晰,UI 最精致,代碼零缺陷,開箱即用

2

Opus 4.8

代碼量最大最詳盡,但有 CORS 問題

3

GPT-5.5

1221 行極簡通關,但后端單文件堆砌不利于維護

4

Opus 4.6

功能完整但有 2 個白屏 Bug,對新框架適配不足

看到這個結果,是不是有點意外?

最新的 Opus 4.8 竟然沒拿第一,怕不是更新了個寂寞嘛?


我的理解是,4.8 這次更新的重心不在「寫更美觀的代碼」,而在 Agent 可靠性和長時間無人監督的任務執行上。動態工作流、代碼自查能力這些特性,在大型項目和企業級場景里可能更有價值,但在「一把梭做個全棧項目」這種場景下,4.7 反而表現更穩。

所以大家不要盲目追新,還是按自己的實際需求來選模型。

時間有限,就先給大家分享這次測試。結合我自己的使用體感,我的建議是:

  • 日常開發、一把梭小項目:選擇 Opus 4.7 或 4.8 都行,4.7 的 UI 更好看,4.8 更省心(自查能力強)

  • 終端操作、命令行自動化:選擇 GPT-5.5,之前我做 Codex 教程的時候拿 GPT-5.5 用作辦公 AI 還是很香的

  • 大規模代碼遷移重構:選擇 Opus 4.8,它的動態工作流是殺手锏

而且我發現一個趨勢,Opus 4.8 越來越像 GPT-5.5 了,都在朝著「用最務實的方式把活干完」的方向走,對 UI 美感之類的「額外加分項」反而不太上心。

不過我是真的不希望 Claude 繼續朝著這個方向發展下去,大模型之間多搞些差異化,往不同的方向去強化各自的優勢,給用戶更多選擇,我覺得才更好。

OK 就分享到這里,本文會收錄到我免費開源的 ,上千張圖、幾十萬字,帶你從 0 開始快速學會 AI 編程,做出自己的產品、跑通變現全流程,一次拿捏。

開源指路:https://github.com/liyupi/ai-guide

我是魚皮,持續分享 AI 編程干貨。覺得有用的話記得點贊收藏和關注~

也歡迎在評論區聊聊:你現在主力用哪個 AI 編程模型?有沒有試過 Opus 4.8?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
性生活是不是人的剛需?

性生活是不是人的剛需?

宇宙時空
2026-05-31 12:30:18
淚目!廣西18歲女子捐獻器官助他人重獲新生

淚目!廣西18歲女子捐獻器官助他人重獲新生

極目新聞
2026-06-13 11:45:15
他從朝鮮回來無職務,授銜時得知自己是海南軍區司令,懷疑聽錯了

他從朝鮮回來無職務,授銜時得知自己是海南軍區司令,懷疑聽錯了

史之韻
2026-06-14 00:48:49
籌備多時就為此刻!伊朗炸翻世界杯的場子,向全世界拋出4重宣言

籌備多時就為此刻!伊朗炸翻世界杯的場子,向全世界拋出4重宣言

未來展望
2026-06-13 16:26:07
斷糧斷水快撐不住了,菲方對中國喊話:再不撤就開打,必有一戰

斷糧斷水快撐不住了,菲方對中國喊話:再不撤就開打,必有一戰

越過海面
2026-06-12 23:14:09
洋蔥立大功!醫生發現:洋蔥或對3種慢性病有好處!可以常吃

洋蔥立大功!醫生發現:洋蔥或對3種慢性病有好處!可以常吃

芹姐說生活
2026-05-25 14:19:45
晚年毛主席原諒了很多人,為何唯獨不原諒潘漢年?主席對他寒了心

晚年毛主席原諒了很多人,為何唯獨不原諒潘漢年?主席對他寒了心

品點歷史
2026-06-14 06:00:20
搶在王毅專機起飛前,蒙古就對中國亮出危險4字,逼華做兩件事

搶在王毅專機起飛前,蒙古就對中國亮出危險4字,逼華做兩件事

阿訊說天下
2026-06-14 01:29:09
WTT曝出大冷門,首個出局大種子選手誕生,印度怪球手晉級

WTT曝出大冷門,首個出局大種子選手誕生,印度怪球手晉級

極度說球
2026-05-24 13:31:44
陪兒子“熬”過2次休學,才發現:拯救孩子最有效的方法,不是拼命講道理,也不是苦苦哀求,而是給他“安全感”

陪兒子“熬”過2次休學,才發現:拯救孩子最有效的方法,不是拼命講道理,也不是苦苦哀求,而是給他“安全感”

青春期父母成長學堂
2026-06-13 06:11:07
痛失三名核心球員,日本要被荷蘭血洗了?

痛失三名核心球員,日本要被荷蘭血洗了?

老癘體育解說
2026-06-13 08:37:45
你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
小馬云樣貌大變,和女友高調官宣戀情,曬合照秀恩愛

小馬云樣貌大變,和女友高調官宣戀情,曬合照秀恩愛

微微熱評
2026-05-28 14:37:46
蘋果卡最后三天:送耳機是真,薅到卻難

蘋果卡最后三天:送耳機是真,薅到卻難

閃存獵手
2026-06-13 02:55:58
“張雪機車”,再奪冠!

“張雪機車”,再奪冠!

政知新媒體
2026-06-13 20:43:07
關曉彤沒想到,2026世界杯開幕當天,36歲鹿晗會以這種方式火出圈

關曉彤沒想到,2026世界杯開幕當天,36歲鹿晗會以這種方式火出圈

丁丁鯉史紀
2026-06-12 11:41:48
蜀道裝備公司黨委書記、董事長胡?...

蜀道裝備公司黨委書記、董事長胡?...

新浪財經
2026-06-13 01:37:48
重回藍衣軍團?薩德官方:球隊主帥羅伯托-曼奇尼正式離任

重回藍衣軍團?薩德官方:球隊主帥羅伯托-曼奇尼正式離任

懂球帝
2026-06-14 02:56:04
張碧晨被淘汰那刻,那英全場起立鼓掌:歌手的投票席從不殺唱功

張碧晨被淘汰那刻,那英全場起立鼓掌:歌手的投票席從不殺唱功

一盅情懷
2026-06-13 12:41:21
布達拉宮地下世界復雜得嚇人!
金碧輝煌下藏著1200多個“地壟”

布達拉宮地下世界復雜得嚇人! 金碧輝煌下藏著1200多個“地壟”

西樓知趣雜談
2026-06-12 08:54:44
2026-06-14 07:35:00
程序員魚皮 incentive-icons
程序員魚皮
一手科技資訊和編程干貨
150文章數 135關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

寶媽考編排名第一卻被低分者遞補 維權后崗位直接取消

頭條要聞

寶媽考編排名第一卻被低分者遞補 維權后崗位直接取消

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

手機
親子
家居
旅游
軍事航空

手機要聞

比華為三折疊還稀缺!iPhone Ultra國行備貨量不足:博主直言搶到賺到

親子要聞

真正覺醒的家庭

家居要聞

空間微調 移形換境

旅游要聞

深化旅游合作 增進民心相通

軍事要聞

伊外長披露伊美諒解備忘錄草案部分內容

無障礙瀏覽 進入關懷版