无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

<abbr id="howxb"><i id="howxb"></i></abbr>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

剛剛 Claude Opus 4.8 發布，被實錘蒸餾了國產 DeepSeek 和千問？！附一手實測，夯還是拉？

2026-05-29 14:17:49　來源: 程序員魚皮

上海舉報

0

分享至

大家好，我是程序員魚皮。

剛剛 Anthropic 又發布了新模型 Claude Opus 4.8，從 2 月的 Opus 4.6 到 4 月的 Opus 4.7，短短 3 個月就迭代了 3 版！

每次大模型一更新，全網都在搬官方的跑分數據、翻譯一下更新日志就完事了。

但跑分高不代表實際好用，我還是更想親自測一測，哪怕已經發如雨下……

正好最新的 Claude Opus 4.8 已經能在 Cursor 里用了，我干脆把 Opus 最近三代（4.6、4.7、4.8）和當紅的 GPT-5.5 放到一起，用同一個提示詞開發同一個全棧項目，看看到底誰最能打。

開始之前，先介紹一下本次 Opus 4.8 的更新，也請大家預測一下最終的測試結果~

Opus 4.8 更新了什么？

Opus 4.8 的定價和 Opus 4.7 一樣，每百萬 token 輸入 5 美元、輸出 25 美元，上下文依然是 100 萬 tokens。

跑分這塊本來我都懶得看了，反正 Opus 每次更新都是往上漲。不過和 GPT-5.5 的對比還是值得關注的，編程能力方面，SWE-bench Pro（Agent 編程能力）從 4.7 的 64.3% 提升到 69.2%，大幅領先 GPT-5.5 的 58.6%。不過在 Terminal-Bench 2.1（終端編程能力）上，GPT-5.5 以 78.2% 仍然領先 Opus 4.8 的 74.6%。

這次更新我覺得最值得關注的有 3 點：

1）動態工作流：Claude Code 里可以一次性派出幾百個并行子 Agent，最多 16 個同時跑、單次上限 1000 個 Agent。適合大規模代碼遷移這種硬骨頭活兒。

不過大多數用戶應該用不上這個功能，就好比你開了個公司，也沒必要一次性雇幾百個人，日常開發哪來這么大的遷移需求。

2）代碼自查能力暴漲：官方說 Opus 4.8 漏檢代碼缺陷的概率比 4.7 降低了 4 倍。也就是說 AI 寫完代碼之后，自己就能發現更多 Bug，一把梭跑通的成功率更高了。

3）Fast Mode 大降價：Fast 模式可以讓同樣的模型處理速度翻倍，而且比之前的 Fast Mode 便宜 3 倍。

看數據是一方面，AI 編程模型好不好用，還是得拿真實項目來檢驗。

不過正式開測之前，先說個最近跟 Claude 有關的樂子。

有人發現用 Anthropic 官方 API（注意是 官方 API，不是中轉站）直接調 Claude，中文問它「你是什么模型？」，它竟然一本正經地回答「我是通義千問」。據說換個問法，它還會說自己是 DeepSeek。

我盲猜一個原因，API 調用沒有像網頁端那樣的系統提示詞來錨定身份，而中文互聯網上「我是通義千問 / DeepSeek」的訓練數據遠比「我是 Claude」多得多。模型在沒有身份提示的情況下，自然就輸出了概率最高的那個回答。

不過也有可能，Claude 就是蒸餾了國產模型，好一個回旋鏢~

好了說回正題，這些頂級模型在實際編程中表現到底如何呢？

讓 Cursor 自動并行測試

如果讓你來做 4 個模型的編程能力對比，你會怎么做呢？手動一個一個跑么？

那也太累了，我選擇直接讓 AI 幫我測。

現在 Cursor 這類 AI 編程工具已經內置了「子 Agent」能力，可以并行啟動多個獨立的 AI 任務，而且每個任務可以指定用不同的模型。

相當于 Cursor 是一個包工頭，我下一個指令，它就幫我同時調度 4 個不同的「工人」干活。

我只需要發一段提示詞，Cursor 就自動幫我同時啟動 4 個子 Agent，分別用 Opus 4.6、4.7、4.8 和 GPT-5.5，全部開到 High thinking 檔位，用同一段提示詞在各自的目錄里開發同一個項目。

我讓 AI 開發的項目是一個「TaskFlow 任務管理看板」全棧應用，類似簡化版飛書看板，包含 7 個功能需求：用戶注冊登錄、三列看板拖拽、任務增刪改查、數據圖表面板、搜索篩選、暗色 / 亮色主題切換、響應式設計。技術棧是 React + TypeScript 前端 + Python FastAPI 后端 + SQLite 數據庫，前后端分離。

再次強調，4 個模型用的是完全一樣的提示詞，而且全程不做任何人工干預。我主要關注這幾個指標：UI 設計水平、功能完成度、代碼質量和架構合理性。

前端界面對比

先看登錄頁。

Opus 4.6 和 Opus 4.7 類似，都做了一個很干凈的居中卡片式登錄：

Opus 4.7 登錄頁

Opus 4.8 也差不多，但多了注冊 / 登錄 Tab 切換，還貼心地把演示賬號密碼直接標在了頁面底部：

Opus 4.8 登錄頁

GPT-5.5 的風格就完全變了，而且一看就是 GPT 的風格，左邊一大塊全是文案宣傳，右邊才是登錄表單。符合我對 GPT 的刻板印象 —— 喜歡在頁面上堆信息：

GPT-5.5 登錄頁

登錄之后，再來看任務看板頁面。

Opus 4.6 的排版整齊，但沒什么背景色，中規中矩吧：

Opus 4.6 看板頁

Opus 4.7 加了漸變背景色，列頭有顏色區分，整體更優雅：

Opus 4.7 看板頁

Opus 4.8 的看板跟 4.6 效果差不多，有點素：

Opus 4.8 看板頁

GPT-5.5 則直接把看板和數據面板合到了一個頁面，上面是圖表，下面是三列任務看板，用最少的頁面完成最多的事。但是任務列的標題直接用了英文，細節上差了點兒意思。

GPT-5.5 看板+數據面板

再來看看數據面板頁面。

Opus 4.6 的數據面板比較簡潔，三張圖表排成一排，沒有多余的裝飾：

Opus 4.6 數據面板

Opus 4.7 的匯總卡片做了圓角漸變色圖標，更生動了：

Opus 4.7 數據面板

Opus 4.8 的數據面板風格和 4.6 類似，不對，比 4.6 更樸素了：

Opus 4.8 數據面板

再來看看深色模式，4 個模型的差距就更明顯了。

Opus 4.6 的深色模式切換過來之后整體顏色還算協調，但背景和卡片的對比度偏低，看起來有點灰蒙蒙的：

Opus 4.6 深色模式

Opus 4.7 的深色模式大不相同，漸變背景色在深色底色下顯得更高級，卡片和圖表的配色也很統一：

Opus 4.7 深色模式

Opus 4.8 的深色模式中規中矩，沒有什么驚喜，也沒什么硬傷，和 4.6 比較接近：

Opus 4.8 深色模式

GPT-5.5 的深色模式風格有點兒像 Opus 4.6，也是一大片灰色，差點兒意思。。。

GPT-5.5 深色模式

你們覺得誰最好看呢？

我個人投 Opus 4.7 一票，深色模式下那個漸變背景色真的很舒服。

功能實現對比

功能方面就不一一展示了，4 個模型全部實現了 7 個功能需求：注冊登錄、看板拖拽、任務管理、圖表、搜索、主題切換、響應式，都能正常使用。

畢竟主流模型一把梭全棧項目已經不是什么新鮮事了，這些功能都不復雜，很難拉開區分度。

代碼質量對比

既然功能都一樣、UI 差異也是見仁見智，那真正能拉開差距的就是代碼質量了。

我讓 AI 幫我分析了 4 個項目的代碼結構，還是能發現明顯的區別的。

首先，4 個模型的項目結構出奇地一致，甚至連文件名都幾乎一模一樣。一方面應該是我提示詞限定技術框架的原因，另一方面看來這些頂級模型的編程思路已經高度趨同了，大家都在往同一套最佳實踐上靠攏。

看看生成的代碼規模：

模型

源碼文件數

代碼行數

Opus 4.6

25

1,865

Opus 4.7

32

2,259

Opus 4.8

33

2,701

GPT-5.5

13

1,221

顯然，Opus 4.8 代碼量最大，GPT-5.5 最精簡。

但代碼多不一定是好事，少也不代表差。關鍵還是看架構是否清晰、有沒有明顯的 Bug。下面逐個來看。

1）Opus 4.7 的架構是最清晰的

后端拆了 3 個 router（auth、tasks、stats），前端狀態管理用獨立的 store 文件，注冊和登錄分頁面，有專門的 AppLayout 布局組件，axios 請求也做了集中封裝。分層非常規整，拿去做團隊項目也沒問題。

2）Opus 4.8 拆得最細

有獨立的 context 目錄、FilterBar 組件、工具模塊，代碼量最大。另外 CORS 跨域配置直接配了 allow_origins=["*"]，安全意識差了點。

3）GPT-5.5 走的是極簡路線

只用了 Opus 4.8 一半行數的代碼就搞定了全部功能，但缺點是后端所有路由都寫在 main.py 一個文件里，300 多行擠在一起。能跑是能跑，就是后面要改的話會比較頭疼。

4）Opus 4.6 功能完整，但有 2 個 Bug

一個是缺少 React import 導致白屏，另一個是 Tailwind v4 的 CSS 層級沖突，說明 4.6 對最新框架版本的適配還不夠。

綜合排名

最終，這次測試下來 4 個模型的排名如下：

排名

模型

一句話評價

1

Opus 4.7

架構最清晰，UI 最精致，代碼零缺陷，開箱即用

2

Opus 4.8

代碼量最大最詳盡，但有 CORS 問題

3

GPT-5.5

1221 行極簡通關，但后端單文件堆砌不利于維護

4

Opus 4.6

功能完整但有 2 個白屏 Bug，對新框架適配不足

看到這個結果，是不是有點意外？

最新的 Opus 4.8 竟然沒拿第一，怕不是更新了個寂寞嘛？

我的理解是，4.8 這次更新的重心不在「寫更美觀的代碼」，而在 Agent 可靠性和長時間無人監督的任務執行上。動態工作流、代碼自查能力這些特性，在大型項目和企業級場景里可能更有價值，但在「一把梭做個全棧項目」這種場景下，4.7 反而表現更穩。

所以大家不要盲目追新，還是按自己的實際需求來選模型。

時間有限，就先給大家分享這次測試。結合我自己的使用體感，我的建議是：

日常開發、一把梭小項目：選擇 Opus 4.7 或 4.8 都行，4.7 的 UI 更好看，4.8 更省心（自查能力強）
終端操作、命令行自動化：選擇 GPT-5.5，之前我做 Codex 教程的時候拿 GPT-5.5 用作辦公 AI 還是很香的
大規模代碼遷移重構：選擇 Opus 4.8，它的動態工作流是殺手锏

而且我發現一個趨勢，Opus 4.8 越來越像 GPT-5.5 了，都在朝著「用最務實的方式把活干完」的方向走，對 UI 美感之類的「額外加分項」反而不太上心。

不過我是真的不希望 Claude 繼續朝著這個方向發展下去，大模型之間多搞些差異化，往不同的方向去強化各自的優勢，給用戶更多選擇，我覺得才更好。

OK 就分享到這里，本文會收錄到我免費開源的，上千張圖、幾十萬字，帶你從 0 開始快速學會 AI 編程，做出自己的產品、跑通變現全流程，一次拿捏。

開源指路：https://github.com/liyupi/ai-guide

我是魚皮，持續分享 AI 編程干貨。覺得有用的話記得點贊收藏和關注~

也歡迎在評論區聊聊：你現在主力用哪個 AI 編程模型？有沒有試過 Opus 4.8？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

美國4比1大勝美國主導比賽巴拉圭疲于奔命讓人意外

澎湃新聞 2026-06-13 11:06:27
10084 跟貼 10084
日媒：韓國決定申請加入CPTPP

參考消息 2026-06-13 12:18:28
13183 跟貼 13183

燃油車為沖刺年中銷量加大優惠力度新能源車開始漲價

大象新聞 2026-06-13 15:33:15
2667 跟貼 2667

新餐館裝修500把椅子放門口被市民誤認為是不要的直接搬空老板娘喊話：主動歸還者請吃砂鍋

閃電新聞 2026-06-13 12:22:15
1293 跟貼 1293
安徽省合肥市原副市長何逢陽接受審查調查

界面新聞 2026-06-13 17:01:17
26 跟貼 26

李書福：將有序關停并轉吉利汽車集團有限公司相關冗余主體

紅星資本局 2026-06-13 11:26:05
563 跟貼 563

女子花680元辦山姆會員卡，收到臨期菜：距離過期僅剩不到24小時；客服：不想要臨期可以備注

都市快報橙柿互動 2026-06-13 18:48:30
318 跟貼 318
“張雪機車”再次奪冠

新華社客戶端 2026-06-13 20:36:34
5181 跟貼 5181

臺媒體人柳杰克：我粉絲透過自媒體認識大陸，徹底從深綠轉向001

海峽導報社 2026-06-13 16:50:16
107 跟貼 107
一個機油桶用了4年！高考結束后，少年一人一桶一行囊踏上歸家路

星視頻 2026-06-13 09:17:06
130 跟貼 130
媒體：中國制裁菲防長措辭之嚴厲在外交用語中屬罕見

俠客島 2026-06-13 14:51:42
977 跟貼 977
多國嘉賓：在中國，人權不是抽象概念，而是扎根現實的民生福祉

中國日報網 2026-06-13 17:07:04
2832 跟貼 2832
中國男籃隊長調整

極目新聞 2026-06-13 10:53:08
550 跟貼 550
高手在民間！大爺用一把沙子在路面寫出工整書法，驚艷路人

星視頻 2026-06-13 14:54:09
46 跟貼 46
中國政府債券余額首次突破100萬億元

第一財經資訊 2026-06-13 13:16:38
896 跟貼 896
海光信息在漢披露：國產CPU處理器性能已比肩英特爾

支點財經 2026-06-11 21:27:18
174 跟貼 174
剛剛 | 首粒點球！亞洲球隊不?。】ㄋ柦^平！

天津廣播 2026-06-14 05:44:48
1 跟貼 1
揭秘：為什么不建議老舊家電“超期服役”?

北青網-北京青年報 2026-06-12 12:00:04
309 跟貼 309
游客吐槽無錫國保園林寄暢園像“吸煙室”，古建古樹間煙霧彌漫，景區回應：已全面禁煙

上游新聞 2026-06-13 18:13:12
276 跟貼 276
賣家忙到凌晨1點，西班牙球衣日銷500件

第一財經資訊 2026-06-13 13:17:53
123 跟貼 123
英格蘭隊“僅剩一個足球沒被偷”

第一財經資訊 2026-06-13 14:54:33
174 跟貼 174
歐盟政壇“頂流”，又闖一關

中國新聞周刊 2026-06-13 19:32:07
29 跟貼 29
山東陽谷縣通報：一公司石蠟料場起火致3人受傷

環球網資訊 2026-06-14 06:48:09
0 跟貼 0

性生活是不是人的剛需？

宇宙時空

2026-05-31 12:30:18

淚目！廣西18歲女子捐獻器官助他人重獲新生

淚目！廣西18歲女子捐獻器官助他人重獲新生

極目新聞

2026-06-13 11:45:15

他從朝鮮回來無職務，授銜時得知自己是海南軍區司令，懷疑聽錯了

他從朝鮮回來無職務，授銜時得知自己是海南軍區司令，懷疑聽錯了

史之韻

2026-06-14 00:48:49

籌備多時就為此刻！伊朗炸翻世界杯的場子，向全世界拋出4重宣言

籌備多時就為此刻！伊朗炸翻世界杯的場子，向全世界拋出4重宣言

未來展望

2026-06-13 16:26:07

斷糧斷水快撐不住了，菲方對中國喊話：再不撤就開打，必有一戰

斷糧斷水快撐不住了，菲方對中國喊話：再不撤就開打，必有一戰

越過海面

2026-06-12 23:14:09

洋蔥立大功！醫生發現：洋蔥或對3種慢性病有好處！可以常吃

洋蔥立大功！醫生發現：洋蔥或對3種慢性病有好處！可以常吃

芹姐說生活

2026-05-25 14:19:45

晚年毛主席原諒了很多人，為何唯獨不原諒潘漢年？主席對他寒了心

晚年毛主席原諒了很多人，為何唯獨不原諒潘漢年？主席對他寒了心

品點歷史

2026-06-14 06:00:20

搶在王毅專機起飛前，蒙古就對中國亮出危險4字，逼華做兩件事

搶在王毅專機起飛前，蒙古就對中國亮出危險4字，逼華做兩件事

阿訊說天下

2026-06-14 01:29:09

WTT曝出大冷門，首個出局大種子選手誕生，印度怪球手晉級

WTT曝出大冷門，首個出局大種子選手誕生，印度怪球手晉級

極度說球

2026-05-24 13:31:44

陪兒子“熬”過2次休學，才發現：拯救孩子最有效的方法，不是拼命講道理，也不是苦苦哀求，而是給他“安全感”

陪兒子“熬”過2次休學，才發現：拯救孩子最有效的方法，不是拼命講道理，也不是苦苦哀求，而是給他“安全感”

青春期父母成長學堂

2026-06-13 06:11:07

痛失三名核心球員，日本要被荷蘭血洗了？

痛失三名核心球員，日本要被荷蘭血洗了？

老癘體育解說

2026-06-13 08:37:45

你們都是什么時候對男女之事開竅的？網友：果然還是攔不住有心人

你們都是什么時候對男女之事開竅的？網友：果然還是攔不住有心人

夜深愛雜談

2026-02-21 21:37:02

小馬云樣貌大變，和女友高調官宣戀情，曬合照秀恩愛

小馬云樣貌大變，和女友高調官宣戀情，曬合照秀恩愛

微微熱評

2026-05-28 14:37:46

蘋果卡最后三天：送耳機是真，薅到卻難

蘋果卡最后三天：送耳機是真，薅到卻難

閃存獵手

2026-06-13 02:55:58

“張雪機車”，再奪冠！

政知新媒體

2026-06-13 20:43:07

關曉彤沒想到，2026世界杯開幕當天，36歲鹿晗會以這種方式火出圈

關曉彤沒想到，2026世界杯開幕當天，36歲鹿晗會以這種方式火出圈

丁丁鯉史紀

2026-06-12 11:41:48

蜀道裝備公司黨委書記、董事長胡?...

蜀道裝備公司黨委書記、董事長胡?...

新浪財經

2026-06-13 01:37:48

重回藍衣軍團？薩德官方：球隊主帥羅伯托-曼奇尼正式離任

重回藍衣軍團？薩德官方：球隊主帥羅伯托-曼奇尼正式離任

懂球帝

2026-06-14 02:56:04

張碧晨被淘汰那刻，那英全場起立鼓掌：歌手的投票席從不殺唱功

張碧晨被淘汰那刻，那英全場起立鼓掌：歌手的投票席從不殺唱功

一盅情懷

2026-06-13 12:41:21

布達拉宮地下世界復雜得嚇人！
金碧輝煌下藏著1200多個“地壟”

布達拉宮地下世界復雜得嚇人！金碧輝煌下藏著1200多個“地壟”

西樓知趣雜談

2026-06-12 08:54:44

程序員魚皮

一手科技資訊和編程干貨

150文章數 135關注度

往期回顧全部

科技要聞

SpaceX上市首日破2萬億美元，馬斯克再封神

頭條要聞

寶媽考編排名第一卻被低分者遞補維權后崗位直接取消

頭條要聞

寶媽考編排名第一卻被低分者遞補維權后崗位直接取消

體育要聞

美國4比1巴拉圭：這統治力真是美國隊？！

娛樂要聞

鄧超曬孫儷親手織的帽子，笑瘋全網！

財經要聞

梁文鋒向左，楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市限時15.49萬元起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

親子

家居

旅游

軍事航空

手機要聞

比華為三折疊還稀缺！iPhone Ultra國行備貨量不足：博主直言搶到賺到

親子要聞

真正覺醒的家庭

家居要聞

空間微調移形換境

自由流光回溯生活真意
雅奢之序五層別墅
220平對味兒家空間情緒宅

旅游要聞

深化旅游合作增進民心相通

軍事要聞

伊外長披露伊美諒解備忘錄草案部分內容

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<abbr id="rnztw"><dl id="rnztw"></dl></abbr>

<fieldset id="rnztw"><tfoot id="rnztw"></tfoot></fieldset>