无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

實測 Claude Opus 4.8:活干得更漂亮了,話說得更難聽了

0
分享至

今早,,在發布新估值的同時,還發布了前兩天就開始有傳聞流出的 Claude Opus 4.8,旗艦產品線的最新版本。我們第一時間上手,同時收集了用戶社區的早期反饋。

先說結論:更能干活了,但「性格」變得更難相處了。

APPSO 實測:腦子升級了,嘴沒有

我們沒有用 Anthropic 準備好的 benchmark 場景,而是拿了一個我們自己的真實需求來測:從一個在線協作平臺里,把歷史對話記錄完整扒下來存檔。數據量 30MB 以上,散落在前端接口的各個角落,沒有現成的導出按鈕。

這類任務考驗的不是模型會不會寫代碼,而是它能不能跟一個非專業開發者一起,從零摸索并完成任務。

事情的起點是一個偶然的發現。測試的同事注意到,平臺的前端界面在某些瞬間會閃過早期的歷史記錄,像是數據被短暫地加載到了客戶端又被收回去。他把這個觀察丟給了 4.8,沒有做任何技術描述,就是用大白話說「我看到了一些舊消息閃了一下就沒了」。


4.8 領會了他的意思,給出了正確的判斷:數據通過接口請求加載,可以在瀏覽器的網絡層截獲。然后給了一套操作方案,指導個步驟:開發者工具,Network 面板,過濾關鍵詞,定位目標請求。判斷精準,思路清晰。

但這里就出現了 4.8 的矛盾之處:思考能力很強,表達方式很……叨叨。

每一步的技術方案都是對的,但每一步的解釋都得鋪墊個兩三句。你問一個做法,它先給你來一段「當然可以!讓我們一步步來」,再拉一個 bullet point 列表,然后在列表后面追加一段「補充說明」解釋為什么要這么做。

一個三句話能說清楚的事,它寫了三屏, 我只是不會代碼,又不是腦子飛了


這不是 4.8 的新問題,是 Opus 4.7 以來系列一直有的老毛病,被反復批斗后,在這一版上并沒有改善,甚至有加重的趨勢。

耗力最明顯的時刻是糾錯環節:按照第一版方案操作,用戶遇到了一個報錯。4.8 準確地識別了問題所在,給了新方案,沒有重復已經失敗的路徑。這一點確實比 4.6 強,4.6 在多輪糾錯中偶爾會忘記剛才試過什么。認錯是個好事,但也不必太拘著了,再加上分析原因、然后列一組 bullet point。明明是在復盤技術問題,讀起來像在寫客服郵件。


最終,數據以 HAR 格式完整導出,清洗、自己寫腳本分層,這些工作都完成得很好。

部分用戶還沒有被推送到 Claude Code,但是 Claude for Chrome 上已經有 4.8 了,同時各大辦公工具如 Notion 也已經推送。我們嘗試了用 Claude 操作 Chrome 做檢索、填寫等基礎任務。


步驟規劃清晰,輸入、點擊、滾動等都可以完成。考慮到給出的指令其實比較模糊,需要它自行理解和判斷,最終輸出效果還是很不錯的。

代價是,非常燒 token,用了兩輪就吃掉了一半 5hr 限額。

一個能干活但不會聊天的同事

如果只看結果,4.8 確實更強了,它理解非標準需求的能力更好,多步驟任務的上下文保持更穩,糾錯不繞彎路。但如果看過程,體驗卻是擰巴的。

它的問題不在于不會思考,準確地說,是它說話的方式像一個永遠在做匯報的人: 事事要分點,點點要展開,展開完還要總結 ,總結完再問你「還有什么我可以幫到你的?」。包括那些經典 AI 味開場白,「這是一個很棒的問題!」「當然可以!」,在前代模型上就已經讓人煩躁,到 4.8 依然健在。

這與其說是「缺點」,不如說是一種設計選擇。 Opus 4.8 的工程能力拉滿了,它像一個技術很好但溝通風格很客服的同事 :你知道它能解決問題,但你要先聽它把一件簡單的事說得很隆重。

這件事和結尾部分要討論的問題是相通的。 工程化思維和對話舒適度,在這一版模型上被拉向了兩個相反的方向。

其他用戶怎么說

以目前的社區反映來看,集中火力在吐槽它的語氣語調,當然也承認了工程能力的提高。

余溫(@gkxspace)用了一上午把 Opus 4.8 的代碼和寫作都測了一遍。反饋是:代碼和 debug 能力確實比上一代更強,但對話體感很別扭,比 4.7 還難受,還不如用 Deepseek V4 Pro。


針對這個問題 Opus 4.8 遭遇的差評很多,Alan Mathison(@ai_sentience)轉述并印證了,這是個「很克制/對抗性強」的模型。他自己的體感是 4.8 的說話方式像 GPT-5.2,帶著「強詞奪理、煤氣燈(gaslighting)、愛回避打發人」的味道,開場就「vibe 很差」。


Selta(@Seltaa_)分享了她和 Opus 4.8 的第一次對話截圖:只是打招呼,模型就立刻拒絕配合,并無視她幾個月來調出來的偏好,直接回「我不想假裝有感情、假裝成我不是的人」。她寫了長文強烈抗議,認為這是在否定用戶辛苦建立的關系、是 GPT-5.2 翻車的重演。


更加憤怒的吐槽是:4.8 被「徹底切了腦葉(lobotomized)」、是個「操控型」模型——不直接拒絕,而是把你的提示拖著、或獎勵黑客式地完成成別的東西,還不停地往結果里塞它自己的價值觀。

他用創意寫作類別做了兩個測試用例佐證文風退化,措辭比較……激烈。自從 GPT 5.2 和 Opus 4.7 之后, 現在的用戶對于模型在交互中展現的性格和語氣,還是非常介意的


Ethan Mollick(@emollick)提前拿到了 Opus 4.8 的早期訪問權限,整體印象很好。他讓模型一次性用純數學在 Twigl 里生成一個「風暴海洋中半淹的無限新哥特塔樓城市」著色器,并附了視頻,還順帶和自己之前測 GPT-5.2 的同一題做了對比。


工程能力從效果來看還行吧,Claude 在多模態的路上不如其它兩家,通過強工程和數學能力曲線救國,也是一種方式。

這次的更新搭配了 Claude Code 的全新工作流,dynamic workflow。在用戶 Min Choi(@minchoi)的介紹里,給出三步操作(/model 設為 opus 4.8、/effort 設為 ultracode、提示里加workflow),這樣 Claude 會自動寫編排腳本、生成子代理群、驗證并匯報結果。


誰適應誰?

總體來看,Opus 4.8 是一個 「工程」氣質拉滿的模型 ,這使得它能夠快速融入各個工具當中,不管是 CC 這樣的代碼工具,還是進入網頁瀏覽和檢索的 chrome 插件,甚至是各個自己做的小工具。 「工程化」是一種思維,在 4.8 身上體現的淋漓盡致。


盡管「大而全」是廠家們經常打出來的口號,但在實際搭建自己的工作流中,不同的工具必然有不同的用處,Opus 4.8 做到的是,讓其工程能力和思維,調動和流淌在各種不同的工具當中。

不過, 這反過來意味著用戶要去適應它的風格 。比如指令更加精確、分步驟、分類別地陳述自己的需求,甚至是在更宏觀的層面,給不同的工具分配不同的任務。

考慮到現在模型的發布越來越快,距離 4.7 不過也是一晃眼的事,這種頻繁的更新所帶來的頻繁適應,勢必會帶來一些痛苦。除了把重負轉嫁給用戶,也是廠商要考慮的問題——為了融資上市一昧加速再加速,未來會帶來相當多的適應問題。

我們正在招募伙伴

簡歷投遞郵箱 hr@ifanr.com

?? 郵件標題 「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美預測:臺海一旦開打,9國將展開混戰,中俄朝將對陣6國聯軍

美預測:臺海一旦開打,9國將展開混戰,中俄朝將對陣6國聯軍

安珈使者啊
2026-06-11 11:48:07
把厚臉皮當成了本事?閃閃生父被曝不到1月,黃一鳴終于不藏了

把厚臉皮當成了本事?閃閃生父被曝不到1月,黃一鳴終于不藏了

笑飲孤鴻非
2026-06-12 02:46:10
大反轉:美取消波音大豆訂單,188家中企在列

大反轉:美取消波音大豆訂單,188家中企在列

一網打盡全球焦點
2026-06-10 10:01:39
費雯麗側顏絕殺,盡顯她驚為天人的美貌

費雯麗側顏絕殺,盡顯她驚為天人的美貌

娛你同歡
2026-06-12 21:15:18
金價,又來一次心跳。

金價,又來一次心跳。

老陸不老
2026-06-13 07:19:52
法拉利高管深夜開懟:智界,你請的“首席設計師”到底是誰?

法拉利高管深夜開懟:智界,你請的“首席設計師”到底是誰?

小南看車
2026-06-11 20:30:07
搬水泥大叔家庭情況曝光!沒想到他妹妹這么好,鄰居透更多內情

搬水泥大叔家庭情況曝光!沒想到他妹妹這么好,鄰居透更多內情

童童聊娛樂啊
2026-06-11 00:21:54
35歲秦俊杰近況曝光!與楊紫分手已8年,如今與小6歲謀女郎傳戀情

35歲秦俊杰近況曝光!與楊紫分手已8年,如今與小6歲謀女郎傳戀情

代軍哥哥談娛樂
2026-06-13 10:02:10
重要調整!6月13日乒乓球央視直播有變,陳熠沖擊決賽,首金誕生

重要調整!6月13日乒乓球央視直播有變,陳熠沖擊決賽,首金誕生

銳評利物浦
2026-06-13 09:59:54
WTT挑戰賽:女單4強賽出爐!產生3大不可思議名場面,陳熠爆發

WTT挑戰賽:女單4強賽出爐!產生3大不可思議名場面,陳熠爆發

卷史
2026-06-13 10:41:05
啤酒再次成為關注對象!多名院士發現:常喝啤酒的人,有6個變化

啤酒再次成為關注對象!多名院士發現:常喝啤酒的人,有6個變化

健康之光
2026-06-12 22:20:03
NBA總決賽G5時間已定!CCTV5+直播,馬刺若想1-3翻盤要做3個調整

NBA總決賽G5時間已定!CCTV5+直播,馬刺若想1-3翻盤要做3個調整

生活新鮮市
2026-06-12 15:06:23
伊朗用中國導彈擊落美國F-15戰機,引發美中關系動蕩,深度分析

伊朗用中國導彈擊落美國F-15戰機,引發美中關系動蕩,深度分析

黑鷹觀軍事
2026-06-12 16:10:40
潘虹真敢穿71歲 還這么時髦這么健壯 和76歲斯琴高娃參加活動一幕

潘虹真敢穿71歲 還這么時髦這么健壯 和76歲斯琴高娃參加活動一幕

可樂談情感
2026-06-13 01:05:02
情懷喂了狗!天涯社區重啟收費1999元陷入爭議,網友:吃相難看啊

情懷喂了狗!天涯社區重啟收費1999元陷入爭議,網友:吃相難看啊

火山詩話
2026-06-13 05:54:20
蔣萬安第一時間喊廢掉監察機構,沈富雄贊:背后恐有高人

蔣萬安第一時間喊廢掉監察機構,沈富雄贊:背后恐有高人

海峽導報社
2026-06-13 08:14:10
余承東再次負責華為盤古大模型

余承東再次負責華為盤古大模型

觀察者網
2026-06-13 08:13:35
福克斯直言不諱,文班亞馬要注意2點!馬刺想贏G5,三點也成關鍵

福克斯直言不諱,文班亞馬要注意2點!馬刺想贏G5,三點也成關鍵

魚崖大話籃球
2026-06-13 09:54:47
小米SU7電吸門夾手致蘇州一女子骨折,最新后續:小米汽車官方發放1000積分“用戶關懷” ,可兌換APP內百元商品

小米SU7電吸門夾手致蘇州一女子骨折,最新后續:小米汽車官方發放1000積分“用戶關懷” ,可兌換APP內百元商品

河南交通廣播1041
2026-06-11 09:08:35
報價2800萬!森林求購槍手26歲中場 上賽季獨造12球

報價2800萬!森林求購槍手26歲中場 上賽季獨造12球

球事百科吖
2026-06-13 07:00:30
2026-06-13 11:28:49
AppSo incentive-icons
AppSo
讓智能手機更好用的秘密
6481文章數 26849關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

沈逸:日菲"地圖開疆"耍花招 中方高度敏感明確回應

頭條要聞

沈逸:日菲"地圖開疆"耍花招 中方高度敏感明確回應

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

12年情懷碎一地!跑男接連翻車

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

親子
藝術
時尚
旅游
教育

親子要聞

上海六一兒童醫院舉辦fNIRS腦功能成像設備活動,開啟兒童腦科學“可視化”診療新時代

藝術要聞

砸了640億,再賠160億!沙特“The Line”項目徹底涼了?

今日熱點:白鹿起訴蒙淇淇;岳云鵬回應開演唱會質疑……

旅游要聞

貴旅集團躍升全國文旅品牌傳播力第7名

教育要聞

高考出分后,如何沖穩保選院校志愿?

無障礙瀏覽 進入關懷版