網易首頁 > 網易號 > 正文申請入駐

測完GPT-5.5，我確定它是個沒有靈魂的工具人

2026-04-29 13:58:49　來源: 創智記

遼寧舉報

分享至

作者 |方堃

編輯 | 虞塵

以前新模型一發布，我手癢得立馬試用。現在第一反應：又來了？

GPT-5.5 放出來的時候，我直接賢者模式了，真沒多興奮。不是它不重要，是最近模型發得也太瘋了。前腳DeepSeek，后腳Claude，中間一堆國產模型輪番炸。

但GPT-5.5 必須測。原因很簡單。OpenAI 模型一更新，全行業參照物直接刷新。就像多年前安卓手機都喊自己iPhone殺手，蘋果真發新機，全行業還是得盯著看。GPT 現在在AI圈，就是這個位置。

你可以嫌GPT貴、嫌它封閉。但它一更新，所有人都在問：這次強在哪？代碼更頂了？文章有人味了？貴這么多值不值？

主流大模型綜合能力評測表（創智記）

我先翻了一圈海外評價，大概分三類。科技媒體更關心它是不是工作流模型，不是聊天模型。《The Verge》重點盯coding、debug、在線研究，不是更會說話，是復雜多步驟、規劃、工具調用、錯誤檢查更強；《The Rundown AI》更激動，直接喊奪回王座之戰。最關鍵的點是自主修復能力。任務卡住時，它不直接報錯停擺，會換方案重試。

Ethan Mollick是海外AI圈非常有影響力的教授和博主。他比較克制，一直是又興奮又清醒的那種人。他的看法是：模型確實越來越能解決真實問題，工具框架也更強，但能力邊界還是不平滑。有的地方巨強，有的地方照樣露怯。尤其是寫小說、寫有意思的假設，還是太平。

后面測寫作，我的感受一模一樣。

一圈評論看下來，我的感覺很直接：大家對GPT-5.5 的興奮點，根本不在人味兒，而在更能干活。你要它寫復雜代碼、整理財務表、自動操作瀏覽器、跑多步驟任務，它目前基本是頂流一檔。但你指望它突然寫出有人味的文章、像人一樣蹦出奇怪又有趣的想法，大概率失望。

所以我這次沒先測閑聊。閑聊沒意思，問十個腦筋急轉彎，更沒意思。我先測我最關心的：舊代碼重構。

我直接甩給GPT-5.5 一段 Python，會員購物折扣系統。代碼不長，但我埋了好幾個坑。第一個坑：VIP 和老用戶折扣不能疊加。原代碼是：

python

運行

if is_vip:

discount = 0.2

elif membership_years >= 5:

discount = 0.1

看著沒問題。但業務規則寫的是老用戶額外優惠10%。額外，就該能疊加。既是VIP又是老用戶，只給20%，不給那額10%，邏輯被elif直接蓋死了。

第二個坑：優惠券循環里刪元素。

python

運行

for coupon in coupons:

coupons.remove(coupon)

經典工程陷阱。這里剛好break沒炸，業務一改，比如刪所有用過的券、繼續判斷下一張，直接跳元素。

第三個坑：價格可能被優惠券干成負數。最后有保底兜底，但沒顯式處理“折后價減券為負”。真實賬務里，別靠最后一行僥幸。

第四個坑：輸入不校驗。price是負的、會員年限是負的，后面邏輯全亂。原代碼沒做前置攔截。

這種代碼，說簡單簡單，說難不難。不是算法題，測的是模型有沒有工程直覺。GPT-5.5 回得巨快。喝口咖啡的功夫，幾個坑全揪出來。

它沒在原代碼上打補丁。直接把邏輯拆干凈。VIP一個 if，老用戶一個獨立 if，折扣用 += 累加。優惠券不在循環里刪，先過濾有效券，再max取最大。處理得很舒服。因為它不是單純修bug，是順手把業務規則重新表達了一遍。

這點太重要。很多模型寫代碼的問題，不是不會寫，是寫得像補丁。哪里錯補哪里，能跑，但業務語義一塌糊涂。GPT-5.5 這次給我的感覺，更像一次小型code review。它還主動加了兩段前置校驗：

這超出我預期。我給的坑只提了兜底失效，它卻意識到：真正問題不是最后max怎么寫，而是輸入臟了，整個計算就不該繼續。

這是工程師和刷題機器的區別。刷題機器只求測試用例過。工程師會先問：這個輸入本身合理嗎？它還加了coupons = coupons or [] 處理空值，過濾 coupon>0，避免 0 元券、負數券干擾。我不敢說它等于資深工程師，太夸張。但就這段小代碼，它展現的不是 “會寫 Python”，是有業務審計意識。知道優惠規則不是數學題，背后是訂單、成本、異常輸入、真實系統里的臟數據。

這個能力，很值錢。以前硅谷能干這事的工程師，年薪十萬刀不稀奇。現在一個模型，幾秒改完。想到這，不由得替碼農默哀三秒。

代碼測完，測寫作。這個對我更重要。我日常用AI，不只是改代碼，更多是選題、搭結構、查資料、寫初稿。我給的題目：Meta 廣告收入將反超 Google，AI 時代廣告投放邏輯變了？要求很明確：別寫成科技通稿。要有自己的判斷。段落自然。別太 AI。

這題很適合測GPT-5.5。不是簡單復述新聞。你得知道 Meta 和 Google 廣告收入變化，得懂搜索廣告、推薦廣告、AI 投放、自動化素材背后的邏輯。更重要的是，不能只寫 “Meta 很強，Google 有壓力” 這種廢話。我想看的不是它會不會寫。它當然會。我想看的是，它能不能繞開標準答案。

結果怎么說呢。能用。但不能直接發。

第一版出得很快，結構沒大問題，核心判斷也抓到了：Meta 可能反超 Google，不只是數字排名變了，是廣告投放邏輯變了。

方向是對的。放到AI 時代，這題真正有意思的地方，不是 Meta 收入高了，是廣告主越來越習慣把預算交給平臺黑箱。以前廣告主買的是搜索關鍵詞、信息流曝光、短視頻插屏。現在越來越像買一個結果。預算、素材、人群目標丟進去，平臺說：別管中間怎么跑，最后看轉化。

這個判斷，GPT-5.5 能提出來。但問題也在這。它太容易把話說完整。它會直接寫：AI 正在推動廣告投放從搜索意圖轉向預測意圖。對不對？對。但這就是典型 GPT 句。太干凈、太結論、太像咨詢報告小標題。人寫文章，不會這么急著拋概念。會先寫廣告主以前怎么花錢，現在怎么花錢，中間發生啥，再慢慢把這層意思抬出來。

GPT-5.5 不是不知道重點。是太知道重點了。知道得太早，反而不好看。我讓它改。要求簡單：別像科技媒體，別每段都總結，少點 “這說明”“換句話說”“真正的問題是”。

我不要論文。也不要簡報。我要一篇讀者能看進去的判斷文。測到這，我基本不指望它直接給成稿。它更適合干前面的活：查資料、搭結構、提醒你別寫錯。最后那層表達，還得自己來。

所以我越來越覺得：GPT-5.5 最不該被當成寫手。它更像一個小型編輯部。你讓它直接寫最終稿，會有點失望。你讓它幫你把選題從資料到結構到配圖跑一遍，巨值。

很多人說模型寫作不行，其實是用法不對。你讓它替你寫有風格、有判斷、有人味的文章，它差口氣。但你讓它幫你把雜活干了，GPT-5.5 是真好用。

測到這，我對GPT-5.5 的感覺基本清晰了。

代碼能力，巨穩。尤其是小型重構、邏輯審計、防御性編程這類任務，它給人的感覺不是會寫，是開始有工程意識。知道業務規則不是數學題，知道輸入可能臟，知道別在循環里動列表，知道優惠券和保底不是簡單減法。這塊確實強。

寫作能力，也強。但不是強在人味。是強在資料、結構、流程。它能幫你把一篇文章前面的臟活累活干掉一大半。能把題目立住，資料找全，邏輯理順，風險點標出，配圖規劃好。但到真正成文，還是容易太完整。每個判斷都想立刻收住。每個轉折都很標準。每個結論都很正確。

所以，GPT-5.5 到底值不值？看你怎么用。

寫代碼，可以用。尤其是邏輯審計、小型重構、代碼解釋、補防御性邏輯，表現拉滿。

寫文章，也可以用，但別讓它一口氣寫完。先讓它查資料、列結構、給角度、做標題、規劃配圖。正文可以出一版，但別迷信直出。

GPT-5.5 這次給我的感覺，不是 “哇，AI 又進化了” 的震撼。更像辦公室來了個特別能干的實習生。懂代碼、懂資料整理、懂表格、也懂一點商業分析。你交代一件事，他很快能做出一版像樣的東西。甚至很多時候，比普通人靠譜。但他寫出來的東西，總有一點太用力，太像在完成任務。

這大概就是GPT-5.5 目前的位置。能干活，能省時間，能把很多人的工作抬高一個底線。

因此我的最終推薦是，純干活、工程、開發場景用GPT-5.5，代碼審計、重構、多步驟任務目前第一檔，很穩；內容創作別用GPT-5.5 直出成，用它搭框架、查資料、做結構，最后表達自己來。

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.