![]()
作者 |方堃
編輯 | 虞塵
以前新模型一發布,我手癢得立馬試用。現在第一反應:又來了?
GPT-5.5 放出來的時候,我直接賢者模式了,真沒多興奮。不是它不重要,是最近模型發得也太瘋了。前腳DeepSeek,后腳Claude,中間一堆國產模型輪番炸。
但GPT-5.5 必須測。原因很簡單。OpenAI 模型一更新,全行業參照物直接刷新。就像多年前安卓手機都喊自己iPhone殺手,蘋果真發新機,全行業還是得盯著看。GPT 現在在AI圈,就是這個位置。
你可以嫌GPT貴、嫌它封閉。但它一更新,所有人都在問:這次強在哪?代碼更頂了?文章有人味了?貴這么多值不值?
![]()
主流大模型綜合能力評測表(創智記)
我先翻了一圈海外評價,大概分三類。科技媒體更關心它是不是工作流模型,不是聊天模型。《The Verge》重點盯coding、debug、在線研究,不是更會說話,是復雜多步驟、規劃、工具調用、錯誤檢查更強;《The Rundown AI》更激動,直接喊奪回王座之戰。最關鍵的點是自主修復能力。任務卡住時,它不直接報錯停擺,會換方案重試。
![]()
![]()
Ethan Mollick是海外AI圈非常有影響力的教授和博主。他比較克制,一直是又興奮又清醒的那種人。他的看法是:模型確實越來越能解決真實問題,工具框架也更強,但能力邊界還是不平滑。有的地方巨強,有的地方照樣露怯。尤其是寫小說、寫有意思的假設,還是太平。
后面測寫作,我的感受一模一樣。
一圈評論看下來,我的感覺很直接:大家對GPT-5.5 的興奮點,根本不在人味兒,而在更能干活。你要它寫復雜代碼、整理財務表、自動操作瀏覽器、跑多步驟任務,它目前基本是頂流一檔。但你指望它突然寫出有人味的文章、像人一樣蹦出奇怪又有趣的想法,大概率失望。
![]()
所以我這次沒先測閑聊。閑聊沒意思,問十個腦筋急轉彎,更沒意思。我先測我最關心的:舊代碼重構。
![]()
我直接甩給GPT-5.5 一段 Python,會員購物折扣系統。代碼不長,但我埋了好幾個坑。第一個坑:VIP 和老用戶折扣不能疊加。原代碼是:
python
運行
if is_vip:
discount = 0.2
elif membership_years >= 5:
discount = 0.1
看著沒問題。但業務規則寫的是老用戶額外優惠10%。額外,就該能疊加。既是VIP又是老用戶,只給20%,不給那額10%,邏輯被elif直接蓋死了。
![]()
第二個坑:優惠券循環里刪元素。
python
運行
for coupon in coupons:
coupons.remove(coupon)
經典工程陷阱。這里剛好break沒炸,業務一改,比如刪所有用過的券、繼續判斷下一張,直接跳元素。
第三個坑:價格可能被優惠券干成負數。最后有保底兜底,但沒顯式處理“折后價減券為負”。真實賬務里,別靠最后一行僥幸。
第四個坑:輸入不校驗。price是負的、會員年限是負的,后面邏輯全亂。原代碼沒做前置攔截。
這種代碼,說簡單簡單,說難不難。不是算法題,測的是模型有沒有工程直覺。GPT-5.5 回得巨快。喝口咖啡的功夫,幾個坑全揪出來。
![]()
它沒在原代碼上打補丁。直接把邏輯拆干凈。VIP一個 if,老用戶一個獨立 if,折扣用 += 累加。優惠券不在循環里刪,先過濾有效券,再max取最大。處理得很舒服。因為它不是單純修bug,是順手把業務規則重新表達了一遍。
這點太重要。很多模型寫代碼的問題,不是不會寫,是寫得像補丁。哪里錯補哪里,能跑,但業務語義一塌糊涂。GPT-5.5 這次給我的感覺,更像一次小型code review。它還主動加了兩段前置校驗:
![]()
這超出我預期。我給的坑只提了兜底失效,它卻意識到:真正問題不是最后max怎么寫,而是輸入臟了,整個計算就不該繼續。
這是工程師和刷題機器的區別。刷題機器只求測試用例過。工程師會先問:這個輸入本身合理嗎?它還加了coupons = coupons or [] 處理空值,過濾 coupon>0,避免 0 元券、負數券干擾。我不敢說它等于資深工程師,太夸張。但就這段小代碼,它展現的不是 “會寫 Python”,是有業務審計意識。知道優惠規則不是數學題,背后是訂單、成本、異常輸入、真實系統里的臟數據。
這個能力,很值錢。以前硅谷能干這事的工程師,年薪十萬刀不稀奇。現在一個模型,幾秒改完。想到這,不由得替碼農默哀三秒。
代碼測完,測寫作。這個對我更重要。我日常用AI,不只是改代碼,更多是選題、搭結構、查資料、寫初稿。我給的題目:Meta 廣告收入將反超 Google,AI 時代廣告投放邏輯變了?要求很明確:別寫成科技通稿。要有自己的判斷。段落自然。別太 AI。
這題很適合測GPT-5.5。不是簡單復述新聞。你得知道 Meta 和 Google 廣告收入變化,得懂搜索廣告、推薦廣告、AI 投放、自動化素材背后的邏輯。更重要的是,不能只寫 “Meta 很強,Google 有壓力” 這種廢話。我想看的不是它會不會寫。它當然會。我想看的是,它能不能繞開標準答案。
結果怎么說呢。能用。但不能直接發。
第一版出得很快,結構沒大問題,核心判斷也抓到了:Meta 可能反超 Google,不只是數字排名變了,是廣告投放邏輯變了。
![]()
方向是對的。放到AI 時代,這題真正有意思的地方,不是 Meta 收入高了,是廣告主越來越習慣把預算交給平臺黑箱。以前廣告主買的是搜索關鍵詞、信息流曝光、短視頻插屏。現在越來越像買一個結果。預算、素材、人群目標丟進去,平臺說:別管中間怎么跑,最后看轉化。
這個判斷,GPT-5.5 能提出來。但問題也在這。它太容易把話說完整。它會直接寫:AI 正在推動廣告投放從搜索意圖轉向預測意圖。對不對?對。但這就是典型 GPT 句。太干凈、太結論、太像咨詢報告小標題。人寫文章,不會這么急著拋概念。會先寫廣告主以前怎么花錢,現在怎么花錢,中間發生啥,再慢慢把這層意思抬出來。
GPT-5.5 不是不知道重點。是太知道重點了。知道得太早,反而不好看。我讓它改。要求簡單:別像科技媒體,別每段都總結,少點 “這說明”“換句話說”“真正的問題是”。
![]()
我不要論文。也不要簡報。我要一篇讀者能看進去的判斷文。測到這,我基本不指望它直接給成稿。它更適合干前面的活:查資料、搭結構、提醒你別寫錯。最后那層表達,還得自己來。
所以我越來越覺得:GPT-5.5 最不該被當成寫手。它更像一個小型編輯部。你讓它直接寫最終稿,會有點失望。你讓它幫你把選題從資料到結構到配圖跑一遍,巨值。
很多人說模型寫作不行,其實是用法不對。你讓它替你寫有風格、有判斷、有人味的文章,它差口氣。但你讓它幫你把雜活干了,GPT-5.5 是真好用。
測到這,我對GPT-5.5 的感覺基本清晰了。
代碼能力,巨穩。尤其是小型重構、邏輯審計、防御性編程這類任務,它給人的感覺不是會寫,是開始有工程意識。知道業務規則不是數學題,知道輸入可能臟,知道別在循環里動列表,知道優惠券和保底不是簡單減法。這塊確實強。
寫作能力,也強。但不是強在人味。是強在資料、結構、流程。它能幫你把一篇文章前面的臟活累活干掉一大半。能把題目立住,資料找全,邏輯理順,風險點標出,配圖規劃好。但到真正成文,還是容易太完整。每個判斷都想立刻收住。每個轉折都很標準。每個結論都很正確。
所以,GPT-5.5 到底值不值?看你怎么用。
寫代碼,可以用。尤其是邏輯審計、小型重構、代碼解釋、補防御性邏輯,表現拉滿。
寫文章,也可以用,但別讓它一口氣寫完。先讓它查資料、列結構、給角度、做標題、規劃配圖。正文可以出一版,但別迷信直出。
GPT-5.5 這次給我的感覺,不是 “哇,AI 又進化了” 的震撼。更像辦公室來了個特別能干的實習生。懂代碼、懂資料整理、懂表格、也懂一點商業分析。你交代一件事,他很快能做出一版像樣的東西。甚至很多時候,比普通人靠譜。但他寫出來的東西,總有一點太用力,太像在完成任務。
這大概就是GPT-5.5 目前的位置。能干活,能省時間,能把很多人的工作抬高一個底線。
因此我的最終推薦是,純干活、工程、開發場景用GPT-5.5,代碼審計、重構、多步驟任務目前第一檔,很穩;內容創作別用GPT-5.5 直出成,用它搭框架、查資料、做結構,最后表達自己來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.