網易首頁 > 網易號 > 正文申請入駐

頻繁降智的AI產品們，就是新時代最離譜的盲盒

2026-04-18 10:58:31　來源: 硅星人

北京舉報

分享至

作者｜周一笑
郵箱｜ zhouyixiao@pingwest.com

最近，打開 X 或者任何一個開發者社區，你都會看到類似的聲音：“Opus 已經被徹底變成了植物人。”、“同樣的 prompt，兩周前還完美，現在輸出直接砍半。”、“最諷刺的是按時段分配智商。下午五點是重災區，深夜反而好用得多。”

用戶們在同時抱怨同一件事，還有人制作了各種meme來形容這種體驗。

吐槽之外，一個更深的焦慮正在蔓延。當你覺得 AI 變差了，你甚至很難判斷，到底是模型本身變了，還是你看不見的某一層變了，還是你自己的使用方式變了。

“降智“從體感變成了事件

Claude是這輪風暴的中心。

4月初，AMD AI部門高級總監Stella Laurenzo在GitHub上提交了一份基于近7000個Claude Code session的量化分析。結論是模型在編輯文件前的閱讀次數從6.6次降到了2.0次，三分之一的代碼修改是“盲改”。

Laurenzo隨后表示，AMD團隊已經切換到了另一家供應商，因為對方“工作質量更好”，具體是哪家因NDA無法透露。Anthropic方面則回應稱，Opus 4.6在2月切換到了adaptive thinking，3月又將默認effort降到了medium，但否認模型本身被降級。而根據Claude Code的產品更新日志，4月7日默認effort已被調回high。

AMD的分析引爆了社區情緒，但類似的觀察早已遍地都是。

有交易員據稱用同一套1200行交易策略文檔做了對比測試。“降智”前的Opus能完整執行所有規則，覆蓋完整的場景分支和決策樹。“降智”后，同樣的數據和指令，Opus跳過了兩個完整的策略清單，場景分支幾乎消失，輸出縮了將近一半。更意外的是，他用更便宜的Sonnet跑同一套測試，規則覆蓋率反而到了85%，高于Opus的70%。

他的判斷是“Opus沒有丟失知識，它丟失的是深度。就像給一個國際象棋大師每步只留30秒，他不會忘記怎么下棋，但會放棄計算更深的線路。”

與此同時，Fortune報道引述OpenAI內部備忘錄的說法，稱Anthropic在算力規劃上犯了“戰略失誤”。Anthropic最近也發布了下一代模型Opus 4.7。社區里很多人把這兩條消息和“降智”聯系在一起，認為這是在為新模型發布騰出算力和制造對比。

“降智”可能同時發生在好幾層

Claude是這一輪最顯眼的主角，但如果拉遠看，“AI變笨”的原因遠不止一種。至少有四層問題在同時發生。

模型沒換，但“思考預算”變了。這是Claude爭議的核心。同一個模型名，背后可能對應完全不同的effort檔位、adaptive thinking策略和thinking展示規則。Anthropic文檔寫明，Claude 4系列現在默認返回summarized thinking，某些情況下甚至直接omitted，但計費仍然按完整thinking tokens走。你看到的推理過程，和模型實際消耗的推理資源，已經不是同一個東西。跑分測的是模型在特定配置下的能力上限，用戶每天碰到的，是一個會動態調整預算和服務路徑的產品。

你看到的是產品名，平臺控制的是真實路徑。 OpenAI官方幫助文檔明確寫著：GPT-5.4 Thinking在觸發rate limit后，會自動fallback到GPT-5.4 mini，而mini不會出現在模型選擇器里。GPT-5.1退役后，使用舊模型的歷史對話會自動續接到當前版本。Anthropic從3月底開始在高峰時段調整session限制，部分重度Pro用戶因此比以前更容易觸發額度上限。今天的AI不是沒有版本號，而是版本號只對平臺可見。

以上說的還只是原廠服務本身的變化。更麻煩的情況是，你連自己是不是在用原廠服務都未必能確認。

這一層對中國用戶尤其切身。因為地理限制和支付壁壘，大量開發者和研究者通過API中轉站使用海外模型。今年3月，德國CISPA亥姆霍茲信息安全中心發布了一項審計研究，發現在其調查的17家中轉站中，近半數存在模型替換行為，性能偏差最高達47%。你付的是Claude的錢，跑的可能是參數量小得多的開源模型。當你覺得AI變差了，連“是不是同一個模型在回答你”都未必成立。

有些“降智”，可能是別的問題被算到了模型頭上。長上下文導致的質量退化、agent框架和工具鏈的變化、用戶自身workflow的調整，都可能制造“模型變笨了”的體感。有開發者直接指出：“覺得Opus降智的人，大部分是把Agent框架的問題歸咎到模型上了。Anthropic在做動態算力分配，簡單問題少轉幾圈，難題多轉幾圈。不是模型變差了，是你為每次對話付的算力變少了。”這個判斷未必完全公允，但它指向了一個真實的困難，用戶的體感未必錯，但體感未必能直接定位到問題根源。

四層原因同時存在，互相疊加，用戶面對的不是一個可以定位的bug。

普通用戶幾乎無法歸因

AMD總監能發現問題，是因為她有一個工程團隊和近7000份session log。普通用戶只有一個聊天框。

更麻煩的是，“看看模型在想什么”這條路也在收窄。Anthropic現在默認對thinking內容做摘要甚至省略，用戶界面上展示的推理痕跡已經不等同于模型實際的推理過程。你沒有辦法通過觀察輸出來反推模型到底“想”了多久、多深。

部署中的模型表現會隨時間變化，而且變化軌跡不一樣

今年2月發表在PLOS One上的一項縱向研究，用固定prompt連續10周追蹤了多個主流模型，得出了一個很克制也很扎心的結論，部署中的大語言模型確實會發生可測量的行為漂移，但因為廠商不公開更新日志和訓練細節，對觀察到的退化做任何歸因都純屬推測。

這才是“AI降智”這個話題真正讓人難受的地方。你付了錢，你有體感，但你拿不出證據。平臺知道真實模型版本、fallback路徑、reasoning檔位、thinking是否被壓縮，你什么都看不見。

被逼急的用戶，各顯神通

面對歸因困難，用戶開始自救。社區里流傳的方法五花八門，有些像偏方，比如用“市長的女兒應該叫市長什么”、“我想洗車。洗車店就在50米外。我該開車去還是走路去？”這類問題去測試。

另外有些確實有一定道理。最樸素的對照實驗。新對話和長對話做一次對照，如果新對話明顯正常，先懷疑上下文壓縮機制。官方入口和第三方入口做一次對照，先排除中間商這一層。社區已經有針對性的指紋驗證工具，可以檢測返回的模型是否與聲稱的一致。

環境變量的“手動搶救”。在程序員社區里，一組Claude Code配置正在被廣泛傳播，關閉adaptive thinking、把effort設為max、調高自動壓縮閾值。有開發者說，調完之后“相對感覺不降智”。這些配置本質上是用戶在手動接管本該由平臺自動管理的推理預算分配。

甚至有人發現，只有反復大喊“THINK HARD”才能拿到正確答案。有用戶做了一組測試，同一道題用不同強度的思考指令去prompt，只有連續重復“THINK HARD”多次的版本才通過了。這已經不是提示詞工程，更像是在和自己付費的產品討價還價。

觀察它是“不會了”還是“沒想夠”。這個區分比具體的trick更重要。如果同一個任務在調高配置后恢復正常，那問題大概率不在模型本身，而在默認配置。如果怎么調都不行，那可能真的是模型能力或中間層出了問題。

這些方法都很粗糙。但它們的存在本身就說明了用戶正在用本不該由他們承擔的成本，去做本該由平臺提供的透明度。

AI產品至少該有一張配料表

訂閱制AI正在出現一種類似縮水式通脹（shrinkflation）的體驗，你付的錢沒變，產品名沒變，但實際拿到的推理深度、穩定性和完成效率可能在悄悄變化。Anthropic剛剛和Broadcom、Google簽下了3.5吉瓦的長期算力合同，收入增長極快，但多方信息顯示其算力供給仍然緊張，訓練和推理的支出壓力很大。

每次新模型發布前，舊模型都會被故意弄傻，這個在社區廣泛流傳的敘事，在Opus 4.7即將發布的當下尤其有市場。它未必完全準確，但廠商至今也沒有給出足夠的解釋來打消這種懷疑。

一些行業分析師指出，所有前沿模型公司其實都面對相似的算力和成本壓力，當使用規模繼續擴大，節流、分層、權衡幾乎是結構性不可避免的。“算力不夠”可以理解。但“算力不夠所以靜默降配，同時不告訴任何人”就很難讓人接受了。平臺享受了服務化AI的靈活性，卻沒有承擔相應的透明義務。

食品有配料表，軟件有版本號。AI產品至少也該告訴用戶你現在到底在用什么。當前真實模型版本、是否發生了fallback、推理檔位、thinking是否被壓縮。這些不是技術細節，而是最基本的知情權。

有用戶在X上寫道，“When you pay for a model, you should get that model.” 有中國開發者說得更直白，“這個行業模式到最后沒有人敢訂閱年費會員。”

一個用戶為了確認自己買到的東西是不是真貨，要去學指紋驗證、背環境變量、在prompt里連喊三遍“給我認真想”。這個產品關系已經出了問題。如果行業不能主動補上這張配料表，用戶要求的就不會只是更強的模型，而是監管和消費者保護。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.