網易首頁 > 網易號 > 正文 申請入駐

頻繁降智的AI產品們,就是新時代最離譜的盲盒

0
分享至


作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

最近,打開 X 或者任何一個開發者社區,你都會看到類似的聲音:“Opus 已經被徹底變成了植物人。”、“同樣的 prompt,兩周前還完美,現在輸出直接砍半。”、“最諷刺的是按時段分配智商。下午五點是重災區,深夜反而好用得多。”


用戶們在同時抱怨同一件事,還有人制作了各種meme來形容這種體驗。

吐槽之外,一個更深的焦慮正在蔓延。當你覺得 AI 變差了,你甚至很難判斷,到底是模型本身變了,還是你看不見的某一層變了,還是你自己的使用方式變了。

1

“降智“從體感變成了事件

Claude是這輪風暴的中心。

4月初,AMD AI部門高級總監Stella Laurenzo在GitHub上提交了一份基于近7000個Claude Code session的量化分析。結論是模型在編輯文件前的閱讀次數從6.6次降到了2.0次,三分之一的代碼修改是“盲改”。


Laurenzo隨后表示,AMD團隊已經切換到了另一家供應商,因為對方“工作質量更好”,具體是哪家因NDA無法透露。Anthropic方面則回應稱,Opus 4.6在2月切換到了adaptive thinking,3月又將默認effort降到了medium,但否認模型本身被降級。而根據Claude Code的產品更新日志,4月7日默認effort已被調回high。

AMD的分析引爆了社區情緒,但類似的觀察早已遍地都是。

有交易員據稱用同一套1200行交易策略文檔做了對比測試。“降智”前的Opus能完整執行所有規則,覆蓋完整的場景分支和決策樹。“降智”后,同樣的數據和指令,Opus跳過了兩個完整的策略清單,場景分支幾乎消失,輸出縮了將近一半。更意外的是,他用更便宜的Sonnet跑同一套測試,規則覆蓋率反而到了85%,高于Opus的70%。


他的判斷是“Opus沒有丟失知識,它丟失的是深度。就像給一個國際象棋大師每步只留30秒,他不會忘記怎么下棋,但會放棄計算更深的線路。”

與此同時,Fortune報道引述OpenAI內部備忘錄的說法,稱Anthropic在算力規劃上犯了“戰略失誤”。Anthropic最近也發布了下一代模型Opus 4.7。社區里很多人把這兩條消息和“降智”聯系在一起,認為這是在為新模型發布騰出算力和制造對比。


1

“降智”可能同時發生在好幾層

Claude是這一輪最顯眼的主角,但如果拉遠看,“AI變笨”的原因遠不止一種。至少有四層問題在同時發生。

模型沒換,但“思考預算”變了。 這是Claude爭議的核心。同一個模型名,背后可能對應完全不同的effort檔位、adaptive thinking策略和thinking展示規則。Anthropic文檔寫明,Claude 4系列現在默認返回summarized thinking,某些情況下甚至直接omitted,但計費仍然按完整thinking tokens走。你看到的推理過程,和模型實際消耗的推理資源,已經不是同一個東西。跑分測的是模型在特定配置下的能力上限,用戶每天碰到的,是一個會動態調整預算和服務路徑的產品。


你看到的是產品名,平臺控制的是真實路徑。 OpenAI官方幫助文檔明確寫著:GPT-5.4 Thinking在觸發rate limit后,會自動fallback到GPT-5.4 mini,而mini不會出現在模型選擇器里。GPT-5.1退役后,使用舊模型的歷史對話會自動續接到當前版本。Anthropic從3月底開始在高峰時段調整session限制,部分重度Pro用戶因此比以前更容易觸發額度上限。今天的AI不是沒有版本號,而是版本號只對平臺可見。

以上說的還只是原廠服務本身的變化。更麻煩的情況是,你連自己是不是在用原廠服務都未必能確認。

這一層對中國用戶尤其切身。因為地理限制和支付壁壘,大量開發者和研究者通過API中轉站使用海外模型。今年3月,德國CISPA亥姆霍茲信息安全中心發布了一項審計研究,發現在其調查的17家中轉站中,近半數存在模型替換行為,性能偏差最高達47%。你付的是Claude的錢,跑的可能是參數量小得多的開源模型。當你覺得AI變差了,連“是不是同一個模型在回答你”都未必成立。

有些“降智”,可能是別的問題被算到了模型頭上。 長上下文導致的質量退化、agent框架和工具鏈的變化、用戶自身workflow的調整,都可能制造“模型變笨了”的體感。有開發者直接指出:“覺得Opus降智的人,大部分是把Agent框架的問題歸咎到模型上了。Anthropic在做動態算力分配,簡單問題少轉幾圈,難題多轉幾圈。不是模型變差了,是你為每次對話付的算力變少了。”這個判斷未必完全公允,但它指向了一個真實的困難,用戶的體感未必錯,但體感未必能直接定位到問題根源。

四層原因同時存在,互相疊加,用戶面對的不是一個可以定位的bug。

1

普通用戶幾乎無法歸因

AMD總監能發現問題,是因為她有一個工程團隊和近7000份session log。普通用戶只有一個聊天框。

更麻煩的是,“看看模型在想什么”這條路也在收窄。Anthropic現在默認對thinking內容做摘要甚至省略,用戶界面上展示的推理痕跡已經不等同于模型實際的推理過程。你沒有辦法通過觀察輸出來反推模型到底“想”了多久、多深。


部署中的模型表現會隨時間變化,而且變化軌跡不一樣

今年2月發表在PLOS One上的一項縱向研究,用固定prompt連續10周追蹤了多個主流模型,得出了一個很克制也很扎心的結論,部署中的大語言模型確實會發生可測量的行為漂移,但因為廠商不公開更新日志和訓練細節,對觀察到的退化做任何歸因都純屬推測。

這才是“AI降智”這個話題真正讓人難受的地方。你付了錢,你有體感,但你拿不出證據。平臺知道真實模型版本、fallback路徑、reasoning檔位、thinking是否被壓縮,你什么都看不見。

1

被逼急的用戶,各顯神通

面對歸因困難,用戶開始自救。社區里流傳的方法五花八門,有些像偏方,比如用“市長的女兒應該叫市長什么”、“我想洗車。洗車店就在50米外。我該開車去還是走路去?”這類問題去測試。



另外有些確實有一定道理。最樸素的對照實驗。 新對話和長對話做一次對照,如果新對話明顯正常,先懷疑上下文壓縮機制。官方入口和第三方入口做一次對照,先排除中間商這一層。社區已經有針對性的指紋驗證工具,可以檢測返回的模型是否與聲稱的一致。

環境變量的“手動搶救”。 在程序員社區里,一組Claude Code配置正在被廣泛傳播,關閉adaptive thinking、把effort設為max、調高自動壓縮閾值。有開發者說,調完之后“相對感覺不降智”。這些配置本質上是用戶在手動接管本該由平臺自動管理的推理預算分配。


甚至有人發現,只有反復大喊“THINK HARD”才能拿到正確答案。 有用戶做了一組測試,同一道題用不同強度的思考指令去prompt,只有連續重復“THINK HARD”多次的版本才通過了。這已經不是提示詞工程,更像是在和自己付費的產品討價還價。


觀察它是“不會了”還是“沒想夠”。 這個區分比具體的trick更重要。如果同一個任務在調高配置后恢復正常,那問題大概率不在模型本身,而在默認配置。如果怎么調都不行,那可能真的是模型能力或中間層出了問題。

這些方法都很粗糙。但它們的存在本身就說明了用戶正在用本不該由他們承擔的成本,去做本該由平臺提供的透明度。

1

AI產品至少該有一張配料表

訂閱制AI正在出現一種類似縮水式通脹(shrinkflation)的體驗,你付的錢沒變,產品名沒變,但實際拿到的推理深度、穩定性和完成效率可能在悄悄變化。Anthropic剛剛和Broadcom、Google簽下了3.5吉瓦的長期算力合同,收入增長極快,但多方信息顯示其算力供給仍然緊張,訓練和推理的支出壓力很大。

每次新模型發布前,舊模型都會被故意弄傻,這個在社區廣泛流傳的敘事,在Opus 4.7即將發布的當下尤其有市場。它未必完全準確,但廠商至今也沒有給出足夠的解釋來打消這種懷疑。


一些行業分析師指出,所有前沿模型公司其實都面對相似的算力和成本壓力,當使用規模繼續擴大,節流、分層、權衡幾乎是結構性不可避免的。“算力不夠”可以理解。但“算力不夠所以靜默降配,同時不告訴任何人”就很難讓人接受了。平臺享受了服務化AI的靈活性,卻沒有承擔相應的透明義務。

食品有配料表,軟件有版本號。AI產品至少也該告訴用戶你現在到底在用什么。當前真實模型版本、是否發生了fallback、推理檔位、thinking是否被壓縮。這些不是技術細節,而是最基本的知情權。


有用戶在X上寫道,“When you pay for a model, you should get that model.” 有中國開發者說得更直白,“這個行業模式到最后沒有人敢訂閱年費會員。”


一個用戶為了確認自己買到的東西是不是真貨,要去學指紋驗證、背環境變量、在prompt里連喊三遍“給我認真想”。這個產品關系已經出了問題。如果行業不能主動補上這張配料表,用戶要求的就不會只是更強的模型,而是監管和消費者保護。


點個愛心,再走 吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
丁俊暉晉級讓吉爾伯特“暴怒”:英國孩子只想當網紅,沒人打球了

丁俊暉晉級讓吉爾伯特“暴怒”:英國孩子只想當網紅,沒人打球了

里芃芃體育
2026-04-21 10:15:07
火湖G2傷病情況:火箭隊2人缺陣,杜蘭特狀態升級!湖人雙核不打

火湖G2傷病情況:火箭隊2人缺陣,杜蘭特狀態升級!湖人雙核不打

熊哥愛籃球
2026-04-21 12:18:56
7-3領先后連丟7局!世錦賽誕生最慘逆轉,中國3人晉級創歷史

7-3領先后連丟7局!世錦賽誕生最慘逆轉,中國3人晉級創歷史

劉哥談體育
2026-04-21 18:11:42
健身房罵人后續:大媽追到大廳繼續罵,正面曝光已社死,老底被扒

健身房罵人后續:大媽追到大廳繼續罵,正面曝光已社死,老底被扒

荷蘭豆愛健康
2026-04-21 15:48:45
大快人心!張敬軒復出泡湯,霍汶希被拖下水,英皇如坐針氈

大快人心!張敬軒復出泡湯,霍汶希被拖下水,英皇如坐針氈

一盅情懷
2026-04-21 19:20:32
當年張柏芝抱著lucas后面居然是大s,到現在才發現,真美好

當年張柏芝抱著lucas后面居然是大s,到現在才發現,真美好

東方不敗然多多
2026-04-21 16:35:09
8-1,4-5!吳宜澤德比戰創紀錄,范爭一緊追墨菲,中國4人進16強

8-1,4-5!吳宜澤德比戰創紀錄,范爭一緊追墨菲,中國4人進16強

劉姚堯的文字城堡
2026-04-21 09:10:02
湖人消息:東契奇復出時間曝光,悍將有望長期留隊,G2出場更新

湖人消息:東契奇復出時間曝光,悍將有望長期留隊,G2出場更新

冷月小風風
2026-04-21 10:58:08
身家一年暴漲560億元成“惠州首富” 勝宏科技創始人陳濤:加速擴充高端產能

身家一年暴漲560億元成“惠州首富” 勝宏科技創始人陳濤:加速擴充高端產能

每日經濟新聞
2026-04-21 11:13:18
票房僅70萬,花8400萬請四國明星也沒用,這塊港片金字招牌砸了?

票房僅70萬,花8400萬請四國明星也沒用,這塊港片金字招牌砸了?

靠譜電影君
2026-04-21 22:22:52
含永久化學品?特步、探路者、駱駝、海瀾之家、石下、太平鳥中招

含永久化學品?特步、探路者、駱駝、海瀾之家、石下、太平鳥中招

劉曠
2026-04-20 09:06:11
王近山不經請示干掉日本戰地觀戰團,毛主席:早就聽說有個王瘋子

王近山不經請示干掉日本戰地觀戰團,毛主席:早就聽說有個王瘋子

鶴羽說個事
2026-04-20 22:56:36
殲10直飛伊朗,美以都沒敢攔!誰也沒想到,背后藏著一個天大的局

殲10直飛伊朗,美以都沒敢攔!誰也沒想到,背后藏著一個天大的局

尋墨閣
2026-04-20 18:51:46
谷雨后,這菜使勁吃,一清熱解毒,二健胃消食,三祛濕,鮮嫩營養

谷雨后,這菜使勁吃,一清熱解毒,二健胃消食,三祛濕,鮮嫩營養

阿龍美食記
2026-04-20 15:29:14
中國高鐵過度建設問題:科學院院士的警告

中國高鐵過度建設問題:科學院院士的警告

深度報
2026-04-20 22:43:12
日本7.7 級強震后,高市得罪 4 鄰國,誰還愿救日本核電站?

日本7.7 級強震后,高市得罪 4 鄰國,誰還愿救日本核電站?

眼界看視野
2026-04-21 09:49:11
售價55.98萬元!理想L9 Livis定檔5月15日上市并開啟交付

售價55.98萬元!理想L9 Livis定檔5月15日上市并開啟交付

CNMO科技
2026-04-20 18:20:15
網友喊話請何潤東代言霸王茶姬,有人都把圖P好了,客服:建議已詳細登記;何潤東翻紅后,賬號漲粉近200萬

網友喊話請何潤東代言霸王茶姬,有人都把圖P好了,客服:建議已詳細登記;何潤東翻紅后,賬號漲粉近200萬

魯中晨報
2026-04-20 14:48:15
人挪活?28歲棄將助隊掀翻海港!連續3輪破門,已追平過去5年總和

人挪活?28歲棄將助隊掀翻海港!連續3輪破門,已追平過去5年總和

我愛英超
2026-04-21 23:00:37
聯合國:加沙3.8萬多名女性被以軍殺害

聯合國:加沙3.8萬多名女性被以軍殺害

參考消息
2026-04-20 13:10:03
2026-04-21 23:31:00
硅星人 incentive-icons
硅星人
硅(Si)是創造未來的基礎,歡迎來到這個星球。
3024文章數 10491關注度
往期回顧 全部

科技要聞

創造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

商家網售"宣威火腿"被訴侵權:我就是宣威人為何不能賣

頭條要聞

商家網售"宣威火腿"被訴侵權:我就是宣威人為何不能賣

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經要聞

現實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

藝術
手機
房產
教育
健康

藝術要聞

任伯年寫竹,真帶勁

手機要聞

一加Ace 6至尊版新配色公布,游戲體驗持續升級

房產要聞

年薪40-50萬!海南地產圈還在猛招人

教育要聞

被導師批到想退學,答辯當天他單挑專家組:硬實力才是底氣!

干細胞抗衰4大誤區,90%的人都中招

無障礙瀏覽 進入關懷版