henry 發自 凹非寺
量子位 | 公眾號 QbitAI
都先別急著吹!
Claude剛剛發布的新模型Fable 5,很多人可能壓根就用不上!
有不少網友實測發現,Fable 5的安全護欄檢測機制的觸發幾率似乎比官方宣稱的不到5%嚴格得多。
無論是普通編碼任務。
![]()
還是簡單打個招呼,都有可能被自動路由回老模型Opus 4.8。
![]()
更離譜的是,我自己也中招了。我讓Claude幫我搜點資料,豐富一下背景。
結果它想了兩步,啪——切Opus了。
![]()
換句話說。你以為自己在用Anthropic剛發布的最強模型,實際上聊著聊著,對面已經偷偷換人了。
而且不光是安全檢測容易誤傷,更絕的還在后頭:
Anthropic還在長達319頁的系統卡里埋了一套防蒸餾機制。
如果系統懷疑你想拿Claude的輸出訓練自己的AI模型,它甚至不會告訴你發生了什么,而是直接降低Fable的回答質量。
![]()
可以說,前一手防你作惡,后一手防你抄作業,相當符合A社的一貫風格。
寓言怎么老變成章魚?
先給今天沒刷新聞的大伙補個課。
今天凌晨,Anthropic終于發布了預熱許久的兩款模型——
「神話」(Mythos)和「寓言」(Fable)。
![]()
其中,Fable 5最大的看點,是Anthropic第一次把Mythos級別能力向普通用戶開放。
而Fable與正式版Mythos的差別在于,多了一個安全護欄。
目前,Fable免費開放給所有人到22號(22號只能通過API用),Mythos則還是開放給Claude部分的合作伙伴。
![]()
在官方介紹里,Fable的軟件工程、知識工作、視覺理解能力全面增強,超過此前所有公開發布的Claude模型。
一句話速通理解就是,這倆就是現在的大模型天花板,各方面能力都已經到頂了。
![]()
新模型一經發出,剛入職A社的卡帕西第一時間夸了一波。
![]()
Claude Code之父Boris也對它贊不絕口。
![]()
不過,厲害歸厲害,真讓大伙用起來后,才發現,這寓言講著講著,老變成章魚(Opus)。
原因也簡單。
Anthropic給Fable裝了一套分類器,只要它覺得你聊的是網絡安全、生物、化學,或者想拿Claude蒸餾訓練自家模型,就會自動把會話切給Opus 4.8。
這條規則白紙黑字寫在系統卡第12頁。
![]()
實際體驗中,切換發生在Fable的思考過程中,當它自己感覺不對勁,也不會問你,就直接切了。
如果想繼續用?要么把提示詞改到它滿意,要么重開一個窗口。
官方在技術博客里說,這套檢測平均觸發率不到5%。但網友很快發現,這5%不像5%。
![]()
有人表示,自己就是分析個代碼,也被切了。
![]()
搞安全審計的更是直呼被針對,活兒沒法干了。
![]()
還有人說壓根用不了,審查代碼庫都會被Fable拒絕。
![]()
要說,最離譜的可能就是有網友把Fable自己的系統卡丟給它,讓他解讀一下,它也給你切了。
![]()
還有一名從事生物醫學的科學家表示,這壓根都沒法用Fable工作,因為詮釋違禁詞。
![]()
而這并不是孤例,不少生物學網友都反映,Fable壓根難以使用。
![]()
Boris在評論區承認了這個問題,表示正在處理。
這事兒真正微妙的地方在于,Fable在上面三種高風險場景下,至少會告訴你一聲:
“哥們兒,我給你換模型了。”
但如果它懷疑你在研究怎么訓練下一代大模型,那就進入另一個模式。
系統卡寫明,重點針對的場景包括:限制Claude在前沿LLM開發請求上的有效性,例如搭建預訓練流水線、分布式訓練基礎設施,或者ML加速器設計。
![]()
在這種場場景下,Claude不切模型,不彈提示,不通知用戶,而是坐在那里,悄悄把自己調笨一點。
Anthropic原文寫得很學術:Prompt Modification、Steering Vector、PEFT。(系統卡第12頁)
翻譯成人話就是你以為自己在跟滿血版Fable聊天,實際上對面已經偷偷開了省電模式。
A社這波,屬實是把護城河直接焊進推理鏈里了。
至于系統怎么判斷,系統卡第58-59頁也寫明白了。
![]()
Fable背后跑的是一套兩階段檢測系統:
第一層探針會直接檢查模型內部激活值(activation),篩查所有請求;第二層再交給獨立分類器判斷風險。
一旦命中,客戶端就會自動切換到Opus 4.8。
Anthropic甚至在報告里承認,由于分類器在網絡安全測試中幾乎總會觸發,因此Fable 5在網絡安全任務上的實際表現,基本等同于Opus 4.8。
一言以蔽之呢,就是Fable 5目前也還是一個有條件釋放的模型:
大部分場景享受Mythos 5級別能力,但在高風險領域自動降級為Opus 4.8的能力水平。
為啥Claude要這么干?
今天新模型上線,額度同步重置,大家上手之后越用越覺得不對勁,吐槽也越來越多,主要集中在兩件事上。
第一件事,是前面提到的安全護欄觸發頻率。Anthropic說平均不到5%的會話會觸發回退,但不少用戶的體感顯然不是5%。
![]()
![]()
第二件事,則是Fable的使用策略。
這次Anthropic并沒有完全放開,而是采用了限量開放的方式。
與此同時,Fable的token消耗成本也明顯高于Opus,接近后者兩倍。
![]()
這就讓不少訂閱用戶有點犯嘀咕:
如果最好的模型既有額度限制,又不一定能穩定用到,那以后會不會走向按量收費?
當然,也有人把原因歸結到商業層面。
有網友認為,Anthropic現在正處在IPO前的關鍵階段,需要向投資人證明自己依然掌握著最前沿的模型能力。
![]()
所以最強模型可以放出來展示,但不能毫無保留地放出來。
還有研究人員擔心另一件事。
如果模型一旦識別到前沿LLM研發相關內容,就主動降低回答質量,那對學術研究和技術交流顯然不是個好消息。
更關鍵的是,用戶根本不知道這一切正在發生。它不會彈窗,不會提醒,不會告訴你答案為什么突然變差。
你只會覺得:今天的Claude,好像突然沒那么聰明了。
![]()
對此,AI研究員Nathan Lambert的評價也很直接:
模型廠商給能力加護欄或許不可避免。
但至少應該告訴用戶,前沿能力是什么時候被撤掉的。
![]()
[1]https://www.anthropic.com/news/claude-fable-5-mythos-5
[2]https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.