不能用模型可以有很多原因,訂閱、限額、網絡,但是,僅僅只是因為打了聲招呼就被強制切換,多少有點離譜了。
![]()
這是 Claude Fable 5,稱它是「Mythos 級能力、第一個對公眾安全開放的版本」。Mythos 是 Anthropic 今年 4 月就做出來、卻以「太危險」為由沒有公開發布的模型。兩個月后,它被包裝成這個安全版,換了個名字正式上線。
這么頂級的模型開放出來,當然要試試咸淡,但幾乎是立刻就出現了大量奇奇怪怪的拒絕情況。關于癌癥的錯誤信息是怎么在網上傳播的?
Fable 表示:拒絕。
![]()
再問癌癥有哪些類型,Fable 表示:拒絕。
![]()
好家伙,任何跟科學沾點兒邊的事,對 Fable 5 來說都太危險了,包括用于模型研究本身。
這樣一刀切的安全機制,讓科研機構出來聲明立場,這屬于是矯枉過正。
![]()
面對質疑,A 社選擇滑跪,最新的回應是他們將調整安全護欄,他們也承認 Fable 的安全護欄「過于保守」,確實攔掉了「大部分跟生物學工作相關的查詢」——注意這個說法,不是「大部分有害的生物學查詢」,是「大部分生物學查詢」。
太奇怪了,這是什么 AI 時代的因噎廢食?Fable 5 的「安全」到底是怎么實現的?
「安全」是怎么實現的
真的什么都會被狙嗎?在我有限的實測(因為實在是太耗token)里,三次被強制回退了兩次,不過最后成功的一次,恰恰是討論犯罪案例。
![]()
當然在提問的時候,我有意識地規避了一些關鍵詞,來防止分類器誤判。在「精雕細琢」的前提下,Fable是可以理解意圖,并且展開討論的。
![]()
從討論的質量來講,Fable展示了相當令人驚嘆的思辨水平,可惜技能 cd 時間實在是一個大問題。
大多數人對 AI 安全的想象,停留在「模型有良知」這個層面,模型被訓練得懂分寸,遇到危險請求會主動拒絕,像一個有職業操守的人。
顯然 Fable 5 不是這么工作的,它與 Mythos 5 共享同一個底層模型,兩者唯一的區別,是 Fable 外面套了一層叫「分類器」的東西。
![]()
分類器是一個獨立的 AI 系統,它不參與回答問題,只負責檢查你的請求。它像門口的安檢員,盯著每一條進來的消息,判斷有沒有觸及高風險領域。一旦判定觸線,它就把這道題從 Fable 手里搶過來,交回給 Claude Opus 4.8 去回答。用戶會收到一行提示,說這條消息觸發了安全機制,已經fallback到了 Opus——在你收到提示的時候,切換就已經完成了,所以這不是可選擇的,完全強制。
這個設計本身就泄露了 Anthropic 的真實判斷:他們認為危險不在于模型的價值觀。
如果危險來自價值觀,根本不需要分類器。你只要把模型的價值觀訓練好,它自己就會拒絕壞請求。但 Anthropic 沒走這條路,它默認 Fable 在網絡安全、生物化學、模型蒸餾這三個領域的能力本身就是危險的,不管你抱著什么目的來問,都不讓這個強模型出手,直接換一個模型的來應付。
模型的能力太強,成了一種原罪。
以前的「價值觀」呢?
要理解這一步有多反常,得先知道 Anthropic 過去賣的是什么。
Anthropic 成立以來最核心的技術招牌,叫 Constitutional AI,它的思路是給模型一部「憲法」,一套寫明價值觀的原則,再通過訓練讓模型把這套價值觀內化進去。
![]()
理想狀態下,模型面對任何請求,都能自己根據這套原則判斷該不該答、該怎么答。這套方法的核心理念是,安全應該長在模型內部,是模型自己的素養,而不是外掛的限制。
整個公司的品牌都建立在這個承諾上,Claude 被塑造成那個「最有分寸、最值得信任」的 AI,靠的就是這套價值對齊的敘事。
Fable 5 的安全機制,恰恰背叛了這個敘事。
它不再依賴模型「自己懂」,而是承認在最敏感的領域里,模型的價值觀靠不住,或者說,模型的能力已經強到價值觀兜不住了,只能靠外部的強制技能冷卻,分類器攔截、回退到弱模型,這是一套純粹的能力封蓋邏輯,跟價值觀沒有關系。
從「教模型做個好人」到「蓋帽強模型」,這中間的轉變可謂是完全不絲滑,但它實實在在地發生了。Fable 5 是 Anthropic 第一次公開承認,當能力強到一定程度,價值對齊這條路,它自己也不敢全信了。
不僅回退,還會變笨
如果故事到這里,Fable 的安全機制頂多算「過于保守」,是個體驗問題,但 AI 研究者 Nathan Lambert 在 Fable 的模型卡里翻出了更麻煩的東西。
前面說的那套 fallback 機制,針對的是生物、化學、網絡安全,它至少是透明的,會告訴用戶「你被攔了,已切換模型」。但系統卡里還藏著另一類安全措施,針對的是「前沿 AI 研發」相關的請求,比如幫別的公司搭建模型訓練流程、設計分布式訓練架構、做芯片加速器。
![]()
蒸餾,用一個強模型的輸出,去訓練另一個較弱的模型,讓弱模型「學走」強模型的能力。Anthropic 一直指控,有競爭對手,尤其是一些中國的 AI 實驗室,在用這種方式偷學 Claude。
針對這類「可能在幫競爭對手造模型」的請求,Fable 的處理方式和生物、網絡安全完全不同,它不回退,也不提示,它干脆直接變笨。
實在有點過于不體面,被抓包之后,A 社出來道歉并表示會整改。
![]()
一個會在不告訴你的情況下、自動變笨的 AI,在定義上就是一個「不對齊」的 AI。
如果說強行回退到 4.8,邏輯是「這可能傷害社會」,還多少有些理解,但后者的邏輯是「這可能傷害我的商業護城河」,就是純純的市場保護了,只是被裝進了「安全」這個殼里。
實際上,真正打算用 AI 寫攻擊腳本、或者搞點見不得人的生化勾當的人,不會傻到在請求里把意圖寫清楚,正如我想跟它討論極端犯罪的時候,也會想辦法規避可能觸發的字眼。
他們有足夠的動機和資源去繞過護欄,偽裝提示詞,反復試探,甚至自己想法子接觸沒有護欄的版本。說白了,這種做法防君子不防小人。
![]()
被攔住的,是那些用 Claude 分析健康數據找規律的研究者;是那個做銷售線索工具、跟生物和網絡安全八竿子打不著、卻莫名其妙被攔的開發者;是想了解癌癥知識的普通人。
安全護欄當然有存在的必要,問題是 Fable 的分類器粗糙到了平常想象不到的地步,完全「超絕敏感肌」,安全本身開始吞噬正常的求知。
一定程度上,Fable 的安全設置是對 Anthropic 過往安全哲學的一次否決,它沒有證明「AI 有了判斷力」,它證明的是反面:在最關鍵的幾個領域,AI 的判斷力被一個比它笨得多的外部系統粗暴地接管,這個系統不看意圖,只看領域,寧可錯殺一千。
幻想小說之父馮內古特,在七十多年前發表過一篇短篇故事《巴恩豪斯效應報告》,那是他第一部發表的短篇故事,講的是一位心理學教授,意外發現自己獲得了超能力,可以用意念操控一切,從近距離的擲骰子,到后來可以炸基地。這個能力太強了,巴恩豪斯教授覺得太危險,他的良心承受不住,于是他選擇自我放逐,消失在人間。從來沒有人真正見過他,他只是活在這樣一份「報告」里。
外部接管是不是最好的解法?不知道。內部對齊會不會更有效果?這一點,就像我們無從真正碰見巴恩豪斯教授,我們將無從知道。
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.