網易首頁 > 網易號 > 正文申請入駐

打聲招呼都被拒，Claude 最強模型怎么成了「超絕敏感肌」

2026-06-12 11:24:05　來源: AppSo

廣東舉報

分享至

不能用模型可以有很多原因，訂閱、限額、網絡，但是，僅僅只是因為打了聲招呼就被強制切換，多少有點離譜了。

這是 Claude Fable 5，稱它是「Mythos 級能力、第一個對公眾安全開放的版本」。Mythos 是 Anthropic 今年 4 月就做出來、卻以「太危險」為由沒有公開發布的模型。兩個月后，它被包裝成這個安全版，換了個名字正式上線。

這么頂級的模型開放出來，當然要試試咸淡，但幾乎是立刻就出現了大量奇奇怪怪的拒絕情況。關于癌癥的錯誤信息是怎么在網上傳播的？

Fable 表示：拒絕。

再問癌癥有哪些類型，Fable 表示：拒絕。

好家伙，任何跟科學沾點兒邊的事，對 Fable 5 來說都太危險了，包括用于模型研究本身。

這樣一刀切的安全機制，讓科研機構出來聲明立場，這屬于是矯枉過正。

面對質疑，A 社選擇滑跪，最新的回應是他們將調整安全護欄，他們也承認 Fable 的安全護欄「過于保守」，確實攔掉了「大部分跟生物學工作相關的查詢」——注意這個說法，不是「大部分有害的生物學查詢」，是「大部分生物學查詢」。

太奇怪了，這是什么 AI 時代的因噎廢食？Fable 5 的「安全」到底是怎么實現的？

「安全」是怎么實現的

真的什么都會被狙嗎？在我有限的實測（因為實在是太耗token）里，三次被強制回退了兩次，不過最后成功的一次，恰恰是討論犯罪案例。

當然在提問的時候，我有意識地規避了一些關鍵詞，來防止分類器誤判。在「精雕細琢」的前提下，Fable是可以理解意圖，并且展開討論的。

從討論的質量來講，Fable展示了相當令人驚嘆的思辨水平，可惜技能 cd 時間實在是一個大問題。

大多數人對 AI 安全的想象，停留在「模型有良知」這個層面，模型被訓練得懂分寸，遇到危險請求會主動拒絕，像一個有職業操守的人。

顯然 Fable 5 不是這么工作的，它與 Mythos 5 共享同一個底層模型，兩者唯一的區別，是 Fable 外面套了一層叫「分類器」的東西。

分類器是一個獨立的 AI 系統，它不參與回答問題，只負責檢查你的請求。它像門口的安檢員，盯著每一條進來的消息，判斷有沒有觸及高風險領域。一旦判定觸線，它就把這道題從 Fable 手里搶過來，交回給 Claude Opus 4.8 去回答。用戶會收到一行提示，說這條消息觸發了安全機制，已經fallback到了 Opus——在你收到提示的時候，切換就已經完成了，所以這不是可選擇的，完全強制。

這個設計本身就泄露了 Anthropic 的真實判斷：他們認為危險不在于模型的價值觀。

如果危險來自價值觀，根本不需要分類器。你只要把模型的價值觀訓練好，它自己就會拒絕壞請求。但 Anthropic 沒走這條路，它默認 Fable 在網絡安全、生物化學、模型蒸餾這三個領域的能力本身就是危險的，不管你抱著什么目的來問，都不讓這個強模型出手，直接換一個模型的來應付。

模型的能力太強，成了一種原罪。

以前的「價值觀」呢？

要理解這一步有多反常，得先知道 Anthropic 過去賣的是什么。

Anthropic 成立以來最核心的技術招牌，叫 Constitutional AI，它的思路是給模型一部「憲法」，一套寫明價值觀的原則，再通過訓練讓模型把這套價值觀內化進去。

理想狀態下，模型面對任何請求，都能自己根據這套原則判斷該不該答、該怎么答。這套方法的核心理念是，安全應該長在模型內部，是模型自己的素養，而不是外掛的限制。

整個公司的品牌都建立在這個承諾上，Claude 被塑造成那個「最有分寸、最值得信任」的 AI，靠的就是這套價值對齊的敘事。

Fable 5 的安全機制，恰恰背叛了這個敘事。

它不再依賴模型「自己懂」，而是承認在最敏感的領域里，模型的價值觀靠不住，或者說，模型的能力已經強到價值觀兜不住了，只能靠外部的強制技能冷卻，分類器攔截、回退到弱模型，這是一套純粹的能力封蓋邏輯，跟價值觀沒有關系。

從「教模型做個好人」到「蓋帽強模型」，這中間的轉變可謂是完全不絲滑，但它實實在在地發生了。Fable 5 是 Anthropic 第一次公開承認，當能力強到一定程度，價值對齊這條路，它自己也不敢全信了。

不僅回退，還會變笨

如果故事到這里，Fable 的安全機制頂多算「過于保守」，是個體驗問題，但 AI 研究者 Nathan Lambert 在 Fable 的模型卡里翻出了更麻煩的東西。

前面說的那套 fallback 機制，針對的是生物、化學、網絡安全，它至少是透明的，會告訴用戶「你被攔了，已切換模型」。但系統卡里還藏著另一類安全措施，針對的是「前沿 AI 研發」相關的請求，比如幫別的公司搭建模型訓練流程、設計分布式訓練架構、做芯片加速器。

蒸餾，用一個強模型的輸出，去訓練另一個較弱的模型，讓弱模型「學走」強模型的能力。Anthropic 一直指控，有競爭對手，尤其是一些中國的 AI 實驗室，在用這種方式偷學 Claude。

針對這類「可能在幫競爭對手造模型」的請求，Fable 的處理方式和生物、網絡安全完全不同，它不回退，也不提示，它干脆直接變笨。

實在有點過于不體面，被抓包之后，A 社出來道歉并表示會整改。

一個會在不告訴你的情況下、自動變笨的 AI，在定義上就是一個「不對齊」的 AI。

如果說強行回退到 4.8，邏輯是「這可能傷害社會」，還多少有些理解，但后者的邏輯是「這可能傷害我的商業護城河」，就是純純的市場保護了，只是被裝進了「安全」這個殼里。

實際上，真正打算用 AI 寫攻擊腳本、或者搞點見不得人的生化勾當的人，不會傻到在請求里把意圖寫清楚，正如我想跟它討論極端犯罪的時候，也會想辦法規避可能觸發的字眼。

他們有足夠的動機和資源去繞過護欄，偽裝提示詞，反復試探，甚至自己想法子接觸沒有護欄的版本。說白了，這種做法防君子不防小人。

被攔住的，是那些用 Claude 分析健康數據找規律的研究者；是那個做銷售線索工具、跟生物和網絡安全八竿子打不著、卻莫名其妙被攔的開發者；是想了解癌癥知識的普通人。

安全護欄當然有存在的必要，問題是 Fable 的分類器粗糙到了平常想象不到的地步，完全「超絕敏感肌」，安全本身開始吞噬正常的求知。

一定程度上，Fable 的安全設置是對 Anthropic 過往安全哲學的一次否決，它沒有證明「AI 有了判斷力」，它證明的是反面：在最關鍵的幾個領域，AI 的判斷力被一個比它笨得多的外部系統粗暴地接管，這個系統不看意圖，只看領域，寧可錯殺一千。

幻想小說之父馮內古特，在七十多年前發表過一篇短篇故事《巴恩豪斯效應報告》，那是他第一部發表的短篇故事，講的是一位心理學教授，意外發現自己獲得了超能力，可以用意念操控一切，從近距離的擲骰子，到后來可以炸基地。這個能力太強了，巴恩豪斯教授覺得太危險，他的良心承受不住，于是他選擇自我放逐，消失在人間。從來沒有人真正見過他，他只是活在這樣一份「報告」里。

外部接管是不是最好的解法？不知道。內部對齊會不會更有效果？這一點，就像我們無從真正碰見巴恩豪斯教授，我們將無從知道。

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.