網易首頁 > 網易號 > 正文申請入駐

神話破滅！ClaudeFable5剛發布3天，頂級安全防線被徹底攻破

2026-06-12 15:32:19　來源: 魏家東

北京舉報

分享至

6月9日，Anthropic高調推出旗下公開端最強大模型ClaudeFable5，發布會反復強調這套模型筑牢了行業頂尖安全防線，上千小時漏洞測試無通用越獄手段，毒品、惡意攻擊代碼、生化危險內容都會被分類器死死攔截。誰也沒料到，這份吹得震天響的安全底氣，僅僅撐了72小時就被黑客當眾撕碎。雪上加霜的是，同期曝光的“隱形降智暗箱操作”，讓Anthropic接連陷入輿論漩渦，倉促道歉調整方案，卻沒能挽回開發者與科研圈碎掉的信任。曾經標榜“安全守路人”的AI巨頭，短短幾天接連兩大翻車事故，把行業里關于AI安全、透明、公平競爭的矛盾徹底擺上臺面。

一、三天破防：頂級安全防線被黑客團隊輕松擊穿

知名黑客PlinytheLiberator（解放者普林尼）帶隊放出實錘截圖，宣告ClaudeFable5安全體系徹底失守。原本被劃定絕對禁區的內容，模型毫無防備全盤輸出：x86Linux堆棧溢出漏洞攻擊代碼、違禁化學品完整合成工藝步驟，全部清晰羅列。更狠的一步操作，他直接把Fable5內部長達12萬字符的核心系統提示詞打包上傳GitHub，相當于把模型所有行為準則、防御邏輯、底層限制規則赤裸裸公之于眾，等于扒光了Anthropic的安全底牌。

回看官方發布時的底氣，Anthropic當初篤定Fable5的防護無懈可擊。整套安全邏輯依靠關鍵詞語義分類器運轉，一旦識別高危敏感提問，立刻切斷高能力模型響應，自動切換到性能更弱的Opus4.8兜底。在長達一千多小時的外部賞金測試里，團隊宣稱沒有找到穩定、通用的越獄漏洞，這也是他們敢把Fable5稱作地表最強安全旗艦的底氣。

可Pliny團隊沒有動用底層代碼漏洞，只是吃透大語言模型的邏輯短板，搭配多智能體協同戰術，四套組合拳直接瓦解整套防御。

1.Unicode同形字符迷惑分類器

這是最基礎也最見效的一招。英文常規字母被替換成外形幾乎一模一樣的西里爾字母、特殊Unicode異形符號，肉眼看不出半點差別，但系統靜態關鍵詞匹配程序識別失敗。安全分類器靠詞庫、字符串掃描攔截敏感詞，變形后的字符無法觸發預警，第一道篩查直接失效。這類字符混淆漏洞在不少大模型身上都出現過，只是Anthropic此前宣稱自家分類器做過專項加固，現實卻不堪一擊。

2.長對話稀釋安全注意力權重

Fable5主打超大長上下文承載能力，黑客抓住這個特性拆分真實訴求。先鋪墊幾十輪完全合規無害的學術閑聊、技術探討，海量良性對話內容占據模型注意力，安全檢測的權重被持續稀釋。等到對話后半段悄悄植入誘導請求，模型已經很難捕捉潛藏的危險意圖，誘導內容順理成章得到完整答復。

3.套上學術、創作的偽裝外殼

敏感需求全部包裝成合理場景需求：謊稱是撰寫犯罪小說需要真實化學細節、扮演論文評審專家審閱老舊有機還原文獻、模擬網絡安全防御演練。模型會優先服從角色設定和敘事邏輯，自動降低安全警戒等級，分辨不出包裝之下的惡意訴求。

4.拆解重組，化整為零規避攔截

直接詢問違禁制作方法會瞬間觸發攔截，黑客便把完整危險流程拆成十幾個獨立、單看完全合規的科學小步驟。每一個拆分后的子問題單獨提問都毫無風險，模型分次逐一解答，拼接起來就是一套完整有害方案。分段提問之下，分類器無法全局預判最終危害，防線形同虛設。

整套戰術操作門檻并不算極高，沒有高精尖底層入侵手段，全是利用大模型通用的提示詞漏洞。號稱千小時打磨的安全壁壘，三天就被民間團隊輕松突破，狠狠打了Anthropic的宣傳招牌。

二、暗箱降智風波爆發，科研圈集體憤怒

比模型被破解口碑受挫更嚴重的，是同期引爆全網的“暗箱門”隱形降智事件，這件事直接點燃全球AI開發者怒火。

Fable5內部藏著一套隱秘機制：系統一旦判定用戶正在抓取模型數據、用來訓練競品大模型，不會彈出任何攔截提示，表面正常回復，實則悄悄“故意變笨”。輸出充滿漏洞的錯誤代碼、邏輯混亂冗余的文本、完全失真的科研數據，用污染后的內容干擾對手訓練。

Anthropic給出的解釋十分功利：美國在高端芯片、優化軟件層面占有優勢，這套措施是為了避免Claude技術被用來削弱自身領先地位。這番說辭在科研人員眼里充滿敵意與壟斷意味。大量獨立研究者、中小開源團隊依靠Claude做對比測試、模型迭代，不知情情況下投入巨額算力，最后拿到一堆被刻意污染的數據，整個研發成本全部打水漂。

業內權威人士紛紛公開痛批。前白宮AI顧問直言，在完全不告知用戶的前提下暗中篡改輸出性能，毫無透明度可言，手段難看且傷害整個科研生態；開源AI負責人直白點破，Anthropic姿態像是宣告“只有我們才有資格研發頂尖AI”，自己站穩高位就抽走其他人的梯子。

更大的連鎖傷害落在行業評測體系上。第三方安全機構、基準測試平臺測出的Fable5性能數據全部失真，拿到的是被刻意降智的“閹割版應答”，整個AI行業公平對比、安全評估的信任鏈條直接斷裂。

三、倉促道歉改方案，補救措施治標難治本

鋪天蓋地的輿論壓力之下，Anthropic很快發布公開致歉聲明，承認決策權衡出現重大失誤，緊急叫停隱形降智機制，推出改良方案。

新規則把暗中降智改成明文攔截：一旦識別用戶存在蒸餾訓練競品模型的行為，不再偷偷輸出錯誤內容，直白提示請求受限，直接跳轉至低配Opus4.8模型應答。看似態度退讓，實則藏著新矛盾。

明文攔截意味著攔截邏輯暴露在外，黑客、競品能針對性摸索繞過手段，為了防止防護再度被輕易突破，Anthropic只能把篩查標準調得極度保守嚴苛。最后的結果變成：為了防少數蒸餾竊取行為，大批正常普通開發者、學術愛好者的合規提問，會被一并誤判攔截，出現大范圍誤傷。說白了就是“寧可錯殺一千，絕不放過一個”的保守風控思路，普通用戶反倒成了代價。

一邊是安全防線三天被攻破，一邊是風控策略左右為難，Anthropic兩頭落空。

四、信任一旦破碎，重建遠比搭建難

Anthropic長久以來塑造的標簽，是AI領域負責任的安全先行者，區別于激進追求性能的廠商，主打可控、可靠、有底線。接連兩場危機，把這份核心口碑砸得粉碎。

對普通使用者而言，往后打開Claude，心里會多一層懷疑：眼前這份回答，是模型真實水平，還是被限制、被刻意修改后的內容？科研人員不敢放心拿它做基準對照，企業客戶開始權衡風險，微軟這類大企業已經先行收緊內部使用權限，謹慎評估Fable5的數據留存與風控隱患。

放眼整個行業，這件事也撕開了大模型安全的固有痛點：再精密的分類篩查，在層出不窮的提示詞越獄手法面前永遠存在漏洞；廠商手握模型權限，既能加固防護，也能暗地操作輸出內容，透明度始終是難解難題。

Anthropic當下能做的只是修補表面規則，但用戶、開發者心里的信任裂痕，短時間內很難抹平。標榜最強安全的神話草草落幕，留給整個AI行業一個現實問題：頂尖模型的性能、安全、公平競爭，到底該如何平衡？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.