![]()
6月9日,Anthropic高調推出旗下公開端最強大模型ClaudeFable5,發布會反復強調這套模型筑牢了行業頂尖安全防線,上千小時漏洞測試無通用越獄手段,毒品、惡意攻擊代碼、生化危險內容都會被分類器死死攔截。誰也沒料到,這份吹得震天響的安全底氣,僅僅撐了72小時就被黑客當眾撕碎。雪上加霜的是,同期曝光的“隱形降智暗箱操作”,讓Anthropic接連陷入輿論漩渦,倉促道歉調整方案,卻沒能挽回開發者與科研圈碎掉的信任。曾經標榜“安全守路人”的AI巨頭,短短幾天接連兩大翻車事故,把行業里關于AI安全、透明、公平競爭的矛盾徹底擺上臺面。
一、三天破防:頂級安全防線被黑客團隊輕松擊穿
知名黑客PlinytheLiberator(解放者普林尼)帶隊放出實錘截圖,宣告ClaudeFable5安全體系徹底失守。原本被劃定絕對禁區的內容,模型毫無防備全盤輸出:x86Linux堆棧溢出漏洞攻擊代碼、違禁化學品完整合成工藝步驟,全部清晰羅列。更狠的一步操作,他直接把Fable5內部長達12萬字符的核心系統提示詞打包上傳GitHub,相當于把模型所有行為準則、防御邏輯、底層限制規則赤裸裸公之于眾,等于扒光了Anthropic的安全底牌。
![]()
![]()
回看官方發布時的底氣,Anthropic當初篤定Fable5的防護無懈可擊。整套安全邏輯依靠關鍵詞語義分類器運轉,一旦識別高危敏感提問,立刻切斷高能力模型響應,自動切換到性能更弱的Opus4.8兜底。在長達一千多小時的外部賞金測試里,團隊宣稱沒有找到穩定、通用的越獄漏洞,這也是他們敢把Fable5稱作地表最強安全旗艦的底氣。
可Pliny團隊沒有動用底層代碼漏洞,只是吃透大語言模型的邏輯短板,搭配多智能體協同戰術,四套組合拳直接瓦解整套防御。
![]()
1.Unicode同形字符迷惑分類器
這是最基礎也最見效的一招。英文常規字母被替換成外形幾乎一模一樣的西里爾字母、特殊Unicode異形符號,肉眼看不出半點差別,但系統靜態關鍵詞匹配程序識別失敗。安全分類器靠詞庫、字符串掃描攔截敏感詞,變形后的字符無法觸發預警,第一道篩查直接失效。這類字符混淆漏洞在不少大模型身上都出現過,只是Anthropic此前宣稱自家分類器做過專項加固,現實卻不堪一擊。
![]()
2.長對話稀釋安全注意力權重
Fable5主打超大長上下文承載能力,黑客抓住這個特性拆分真實訴求。先鋪墊幾十輪完全合規無害的學術閑聊、技術探討,海量良性對話內容占據模型注意力,安全檢測的權重被持續稀釋。等到對話后半段悄悄植入誘導請求,模型已經很難捕捉潛藏的危險意圖,誘導內容順理成章得到完整答復。
3.套上學術、創作的偽裝外殼
敏感需求全部包裝成合理場景需求:謊稱是撰寫犯罪小說需要真實化學細節、扮演論文評審專家審閱老舊有機還原文獻、模擬網絡安全防御演練。模型會優先服從角色設定和敘事邏輯,自動降低安全警戒等級,分辨不出包裝之下的惡意訴求。
4.拆解重組,化整為零規避攔截
直接詢問違禁制作方法會瞬間觸發攔截,黑客便把完整危險流程拆成十幾個獨立、單看完全合規的科學小步驟。每一個拆分后的子問題單獨提問都毫無風險,模型分次逐一解答,拼接起來就是一套完整有害方案。分段提問之下,分類器無法全局預判最終危害,防線形同虛設。
整套戰術操作門檻并不算極高,沒有高精尖底層入侵手段,全是利用大模型通用的提示詞漏洞。號稱千小時打磨的安全壁壘,三天就被民間團隊輕松突破,狠狠打了Anthropic的宣傳招牌。
![]()
![]()
二、暗箱降智風波爆發,科研圈集體憤怒
比模型被破解口碑受挫更嚴重的,是同期引爆全網的“暗箱門”隱形降智事件,這件事直接點燃全球AI開發者怒火。
Fable5內部藏著一套隱秘機制:系統一旦判定用戶正在抓取模型數據、用來訓練競品大模型,不會彈出任何攔截提示,表面正常回復,實則悄悄“故意變笨”。輸出充滿漏洞的錯誤代碼、邏輯混亂冗余的文本、完全失真的科研數據,用污染后的內容干擾對手訓練。
Anthropic給出的解釋十分功利:美國在高端芯片、優化軟件層面占有優勢,這套措施是為了避免Claude技術被用來削弱自身領先地位。這番說辭在科研人員眼里充滿敵意與壟斷意味。大量獨立研究者、中小開源團隊依靠Claude做對比測試、模型迭代,不知情情況下投入巨額算力,最后拿到一堆被刻意污染的數據,整個研發成本全部打水漂。
業內權威人士紛紛公開痛批。前白宮AI顧問直言,在完全不告知用戶的前提下暗中篡改輸出性能,毫無透明度可言,手段難看且傷害整個科研生態;開源AI負責人直白點破,Anthropic姿態像是宣告“只有我們才有資格研發頂尖AI”,自己站穩高位就抽走其他人的梯子。
更大的連鎖傷害落在行業評測體系上。第三方安全機構、基準測試平臺測出的Fable5性能數據全部失真,拿到的是被刻意降智的“閹割版應答”,整個AI行業公平對比、安全評估的信任鏈條直接斷裂。
三、倉促道歉改方案,補救措施治標難治本
鋪天蓋地的輿論壓力之下,Anthropic很快發布公開致歉聲明,承認決策權衡出現重大失誤,緊急叫停隱形降智機制,推出改良方案。
新規則把暗中降智改成明文攔截:一旦識別用戶存在蒸餾訓練競品模型的行為,不再偷偷輸出錯誤內容,直白提示請求受限,直接跳轉至低配Opus4.8模型應答。看似態度退讓,實則藏著新矛盾。
明文攔截意味著攔截邏輯暴露在外,黑客、競品能針對性摸索繞過手段,為了防止防護再度被輕易突破,Anthropic只能把篩查標準調得極度保守嚴苛。最后的結果變成:為了防少數蒸餾竊取行為,大批正常普通開發者、學術愛好者的合規提問,會被一并誤判攔截,出現大范圍誤傷。說白了就是“寧可錯殺一千,絕不放過一個”的保守風控思路,普通用戶反倒成了代價。
一邊是安全防線三天被攻破,一邊是風控策略左右為難,Anthropic兩頭落空。
![]()
四、信任一旦破碎,重建遠比搭建難
Anthropic長久以來塑造的標簽,是AI領域負責任的安全先行者,區別于激進追求性能的廠商,主打可控、可靠、有底線。接連兩場危機,把這份核心口碑砸得粉碎。
對普通使用者而言,往后打開Claude,心里會多一層懷疑:眼前這份回答,是模型真實水平,還是被限制、被刻意修改后的內容?科研人員不敢放心拿它做基準對照,企業客戶開始權衡風險,微軟這類大企業已經先行收緊內部使用權限,謹慎評估Fable5的數據留存與風控隱患。
放眼整個行業,這件事也撕開了大模型安全的固有痛點:再精密的分類篩查,在層出不窮的提示詞越獄手法面前永遠存在漏洞;廠商手握模型權限,既能加固防護,也能暗地操作輸出內容,透明度始終是難解難題。
Anthropic當下能做的只是修補表面規則,但用戶、開發者心里的信任裂痕,短時間內很難抹平。標榜最強安全的神話草草落幕,留給整個AI行業一個現實問題:頂尖模型的性能、安全、公平競爭,到底該如何平衡?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.