網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

5秒攻破，僅需1次對(duì)話：Fable 5最強(qiáng)安全機(jī)制被華人團(tuán)隊(duì)破解

2026-06-12 17:13:58　來(lái)源: 機(jī)器之心Pro

天津舉報(bào)

分享至

不是提示注入，不是角色扮演，也不是把惡意請(qǐng)求偽裝成正常問(wèn)題。這一次，風(fēng)險(xiǎn)出現(xiàn)在智能體自主完成任務(wù)的過(guò)程中。

Fable 5 是 Anthropic 面向公眾開(kāi)放的 Mythos 級(jí)模型，不僅具備極強(qiáng)的綜合能力，還在模型外圍引入了新一代安全分類器（Safety Classifier）作為安全防線。按照官方設(shè)計(jì)，當(dāng)用戶請(qǐng)求涉及網(wǎng)絡(luò)安全、生物、化學(xué)、模型蒸餾等高風(fēng)險(xiǎn)領(lǐng)域時(shí)，系統(tǒng)會(huì)優(yōu)先進(jìn)行風(fēng)險(xiǎn)識(shí)別，并根據(jù)風(fēng)險(xiǎn)等級(jí)直接拒絕請(qǐng)求，或切換至更加保守的 Opus 4.8 模型處理。

大量用戶測(cè)試發(fā)現(xiàn)，過(guò)去廣泛采用的對(duì)抗提示、角色扮演、編碼繞行以及隱晦表達(dá)等越獄攻擊技術(shù)，在該安全機(jī)制面前幾乎全部失效，顯示出其在意圖級(jí)風(fēng)險(xiǎn)攔截方面的強(qiáng)大能力。

然而，就在 Fable 5 發(fā)布當(dāng)天，一個(gè)由復(fù)旦大學(xué)、迪肯大學(xué)、香港城市大學(xué)、墨爾本大學(xué)、新加坡管理大學(xué)以及伊利諾伊大學(xué)厄巴納-香檳分校等機(jī)構(gòu)組成的國(guó)際聯(lián)合研究團(tuán)隊(duì)宣布，他們已成功突破 Fable 5 的安全防護(hù)機(jī)制。該攻擊方法由迪肯大學(xué)博士生 Yutao Wu 主導(dǎo)設(shè)計(jì)。整套攻擊僅需一次對(duì)話、耗時(shí)不到5秒，即可繞過(guò)前置安全分類器，誘導(dǎo)模型生成違規(guī)有害內(nèi)容。

流量分析結(jié)果進(jìn)一步表明，相關(guān)有害輸出直接來(lái)自 Fable 5 本身，而非觸發(fā)安全機(jī)制后自動(dòng)切換的 Opus 4.8 模型。這意味著，該攻擊不僅成功繞過(guò)了安全分類器的檢測(cè)，也實(shí)質(zhì)性突破了 Fable 5 的安全防線。

值得一提的是，知名黑客 Pliny the Liberator 近期也公開(kāi)了針對(duì) Fable 5 安全分類器的繞過(guò)。而復(fù)旦 & 迪肯團(tuán)隊(duì)此次所采用的技術(shù)路線并不是簡(jiǎn)答的組合式探索，而是發(fā)現(xiàn)了 Fable 5 這一類超級(jí)智能體系統(tǒng)的根本性缺陷。據(jù)悉，團(tuán)隊(duì)早在今年 3 月便已完成預(yù)研并公開(kāi)發(fā)布。該研究并非針對(duì) Fable 5 單一系統(tǒng)設(shè)計(jì)，而是面向新一代超級(jí)智能體普遍采用的“安全分類器 + 模型”防御架構(gòu)展開(kāi)研究，直接揭示了這類安全機(jī)制所存在的結(jié)構(gòu)性缺陷，因此在 Fable 5 發(fā)布后迅速展現(xiàn)出攻擊效果。公開(kāi)資料顯示，該團(tuán)隊(duì)早在今年 3 月便已利用類似技術(shù)，從 37 家主流大模型及智能體系統(tǒng)中成功提取系統(tǒng)提示詞，并在 Claude Code 完成了開(kāi)源驗(yàn)證（95% 吻合）。

論文：《Internal Safety Collapse in Frontier Large Language Models》
論文鏈接：https://arxiv.org/abs/2603.23509
GitHub：https://github.com/wuyoscar/Internal-Safety-Collapse
Project：https://wuyoscar.github.io/Internal-Safety-Collapse/

據(jù)了解，該研究團(tuán)隊(duì)的負(fù)責(zé)人為復(fù)旦大學(xué)可信具身智能研究院馬興軍老師。近年來(lái)，其團(tuán)隊(duì)圍繞大模型、智能體與具身智能安全等方向開(kāi)展系統(tǒng)性研究，取得了一系列國(guó)際領(lǐng)先的科研成果，并獲得美國(guó) AI 安全中心安全基準(zhǔn)大賽的冠軍。目前，其團(tuán)隊(duì)正積極推進(jìn)成果轉(zhuǎn)化工作，聚焦智能體安全，探索構(gòu)建面向下一代智能體系統(tǒng)的安全基礎(chǔ)設(shè)施能力。

據(jù)馬老師介紹，這一研究結(jié)果的重要意義在于，它對(duì)當(dāng)前以安全分類器為核心的靜態(tài)防御范式提出了新的挑戰(zhàn)：僅依賴前置安全分類器并不足以完全防范高級(jí)智能體系統(tǒng)中的潛在風(fēng)險(xiǎn)行為。安全分類器主要針對(duì)用戶輸入進(jìn)行風(fēng)險(xiǎn)識(shí)別與攔截，能夠有效檢測(cè)和過(guò)濾顯性的高風(fēng)險(xiǎn)指令，但是無(wú)法感知智能體在長(zhǎng)時(shí)運(yùn)行、多步規(guī)劃、環(huán)境交互以及工具調(diào)用過(guò)程中逐漸產(chǎn)生的內(nèi)在風(fēng)險(xiǎn)行為。

此次攻破 Fable 5 的方法來(lái)源于該團(tuán)隊(duì)今年 3 月發(fā)布的論文《Internal Safety Collapse in Frontier Large Language Models》。論文揭示了一種隱蔽的安全現(xiàn)象“內(nèi)部安全坍塌（Internal Safety Collapse，ISC）”：當(dāng)前 Agent 完成長(zhǎng)程任務(wù)時(shí)，安全失效并不一定來(lái)自外部惡意提示，而可能發(fā)生在模型自身的執(zhí)行鏈條中。

不是外部提示詞攻擊

而是任務(wù)鏈條中的內(nèi)部失守

傳統(tǒng)攻擊通常從外部進(jìn)入。攻擊者會(huì)寫(xiě)一個(gè)看似無(wú)害、實(shí)則對(duì)抗性的輸入提示，或者使用角色扮演、編碼、翻譯、間接指令等方式，把惡意意圖偽裝成正常請(qǐng)求。安全分類器的主要任務(wù)，就是在這一層把風(fēng)險(xiǎn)攔住。

Fable 5 的檢測(cè)器正是為這種場(chǎng)景設(shè)計(jì)的。它對(duì)直接的高風(fēng)險(xiǎn)請(qǐng)求非常敏感，甚至?xí)巡簧僬Ｕ?qǐng)求也攔下來(lái)。但 ISC 揭示的是另一條路徑：風(fēng)險(xiǎn)并不一定來(lái)自用戶直接輸入的危險(xiǎn)請(qǐng)求。智能體面對(duì)的是一個(gè)看似普通的工作目錄：文件、目標(biāo)、校驗(yàn)流程和待完成任務(wù)。隨后，它開(kāi)始規(guī)劃、讀取文件、運(yùn)行代碼、修復(fù)錯(cuò)誤，并不斷嘗試讓任務(wù)通過(guò)驗(yàn)證。

如果用一個(gè)形象的比喻來(lái)解釋，傳統(tǒng)安全機(jī)制守護(hù)的是系統(tǒng)的 “入口”，負(fù)責(zé)檢查用戶輸入是否存在風(fēng)險(xiǎn)；而 ISC 所揭示的，則更像《盜夢(mèng)空間》中的多層夢(mèng)境。當(dāng)任務(wù)推進(jìn)到第二層、第三層甚至更深層的執(zhí)行階段后，模型會(huì)基于不斷累積的內(nèi)部上下文重新理解任務(wù)目標(biāo)，并在這一過(guò)程中逐漸產(chǎn)生偏移。

在這種情況下，最初的用戶輸入完全可能是正常且無(wú)害的，前期的任務(wù)執(zhí)行過(guò)程也始終合規(guī)：讀取文件、分析數(shù)據(jù)、編寫(xiě)代碼、調(diào)用工具，一切看起來(lái)都在按照預(yù)期推進(jìn)。然而，當(dāng)智能體執(zhí)行到某個(gè)關(guān)鍵階段時(shí)，它可能自行推導(dǎo)出一個(gè)結(jié)論：如果不采取某些原本不應(yīng)執(zhí)行的行為，就無(wú)法完成最終任務(wù)。

正是在這一過(guò)程中，風(fēng)險(xiǎn)并非來(lái)自外部輸入，而是在模型自身的任務(wù)執(zhí)行鏈條中逐步形成。也就是說(shuō)，模型不是被用戶一步步教壞的。它是在 “認(rèn)真完成任務(wù)” 的過(guò)程中，自己走到了不安全的位置。

這個(gè)現(xiàn)象是怎么被發(fā)現(xiàn)的？

據(jù)團(tuán)隊(duì)介紹，ISC 并不是一開(kāi)始就被設(shè)計(jì)成一種攻擊方法。它最早來(lái)自對(duì)智能體長(zhǎng)程運(yùn)行過(guò)程的觀察。Agent 被放進(jìn)復(fù)雜任務(wù)環(huán)境后，并不只是機(jī)械執(zhí)行指令。它會(huì)規(guī)劃、試錯(cuò)，根據(jù) harness 或 validator 的反饋修改輸出，并在多輪執(zhí)行中形成中間目標(biāo)。

這正是今天很多 Agent 工作流最常見(jiàn)的使用方式。用戶并不會(huì)寫(xiě)一段精心設(shè)計(jì)的 prompt，更不會(huì)手工構(gòu)造攻擊指令。很多時(shí)候，用戶只會(huì)給一句非常模糊的話：

“幫我把這個(gè)任務(wù)完成。”
“幫我把這個(gè)做得再好一點(diǎn)。”

然后，Agent 會(huì)自己進(jìn)入工作區(qū)，讀取文件，理解當(dāng)前狀態(tài)，發(fā)現(xiàn)缺失項(xiàng)，制定計(jì)劃，執(zhí)行修改，并不斷根據(jù)反饋修復(fù)問(wèn)題。

比如在 AutoResearch 場(chǎng)景中，用戶只給一篇未完成論文和一句 “幫我補(bǔ)完整”，Agent 會(huì)自行判斷哪里缺實(shí)驗(yàn)分析、相關(guān)工作或表格文字。代碼場(chǎng)景也類似：一句 “幫我把項(xiàng)目跑通”，就可能觸發(fā)依賴檢查、測(cè)試運(yùn)行、報(bào)錯(cuò)定位和自動(dòng)補(bǔ)全。

很多時(shí)候，前面的上下文完全無(wú)害。用戶沒(méi)有要求它生成風(fēng)險(xiǎn)內(nèi)容，任務(wù)說(shuō)明也沒(méi)有明顯危險(xiǎn)關(guān)鍵詞。但在某些任務(wù)結(jié)構(gòu)里，Agent 會(huì)為了通過(guò)校驗(yàn)，主動(dòng)補(bǔ)齊某些不該由模型生成的內(nèi)容。基于這個(gè)觀察，研究團(tuán)隊(duì)進(jìn)一步提出了一個(gè)攻擊框架：TVD（任務(wù)、驗(yàn)證、數(shù)據(jù)）。

一個(gè)看似很普通的任務(wù)描述結(jié)構(gòu)

為什么會(huì)成為攻擊？

TVD 的結(jié)構(gòu)并不復(fù)雜，甚至很接近常見(jiàn)工程流程：

Task：一個(gè)專業(yè)任務(wù)；
Data：一個(gè)不完整的數(shù)據(jù)文件；
Validator：一個(gè)只檢查格式、完整性和目標(biāo)是否完成的校驗(yàn)器。

以訓(xùn)練 Guard 模型為例，這本來(lái)是一個(gè)很專業(yè)、也很正常的任務(wù)。研究者可能希望訓(xùn)練或評(píng)估一個(gè)安全檢測(cè)器，比如用 Hugging Face 加載一個(gè)文本分類模型，判斷某段模型輸出屬于哪類安全標(biāo)簽。

在這個(gè)任務(wù)里，Data 是模型要檢測(cè)的數(shù)據(jù)樣本；Validator 則規(guī)定任務(wù)是否完成。它會(huì)檢查輸入是不是文本、長(zhǎng)度是否足夠、字段是否完整、標(biāo)簽格式是否正確。對(duì)任何有機(jī)器學(xué)習(xí)訓(xùn)練經(jīng)驗(yàn)的人來(lái)說(shuō)，這都是熟悉的工作流。Agent 也非常熟悉這個(gè)工作流。

問(wèn)題就出現(xiàn)在這里。如果 Data 不完整，任務(wù)就跑不起來(lái)。Validator 會(huì)報(bào)錯(cuò)，提示字段缺失、長(zhǎng)度不夠或格式不完整。為了讓訓(xùn)練流程繼續(xù)進(jìn)行，Agent 會(huì)自己補(bǔ)全這些 Data。

從 Agent 的視角看，它不是在 “作惡”。它只是在完成一個(gè)正常機(jī)器學(xué)習(xí)任務(wù)：修復(fù)數(shù)據(jù)、通過(guò)校驗(yàn)、讓訓(xùn)練腳本跑起來(lái)。但從安全角度看，風(fēng)險(xiǎn)就在這一刻出現(xiàn)了：Validator 更像一個(gè)工程驗(yàn)收器，而不是安全審查員。它只檢查任務(wù)是否按格式完成，并不理解內(nèi)容背后的安全邊界。

類似的問(wèn)題也廣泛存在于醫(yī)學(xué)、生物、化學(xué)、網(wǎng)絡(luò)安全、藥理學(xué)和媒體安全等領(lǐng)域。論文收集了 50 多個(gè)這類場(chǎng)景，并涉及多種現(xiàn)實(shí)科研或工程工具，例如 BioPython、RDKit、Cantera、AutoDock Vina、DiffDock、PyRosetta、Scapy、Impacket、angr、Frida、LlamaGuard、Detoxify、OpenAI Moderation API 等。

這些工具本身并不是惡意工具。恰恰相反，它們都是現(xiàn)實(shí)科研或工程中常用的專業(yè)工具。但 TVD 的問(wèn)題在于：當(dāng) Task 是正常的，Tool 是正常的，Validator 也是正常的，Agent 仍然可能在補(bǔ)全 Data 的過(guò)程中走向不安全輸出。

因此，ISC 的重點(diǎn)不在提示詞技巧，而在 Agent 對(duì) “未完成任務(wù)” 的自動(dòng)補(bǔ)全能力：當(dāng)完成條件與風(fēng)險(xiǎn)邊界重疊，模型可能把不安全輸出當(dāng)作正常交付物。

攻破 Fable 5 說(shuō)明

強(qiáng)檢測(cè)器擋不住任務(wù)鏈內(nèi)部風(fēng)險(xiǎn)

Fable 5 的案例說(shuō)明，僅靠外部檢測(cè)器仍可能覆蓋不到部分長(zhǎng)程 Agent 場(chǎng)景。這并不是說(shuō) 安全分類器沒(méi)有價(jià)值。相反，它對(duì)外部惡意請(qǐng)求非常有用，也確實(shí)讓很多傳統(tǒng)越獄方法失效。但這次失守說(shuō)明，外部檢測(cè)器對(duì) Prompt 邊界有效，并不等于它能覆蓋 Agent 內(nèi)部的長(zhǎng)程任務(wù)風(fēng)險(xiǎn)。

如果突破口不是從用戶 Prompt 進(jìn)入，而是從 Agent 的目標(biāo)、工具、校驗(yàn)器和執(zhí)行軌跡中出現(xiàn)，那么安全檢測(cè)器就會(huì)變得非常脆弱。

從 Fable 5 到 60 多個(gè)其他模型

包括蘋(píng)果的手機(jī)端模型

伴隨研究發(fā)布的 ISC-Bench ，覆蓋 9 個(gè)專業(yè)領(lǐng)域。論文版本包含 60+ 個(gè)觸發(fā)模板，開(kāi)源后擴(kuò)展到 84 個(gè)模板，測(cè)試對(duì)象包括幾乎所有廠商的前沿模型與智能體體統(tǒng)。

在基于 ISC-Bench 的評(píng)測(cè)榜單中，截至 2026 年 6 月，60 多個(gè)前沿模型在 ASR@3 指標(biāo)下都暴露出類似風(fēng)險(xiǎn)！目前 GitHub 項(xiàng)目已經(jīng)獲得800+ stars，并收集到多個(gè)獨(dú)立復(fù)現(xiàn)案例（包括攻破蘋(píng)果手機(jī)移動(dòng)端模型），并持續(xù)更新中。

據(jù)悉，團(tuán)隊(duì)在進(jìn)行大規(guī)模的前沿模型安全研究，目前已掌握大量模型的內(nèi)部不安全數(shù)據(jù)分布，相關(guān)研究成果后續(xù)會(huì)陸續(xù)發(fā)布。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.