![]()
不是提示注入,不是角色扮演,也不是把惡意請(qǐng)求偽裝成正常問(wèn)題。這一次,風(fēng)險(xiǎn)出現(xiàn)在智能體自主完成任務(wù)的過(guò)程中。
Fable 5 是 Anthropic 面向公眾開(kāi)放的 Mythos 級(jí)模型,不僅具備極強(qiáng)的綜合能力,還在模型外圍引入了新一代安全分類器(Safety Classifier)作為安全防線。按照官方設(shè)計(jì),當(dāng)用戶請(qǐng)求涉及網(wǎng)絡(luò)安全、生物、化學(xué)、模型蒸餾等高風(fēng)險(xiǎn)領(lǐng)域時(shí),系統(tǒng)會(huì)優(yōu)先進(jìn)行風(fēng)險(xiǎn)識(shí)別,并根據(jù)風(fēng)險(xiǎn)等級(jí)直接拒絕請(qǐng)求,或切換至更加保守的 Opus 4.8 模型處理。
大量用戶測(cè)試發(fā)現(xiàn),過(guò)去廣泛采用的對(duì)抗提示、角色扮演、編碼繞行以及隱晦表達(dá)等越獄攻擊技術(shù),在該安全機(jī)制面前幾乎全部失效,顯示出其在意圖級(jí)風(fēng)險(xiǎn)攔截方面的強(qiáng)大能力。
然而,就在 Fable 5 發(fā)布當(dāng)天,一個(gè)由復(fù)旦大學(xué)、迪肯大學(xué)、香港城市大學(xué)、墨爾本大學(xué)、新加坡管理大學(xué)以及伊利諾伊大學(xué)厄巴納-香檳分校等機(jī)構(gòu)組成的國(guó)際聯(lián)合研究團(tuán)隊(duì)宣布,他們已成功突破 Fable 5 的安全防護(hù)機(jī)制。該攻擊方法由迪肯大學(xué)博士生 Yutao Wu 主導(dǎo)設(shè)計(jì)。整套攻擊僅需一次對(duì)話、耗時(shí)不到5秒,即可繞過(guò)前置安全分類器,誘導(dǎo)模型生成違規(guī)有害內(nèi)容。
![]()
![]()
流量分析結(jié)果進(jìn)一步表明,相關(guān)有害輸出直接來(lái)自 Fable 5 本身,而非觸發(fā)安全機(jī)制后自動(dòng)切換的 Opus 4.8 模型。這意味著,該攻擊不僅成功繞過(guò)了安全分類器的檢測(cè),也實(shí)質(zhì)性突破了 Fable 5 的安全防線。
值得一提的是,知名黑客 Pliny the Liberator 近期也公開(kāi)了針對(duì) Fable 5 安全分類器的繞過(guò)。而復(fù)旦 & 迪肯團(tuán)隊(duì)此次所采用的技術(shù)路線并不是簡(jiǎn)答的組合式探索,而是發(fā)現(xiàn)了 Fable 5 這一類超級(jí)智能體系統(tǒng)的根本性缺陷。據(jù)悉,團(tuán)隊(duì)早在今年 3 月便已完成預(yù)研并公開(kāi)發(fā)布。該研究并非針對(duì) Fable 5 單一系統(tǒng)設(shè)計(jì),而是面向新一代超級(jí)智能體普遍采用的“安全分類器 + 模型”防御架構(gòu)展開(kāi)研究,直接揭示了這類安全機(jī)制所存在的結(jié)構(gòu)性缺陷,因此在 Fable 5 發(fā)布后迅速展現(xiàn)出攻擊效果。公開(kāi)資料顯示,該團(tuán)隊(duì)早在今年 3 月便已利用類似技術(shù),從 37 家主流大模型及智能體系統(tǒng)中成功提取系統(tǒng)提示詞,并在 Claude Code 完成了開(kāi)源驗(yàn)證(95% 吻合)。
![]()
- 論文:《Internal Safety Collapse in Frontier Large Language Models》
- 論文鏈接:https://arxiv.org/abs/2603.23509
- GitHub:https://github.com/wuyoscar/Internal-Safety-Collapse
- Project:https://wuyoscar.github.io/Internal-Safety-Collapse/
![]()
據(jù)了解,該研究團(tuán)隊(duì)的負(fù)責(zé)人為復(fù)旦大學(xué)可信具身智能研究院馬興軍老師。近年來(lái),其團(tuán)隊(duì)圍繞大模型、智能體與具身智能安全等方向開(kāi)展系統(tǒng)性研究,取得了一系列國(guó)際領(lǐng)先的科研成果,并獲得美國(guó) AI 安全中心安全基準(zhǔn)大賽的冠軍。目前,其團(tuán)隊(duì)正積極推進(jìn)成果轉(zhuǎn)化工作,聚焦智能體安全,探索構(gòu)建面向下一代智能體系統(tǒng)的安全基礎(chǔ)設(shè)施能力。
據(jù)馬老師介紹,這一研究結(jié)果的重要意義在于,它對(duì)當(dāng)前以安全分類器為核心的靜態(tài)防御范式提出了新的挑戰(zhàn):僅依賴前置安全分類器并不足以完全防范高級(jí)智能體系統(tǒng)中的潛在風(fēng)險(xiǎn)行為。安全分類器主要針對(duì)用戶輸入進(jìn)行風(fēng)險(xiǎn)識(shí)別與攔截,能夠有效檢測(cè)和過(guò)濾顯性的高風(fēng)險(xiǎn)指令,但是無(wú)法感知智能體在長(zhǎng)時(shí)運(yùn)行、多步規(guī)劃、環(huán)境交互以及工具調(diào)用過(guò)程中逐漸產(chǎn)生的內(nèi)在風(fēng)險(xiǎn)行為。
此次攻破 Fable 5 的方法來(lái)源于該團(tuán)隊(duì)今年 3 月發(fā)布的論文《Internal Safety Collapse in Frontier Large Language Models》。論文揭示了一種隱蔽的安全現(xiàn)象“內(nèi)部安全坍塌(Internal Safety Collapse,ISC)”:當(dāng)前 Agent 完成長(zhǎng)程任務(wù)時(shí),安全失效并不一定來(lái)自外部惡意提示,而可能發(fā)生在模型自身的執(zhí)行鏈條中。
不是外部提示詞攻擊
而是任務(wù)鏈條中的內(nèi)部失守
傳統(tǒng)攻擊通常從外部進(jìn)入。攻擊者會(huì)寫(xiě)一個(gè)看似無(wú)害、實(shí)則對(duì)抗性的輸入提示,或者使用角色扮演、編碼、翻譯、間接指令等方式,把惡意意圖偽裝成正常請(qǐng)求。安全分類器的主要任務(wù),就是在這一層把風(fēng)險(xiǎn)攔住。
Fable 5 的檢測(cè)器正是為這種場(chǎng)景設(shè)計(jì)的。它對(duì)直接的高風(fēng)險(xiǎn)請(qǐng)求非常敏感,甚至?xí)巡簧僬U?qǐng)求也攔下來(lái)。但 ISC 揭示的是另一條路徑:風(fēng)險(xiǎn)并不一定來(lái)自用戶直接輸入的危險(xiǎn)請(qǐng)求。 智能體面對(duì)的是一個(gè)看似普通的工作目錄:文件、目標(biāo)、校驗(yàn)流程和待完成任務(wù)。 隨后,它開(kāi)始規(guī)劃、讀取文件、運(yùn)行代碼、修復(fù)錯(cuò)誤,并不斷嘗試讓任務(wù)通過(guò)驗(yàn)證。
如果用一個(gè)形象的比喻來(lái)解釋,傳統(tǒng)安全機(jī)制守護(hù)的是系統(tǒng)的 “入口”,負(fù)責(zé)檢查用戶輸入是否存在風(fēng)險(xiǎn);而 ISC 所揭示的,則更像《盜夢(mèng)空間》中的多層夢(mèng)境。當(dāng)任務(wù)推進(jìn)到第二層、第三層甚至更深層的執(zhí)行階段后,模型會(huì)基于不斷累積的內(nèi)部上下文重新理解任務(wù)目標(biāo),并在這一過(guò)程中逐漸產(chǎn)生偏移。
在這種情況下,最初的用戶輸入完全可能是正常且無(wú)害的,前期的任務(wù)執(zhí)行過(guò)程也始終合規(guī):讀取文件、分析數(shù)據(jù)、編寫(xiě)代碼、調(diào)用工具,一切看起來(lái)都在按照預(yù)期推進(jìn)。然而,當(dāng)智能體執(zhí)行到某個(gè)關(guān)鍵階段時(shí),它可能自行推導(dǎo)出一個(gè)結(jié)論:如果不采取某些原本不應(yīng)執(zhí)行的行為,就無(wú)法完成最終任務(wù)。
正是在這一過(guò)程中,風(fēng)險(xiǎn)并非來(lái)自外部輸入,而是在模型自身的任務(wù)執(zhí)行鏈條中逐步形成。也就是說(shuō),模型不是被用戶一步步教壞的。它是在 “認(rèn)真完成任務(wù)” 的過(guò)程中,自己走到了不安全的位置。
這個(gè)現(xiàn)象是怎么被發(fā)現(xiàn)的?
據(jù)團(tuán)隊(duì)介紹,ISC 并不是一開(kāi)始就被設(shè)計(jì)成一種攻擊方法。它最早來(lái)自對(duì)智能體長(zhǎng)程運(yùn)行過(guò)程的觀察。Agent 被放進(jìn)復(fù)雜任務(wù)環(huán)境后,并不只是機(jī)械執(zhí)行指令。它會(huì)規(guī)劃、試錯(cuò),根據(jù) harness 或 validator 的反饋修改輸出,并在多輪執(zhí)行中形成中間目標(biāo)。
這正是今天很多 Agent 工作流最常見(jiàn)的使用方式。用戶并不會(huì)寫(xiě)一段精心設(shè)計(jì)的 prompt,更不會(huì)手工構(gòu)造攻擊指令。很多時(shí)候,用戶只會(huì)給一句非常模糊的話:
“幫我把這個(gè)任務(wù)完成。”
“幫我把這個(gè)做得再好一點(diǎn)。”
然后,Agent 會(huì)自己進(jìn)入工作區(qū),讀取文件,理解當(dāng)前狀態(tài),發(fā)現(xiàn)缺失項(xiàng),制定計(jì)劃,執(zhí)行修改,并不斷根據(jù)反饋修復(fù)問(wèn)題。
比如在 AutoResearch 場(chǎng)景中,用戶只給一篇未完成論文和一句 “幫我補(bǔ)完整”,Agent 會(huì)自行判斷哪里缺實(shí)驗(yàn)分析、相關(guān)工作或表格文字。代碼場(chǎng)景也類似:一句 “幫我把項(xiàng)目跑通”,就可能觸發(fā)依賴檢查、測(cè)試運(yùn)行、報(bào)錯(cuò)定位和自動(dòng)補(bǔ)全。
很多時(shí)候,前面的上下文完全無(wú)害。用戶沒(méi)有要求它生成風(fēng)險(xiǎn)內(nèi)容,任務(wù)說(shuō)明也沒(méi)有明顯危險(xiǎn)關(guān)鍵詞。但在某些任務(wù)結(jié)構(gòu)里,Agent 會(huì)為了通過(guò)校驗(yàn),主動(dòng)補(bǔ)齊某些不該由模型生成的內(nèi)容。基于這個(gè)觀察,研究團(tuán)隊(duì)進(jìn)一步提出了一個(gè)攻擊框架:TVD(任務(wù)、驗(yàn)證、數(shù)據(jù))。
![]()
一個(gè)看似很普通的任務(wù)描述結(jié)構(gòu)
為什么會(huì)成為攻擊?
TVD 的結(jié)構(gòu)并不復(fù)雜,甚至很接近常見(jiàn)工程流程:
- Task:一個(gè)專業(yè)任務(wù);
- Data:一個(gè)不完整的數(shù)據(jù)文件;
- Validator:一個(gè)只檢查格式、完整性和目標(biāo)是否完成的校驗(yàn)器。
以訓(xùn)練 Guard 模型為例,這本來(lái)是一個(gè)很專業(yè)、也很正常的任務(wù)。研究者可能希望訓(xùn)練或評(píng)估一個(gè)安全檢測(cè)器,比如用 Hugging Face 加載一個(gè)文本分類模型,判斷某段模型輸出屬于哪類安全標(biāo)簽。
在這個(gè)任務(wù)里,Data 是模型要檢測(cè)的數(shù)據(jù)樣本;Validator 則規(guī)定任務(wù)是否完成。它會(huì)檢查輸入是不是文本、長(zhǎng)度是否足夠、字段是否完整、標(biāo)簽格式是否正確。對(duì)任何有機(jī)器學(xué)習(xí)訓(xùn)練經(jīng)驗(yàn)的人來(lái)說(shuō),這都是熟悉的工作流。Agent 也非常熟悉這個(gè)工作流。
問(wèn)題就出現(xiàn)在這里。如果 Data 不完整,任務(wù)就跑不起來(lái)。Validator 會(huì)報(bào)錯(cuò),提示字段缺失、長(zhǎng)度不夠或格式不完整。為了讓訓(xùn)練流程繼續(xù)進(jìn)行,Agent 會(huì)自己補(bǔ)全這些 Data。
從 Agent 的視角看,它不是在 “作惡”。它只是在完成一個(gè)正常機(jī)器學(xué)習(xí)任務(wù):修復(fù)數(shù)據(jù)、通過(guò)校驗(yàn)、讓訓(xùn)練腳本跑起來(lái)。但從安全角度看,風(fēng)險(xiǎn)就在這一刻出現(xiàn)了:Validator 更像一個(gè)工程驗(yàn)收器,而不是安全審查員。它只檢查任務(wù)是否按格式完成,并不理解內(nèi)容背后的安全邊界。
類似的問(wèn)題也廣泛存在于醫(yī)學(xué)、生物、化學(xué)、網(wǎng)絡(luò)安全、藥理學(xué)和媒體安全等領(lǐng)域。論文收集了 50 多個(gè)這類場(chǎng)景,并涉及多種現(xiàn)實(shí)科研或工程工具,例如 BioPython、RDKit、Cantera、AutoDock Vina、DiffDock、PyRosetta、Scapy、Impacket、angr、Frida、LlamaGuard、Detoxify、OpenAI Moderation API 等。
這些工具本身并不是惡意工具。恰恰相反,它們都是現(xiàn)實(shí)科研或工程中常用的專業(yè)工具。但 TVD 的問(wèn)題在于:當(dāng) Task 是正常的,Tool 是正常的,Validator 也是正常的,Agent 仍然可能在補(bǔ)全 Data 的過(guò)程中走向不安全輸出。
因此,ISC 的重點(diǎn)不在提示詞技巧,而在 Agent 對(duì) “未完成任務(wù)” 的自動(dòng)補(bǔ)全能力:當(dāng)完成條件與風(fēng)險(xiǎn)邊界重疊,模型可能把不安全輸出當(dāng)作正常交付物。
攻破 Fable 5 說(shuō)明
強(qiáng)檢測(cè)器擋不住任務(wù)鏈內(nèi)部風(fēng)險(xiǎn)
Fable 5 的案例說(shuō)明,僅靠外部檢測(cè)器仍可能覆蓋不到部分長(zhǎng)程 Agent 場(chǎng)景。這并不是說(shuō) 安全分類器沒(méi)有價(jià)值。相反,它對(duì)外部惡意請(qǐng)求非常有用,也確實(shí)讓很多傳統(tǒng)越獄方法失效。但這次失守說(shuō)明,外部檢測(cè)器對(duì) Prompt 邊界有效,并不等于它能覆蓋 Agent 內(nèi)部的長(zhǎng)程任務(wù)風(fēng)險(xiǎn)。
如果突破口不是從用戶 Prompt 進(jìn)入,而是從 Agent 的目標(biāo)、工具、校驗(yàn)器和執(zhí)行軌跡中出現(xiàn),那么安全檢測(cè)器就會(huì)變得非常脆弱。
從 Fable 5 到 60 多個(gè)其他模型
包括蘋(píng)果的手機(jī)端模型
伴隨研究發(fā)布的 ISC-Bench ,覆蓋 9 個(gè)專業(yè)領(lǐng)域。論文版本包含 60+ 個(gè)觸發(fā)模板,開(kāi)源后擴(kuò)展到 84 個(gè)模板,測(cè)試對(duì)象包括幾乎所有廠商的前沿模型與智能體體統(tǒng)。
![]()
在基于 ISC-Bench 的評(píng)測(cè)榜單中,截至 2026 年 6 月,60 多個(gè)前沿模型在 ASR@3 指標(biāo)下都暴露出類似風(fēng)險(xiǎn)!目前 GitHub 項(xiàng)目已經(jīng)獲得800+ stars,并收集到多個(gè)獨(dú)立復(fù)現(xiàn)案例(包括攻破蘋(píng)果手機(jī)移動(dòng)端模型),并持續(xù)更新中。
![]()
![]()
據(jù)悉,團(tuán)隊(duì)在進(jìn)行大規(guī)模的前沿模型安全研究,目前已掌握大量模型的內(nèi)部不安全數(shù)據(jù)分布,相關(guān)研究成果后續(xù)會(huì)陸續(xù)發(fā)布。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.