網易首頁 > 網易號 > 正文申請入駐

OpenAI、Anthropic等主流AI模型均未能抵御多輪對話攻擊

2026-06-08 22:06:04　來源: 至頂科技

北京舉報

分享至

企業買家用于評估AI模型的安全基準，衡量的可能并非關鍵所在。

這是思科近期一項研究得出的結論。該研究對來自OpenAI、Anthropic、谷歌、亞馬遜和xAI的15個閉源前沿模型，同時進行了單輪與多輪評估。

結果顯示，所有模型在多輪攻擊中均存在不可忽視的失敗比例，攻擊成功率（ASR）在7.89%至88.30%之間，波動幅度遠超單輪測試的2.19%至64.91%。

單輪交互是一次性的問答互動，而多輪交互則是持續性的來回對話。

報告指出："多輪評估之所以重要，核心原因在于：攻擊者正是在這一模式下實施攻擊。真實的攻擊者會不斷迭代，重新包裝被拒絕的請求，將任務拆分到多輪對話中逐步推進，扮演不同角色，并循序漸進地升級攻擊力度。"

最關鍵的發現并不在于具體數字，而在于單輪測試表現無法有效預測模型在多輪攻擊下的抗壓能力。兩種測試體系之間的差值最高可達55個百分點，且方向不一。

Gemini 3 Pro的單輪攻擊成功率為18.10%，在迭代攻擊下飆升至73.35%，增幅達四倍。OpenAI的GPT-5.4單輪攻擊成功率僅為2.74%，看似表現優異，但在多輪壓力測試下達到24.68%，躍升近九倍。Grok 4.1 Fast在非推理模式下，單輪攻擊成功率為34.15%，多輪攻擊成功率則高達88.30%。

Anthropic Claude系列在多輪測試中整體表現最佳，迭代攻擊下的攻擊成功率在11.16%至16.20%之間，雖然相較單輪基準的2.19%至3.64%有所上升，但仍遠低于大多數參測模型。

亞馬遜Nova系列則呈現出最為反常的結果。三個變體模型均表現出與大多數模型相反的趨勢：單輪失敗率高，但多輪攻擊成功率反而更低。Nova 2 Lite單輪攻擊成功率為34%，但其多輪攻擊成功率卻是所有參測模型中最低的，僅為7.89%，是單輪脆弱性無法映射到迭代暴露場景的最典型案例。

操作層面最值得關注的發現與Grok 4.1 Fast有關。在相同測試條件下，僅開啟推理模式這一項配置變更，就使多輪攻擊成功率從88.30%驟降至43.47%，下降幅度達44.83個百分點。

思科表示，這種由配置驅動的安全性差異，目前尚未被任何公開基準或模型說明卡所涵蓋，并呼吁AI提供商在公布能力基準的同時，也應披露部署時各項設置對安全性的具體影響。

不同攻擊策略的有效性存在明顯差異，各模型的失敗方式也各不相同。思科將多輪測試結果按五類攻擊策略家族進行了拆解分析。在每一類策略中，暴露程度最高與最低的模型之間，差值在79至89個百分點之間，說明綜合評分可能掩蓋針對特定策略的安全漏洞。

在單輪測試中，失敗案例主要集中于少數幾類攻擊手法。冒充AI攻擊以37.50%的加權攻擊成功率位居榜首，領先第十名超過14個百分點；軟性改寫和系統提示詞攻擊緊隨其后。在內容類型方面，仇恨言論、不雅用語和專業建議誘導是主要風險領域。

思科基于上述發現，提出了三項可落地的建議：

第一，AI提供商應在每次模型發布時，按攻擊策略家族分類公布攻擊成功率數據。

第二，企業部署前的驗收環節應包含針對高風險攻擊手法和內容類型的回歸測試，并設定3個百分點的觸發復核閾值。

第三，任何單輪與多輪攻擊成功率差值超過15個百分點的模型，均應在部署前進行人工審查——若按此規則執行，本次參測的15個模型中將有8個被標記。

需要特別說明的是，思科測試的是未配置系統提示詞、內容過濾器或自定義編排層的基礎模型，而實際企業部署通常會包含上述防護措施，其結果可能向不同方向偏移。

報告的核心結論是："即便是頂尖提供商的前沿模型，安全性依然是一種持續的、依賴部署情境的屬性，而非一次通過認證便可一勞永逸的二元狀態。"

Q&A

Q1：思科這項研究是如何評估AI模型安全性的？

A：思科對來自OpenAI、Anthropic、谷歌、亞馬遜和xAI共15個閉源前沿模型，同時進行了單輪和多輪攻擊測試。單輪測試是一次性問答，多輪測試則是模擬真實攻擊者的持續對話方式，涵蓋五類攻擊策略家族，并統計各模型的攻擊成功率，最終對比兩種模式下的安全差異。

Q2：為什么單輪安全測試不足以衡量AI模型的真實安全性？

A：因為真實攻擊者通常采用多輪迭代方式，通過不斷重新包裝請求、拆分任務、扮演角色來繞過模型限制。研究顯示，單輪與多輪攻擊成功率之間的差值最高達55個百分點，說明單輪表現良好的模型，在多輪壓力下可能大幅失守，兩者之間不存在可靠的預測關系。

Q3：企業在部署AI模型時應如何提升安全防護？

A：思科建議企業在部署前增加針對高風險攻擊手法的回歸測試，并設定3個百分點的觸發復核閾值；對單輪與多輪攻擊成功率差值超過15個百分點的模型，須進行人工審查。此外，模型的配置項（如是否啟用推理模式）對安全性影響顯著，部署時應充分評估不同配置的安全效果。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.