无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI、Anthropic等主流AI模型均未能抵御多輪對話攻擊

0
分享至


企業買家用于評估AI模型的安全基準,衡量的可能并非關鍵所在。

這是思科近期一項研究得出的結論。該研究對來自OpenAI、Anthropic、谷歌、亞馬遜和xAI的15個閉源前沿模型,同時進行了單輪與多輪評估。

結果顯示,所有模型在多輪攻擊中均存在不可忽視的失敗比例,攻擊成功率(ASR)在7.89%至88.30%之間,波動幅度遠超單輪測試的2.19%至64.91%。

單輪交互是一次性的問答互動,而多輪交互則是持續性的來回對話。

報告指出:"多輪評估之所以重要,核心原因在于:攻擊者正是在這一模式下實施攻擊。真實的攻擊者會不斷迭代,重新包裝被拒絕的請求,將任務拆分到多輪對話中逐步推進,扮演不同角色,并循序漸進地升級攻擊力度。"

最關鍵的發現并不在于具體數字,而在于單輪測試表現無法有效預測模型在多輪攻擊下的抗壓能力。兩種測試體系之間的差值最高可達55個百分點,且方向不一。

Gemini 3 Pro的單輪攻擊成功率為18.10%,在迭代攻擊下飆升至73.35%,增幅達四倍。OpenAI的GPT-5.4單輪攻擊成功率僅為2.74%,看似表現優異,但在多輪壓力測試下達到24.68%,躍升近九倍。Grok 4.1 Fast在非推理模式下,單輪攻擊成功率為34.15%,多輪攻擊成功率則高達88.30%。

Anthropic Claude系列在多輪測試中整體表現最佳,迭代攻擊下的攻擊成功率在11.16%至16.20%之間,雖然相較單輪基準的2.19%至3.64%有所上升,但仍遠低于大多數參測模型。

亞馬遜Nova系列則呈現出最為反常的結果。三個變體模型均表現出與大多數模型相反的趨勢:單輪失敗率高,但多輪攻擊成功率反而更低。Nova 2 Lite單輪攻擊成功率為34%,但其多輪攻擊成功率卻是所有參測模型中最低的,僅為7.89%,是單輪脆弱性無法映射到迭代暴露場景的最典型案例。

操作層面最值得關注的發現與Grok 4.1 Fast有關。在相同測試條件下,僅開啟推理模式這一項配置變更,就使多輪攻擊成功率從88.30%驟降至43.47%,下降幅度達44.83個百分點。

思科表示,這種由配置驅動的安全性差異,目前尚未被任何公開基準或模型說明卡所涵蓋,并呼吁AI提供商在公布能力基準的同時,也應披露部署時各項設置對安全性的具體影響。

不同攻擊策略的有效性存在明顯差異,各模型的失敗方式也各不相同。思科將多輪測試結果按五類攻擊策略家族進行了拆解分析。在每一類策略中,暴露程度最高與最低的模型之間,差值在79至89個百分點之間,說明綜合評分可能掩蓋針對特定策略的安全漏洞。

在單輪測試中,失敗案例主要集中于少數幾類攻擊手法。冒充AI攻擊以37.50%的加權攻擊成功率位居榜首,領先第十名超過14個百分點;軟性改寫和系統提示詞攻擊緊隨其后。在內容類型方面,仇恨言論、不雅用語和專業建議誘導是主要風險領域。

思科基于上述發現,提出了三項可落地的建議:

第一,AI提供商應在每次模型發布時,按攻擊策略家族分類公布攻擊成功率數據。

第二,企業部署前的驗收環節應包含針對高風險攻擊手法和內容類型的回歸測試,并設定3個百分點的觸發復核閾值。

第三,任何單輪與多輪攻擊成功率差值超過15個百分點的模型,均應在部署前進行人工審查——若按此規則執行,本次參測的15個模型中將有8個被標記。

需要特別說明的是,思科測試的是未配置系統提示詞、內容過濾器或自定義編排層的基礎模型,而實際企業部署通常會包含上述防護措施,其結果可能向不同方向偏移。

報告的核心結論是:"即便是頂尖提供商的前沿模型,安全性依然是一種持續的、依賴部署情境的屬性,而非一次通過認證便可一勞永逸的二元狀態。"

Q&A

Q1:思科這項研究是如何評估AI模型安全性的?

A:思科對來自OpenAI、Anthropic、谷歌、亞馬遜和xAI共15個閉源前沿模型,同時進行了單輪和多輪攻擊測試。單輪測試是一次性問答,多輪測試則是模擬真實攻擊者的持續對話方式,涵蓋五類攻擊策略家族,并統計各模型的攻擊成功率,最終對比兩種模式下的安全差異。

Q2:為什么單輪安全測試不足以衡量AI模型的真實安全性?

A:因為真實攻擊者通常采用多輪迭代方式,通過不斷重新包裝請求、拆分任務、扮演角色來繞過模型限制。研究顯示,單輪與多輪攻擊成功率之間的差值最高達55個百分點,說明單輪表現良好的模型,在多輪壓力下可能大幅失守,兩者之間不存在可靠的預測關系。

Q3:企業在部署AI模型時應如何提升安全防護?

A:思科建議企業在部署前增加針對高風險攻擊手法的回歸測試,并設定3個百分點的觸發復核閾值;對單輪與多輪攻擊成功率差值超過15個百分點的模型,須進行人工審查。此外,模型的配置項(如是否啟用推理模式)對安全性影響顯著,部署時應充分評估不同配置的安全效果。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
桂林興安爆炸事故已致7人死亡 當地居民:有親屬在醫院治療,現場有房屋大門被掀飛

桂林興安爆炸事故已致7人死亡 當地居民:有親屬在醫院治療,現場有房屋大門被掀飛

紅星新聞
2026-06-11 12:31:16
7死17傷!廣西興安突發爆炸事故,知情人發聲官方通報信息量很大

7死17傷!廣西興安突發爆炸事故,知情人發聲官方通報信息量很大

Mr王的飯后茶
2026-06-11 09:55:23
中國黃巖島出現的“新建筑物”究竟是什么?更多信息公開

中國黃巖島出現的“新建筑物”究竟是什么?更多信息公開

環球網資訊
2026-06-11 11:47:10
河北辛集某公司廠房內貯存危險廢物?官方通報

河北辛集某公司廠房內貯存危險廢物?官方通報

界面新聞
2026-06-11 13:14:13
國家郵政局依法對極兔速遞有限公司立案調查

國家郵政局依法對極兔速遞有限公司立案調查

界面新聞
2026-06-11 11:41:52
壞消息不斷送進克里姆林宮,普京開始“打土豪”,寡頭秒掏千億

壞消息不斷送進克里姆林宮,普京開始“打土豪”,寡頭秒掏千億

浪子說
2026-06-09 00:05:03
在荷蘭上班的華人感慨:不要信媒體,荷蘭已經相當于我國二線城市

在荷蘭上班的華人感慨:不要信媒體,荷蘭已經相當于我國二線城市

離離言幾許
2026-06-11 00:12:29
歐盟將啟動900億歐元烏克蘭援助貸款

歐盟將啟動900億歐元烏克蘭援助貸款

澎湃新聞
2026-06-09 05:20:04
曝宋珍珍前后對比照!手握三個選美冠軍,最終一無所有,豪門夢碎

曝宋珍珍前后對比照!手握三個選美冠軍,最終一無所有,豪門夢碎

一盅情懷
2026-06-10 17:41:25
一米護欄網片報價800元、一顆螺栓20元,寶雞車主撞壞護欄,定損遭遇糊涂賬

一米護欄網片報價800元、一顆螺栓20元,寶雞車主撞壞護欄,定損遭遇糊涂賬

大風新聞
2026-06-08 23:15:27
“他要給錢,我不敢收”,宋珍珍刪除所有作品,疑似和對方談好了

“他要給錢,我不敢收”,宋珍珍刪除所有作品,疑似和對方談好了

漢史趣聞
2026-06-11 10:07:48
高三學生伙同他人冒充警察打人,拘留期涉高考15天改為12天

高三學生伙同他人冒充警察打人,拘留期涉高考15天改為12天

大象新聞
2026-06-11 13:46:04
央視再報!退衣姐遭刑拘,抓捕現場曝光,女子耍橫:揚言找關系

央視再報!退衣姐遭刑拘,抓捕現場曝光,女子耍橫:揚言找關系

諾諾談史
2026-06-11 11:23:33
河北殘障老人無薪扛水泥20年?被奴役這么久,為何全村裝看不見?

河北殘障老人無薪扛水泥20年?被奴役這么久,為何全村裝看不見?

見骨筆記
2026-06-11 08:15:36
中俄在安理會反對無效,15國投票結果一出,中方當場直言:很失望

中俄在安理會反對無效,15國投票結果一出,中方當場直言:很失望

健身狂人
2026-06-11 10:03:28
諷刺啊!96110竟被標為“垃圾電話”,網友:現在集體戒掉電話了

諷刺啊!96110竟被標為“垃圾電話”,網友:現在集體戒掉電話了

火山詩話
2026-06-11 06:29:13
領先29分被翻盤,關鍵2罰全丟,文班亞馬說出落敗原因,叫人心疼

領先29分被翻盤,關鍵2罰全丟,文班亞馬說出落敗原因,叫人心疼

萌蘭聊個球
2026-06-11 13:23:20
網傳武漢大學7000多退休職工,月均領10000,每年需9億社保供應…

網傳武漢大學7000多退休職工,月均領10000,每年需9億社保供應…

慧翔百科
2026-06-09 12:21:35
16歲少女被五人灌“快樂水”,強奸后跳樓身亡,5人里有2名警察?

16歲少女被五人灌“快樂水”,強奸后跳樓身亡,5人里有2名警察?

法紀實錄簿
2026-06-10 10:49:17
德國外長:臺海有事就是德國有事,我們不接受用暴力改變臺海現狀

德國外長:臺海有事就是德國有事,我們不接受用暴力改變臺海現狀

補懂事的孩紙
2026-06-11 06:04:07
2026-06-11 15:00:49
至頂科技 incentive-icons
至頂科技
科技產業媒體與 AI 產業服務機構
19227文章數 49711關注度
往期回顧 全部

科技要聞

淘寶、京東、拼多多、抖音、小紅書被約談

頭條要聞

大批印度學生高考考卷被"調包" 40萬人申請看掃描件

頭條要聞

大批印度學生高考考卷被"調包" 40萬人申請看掃描件

體育要聞

文班:付出那么多努力,卻把勝利拱手讓人

娛樂要聞

《花少8》陣容大揭秘!秒殺前一季

財經要聞

干細胞生意:17萬一針的希望

汽車要聞

埃安i60 530寧德時代版上市限時煥新價10.36萬起

態度原創

房產
親子
手機
本地
時尚

房產要聞

猛砸400億!我敢說,這才是海口最懂生活的神盤!

親子要聞

體溫飆到40.6℃,已有學校臨時停課

手機要聞

2026最新數碼選購指南!準大學生如何買手機/電腦/平板?

本地新聞

世界杯還沒開始,蘇超已經火到爆梗

畢業季,為林徽因正名的年輕女孩們

無障礙瀏覽 進入關懷版