網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

計(jì)算所程學(xué)旗團(tuán)隊(duì)：隨機(jī)剪枝 AI 攻擊策略，讓對(duì)抗樣本更具「通用攻擊力」丨CVPR 2026

2026-03-08 11:42:08　來(lái)源: AI科技評(píng)論

廣東舉報(bào)

分享至

RaPA ：一種提升深度模型跨架構(gòu)誤導(dǎo)能力的新方法。

作者丨鄭佳美

編輯丨岑峰

隨著深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺領(lǐng)域的快速發(fā)展，神經(jīng)網(wǎng)絡(luò)模型已經(jīng)在自動(dòng)駕駛、智能安防、醫(yī)療影像分析以及智能終端等關(guān)鍵場(chǎng)景中得到廣泛應(yīng)用。

例如，在自動(dòng)駕駛系統(tǒng)中，視覺模型需要識(shí)別道路標(biāo)志和行人；在智能安防系統(tǒng)中，人臉識(shí)別模型被用于身份驗(yàn)證；在醫(yī)療影像分析中，深度學(xué)習(xí)模型可以輔助醫(yī)生識(shí)別疾病特征。

然而，近年來(lái)的研究不斷表明，這些高性能模型在安全性方面仍然存在明顯隱患。其中，對(duì)抗樣本問(wèn)題被認(rèn)為是深度學(xué)習(xí)系統(tǒng)面臨的最重要安全挑戰(zhàn)之一。

例如，通過(guò)在一張交通標(biāo)志圖像上加入人類幾乎無(wú)法察覺的微小擾動(dòng)，自動(dòng)駕駛系統(tǒng)可能會(huì)把“限速標(biāo)志”誤判為“停止標(biāo)志”；在人臉識(shí)別系統(tǒng)中，只需在圖像中加入細(xì)微噪聲，就可能使模型將一個(gè)人誤識(shí)別為另一個(gè)人。這些微小的輸入變化卻能導(dǎo)致模型產(chǎn)生完全錯(cuò)誤的預(yù)測(cè)，這種現(xiàn)象不僅揭示了深度神經(jīng)網(wǎng)絡(luò)在決策邊界上的脆弱性，也對(duì)現(xiàn)實(shí)系統(tǒng)的安全性提出了嚴(yán)峻挑戰(zhàn)。

在眾多對(duì)抗攻擊研究方向中，遷移攻擊（Transfer-based Attack）尤為受到關(guān)注。這類攻擊不需要訪問(wèn)目標(biāo)模型的結(jié)構(gòu)、參數(shù)或梯度信息，而是通過(guò)一個(gè)可訪問(wèn)的代理模型生成對(duì)抗樣本，再利用這些樣本攻擊其他未知模型。這種攻擊方式在現(xiàn)實(shí)場(chǎng)景中更具威脅性，因?yàn)閷?shí)際部署的模型通常處于黑盒環(huán)境。

在這樣的研究背景下，計(jì)算所程學(xué)旗團(tuán)隊(duì)針對(duì)這一問(wèn)題進(jìn)行了深入分析，并在論文《RaPA: Enhancing Transferable Targeted Attacks via Random Parameter Pruning》中提出了一種新的攻擊方法。

研究團(tuán)隊(duì)發(fā)現(xiàn)，現(xiàn)有遷移攻擊方法生成的對(duì)抗樣本往往過(guò)度依賴代理模型中的少量關(guān)鍵參數(shù)，從而限制了攻擊在不同模型之間的泛化能力。為了解決這一問(wèn)題，他們?cè)诠暨^(guò)程中引入隨機(jī)參數(shù)剪枝策略，通過(guò)不斷生成具有不同參數(shù)結(jié)構(gòu)的模型變體，使生成的對(duì)抗樣本能夠適應(yīng)更加多樣的模型環(huán)境，從而顯著提升攻擊在不同模型之間的遷移能力。

論文地址：https://arxiv.org/pdf/2504.18594

攻擊性能大幅提升，RaPA 優(yōu)勢(shì)明顯

從實(shí)驗(yàn)結(jié)果的角度來(lái)看，研究團(tuán)隊(duì)提出的攻擊方法 RaPA（Random Parameter Pruning Attack，隨機(jī)參數(shù)剪枝攻擊）能夠顯著提高對(duì)抗樣本在不同模型之間的遷移攻擊能力，也就是說(shuō)，在一個(gè)模型上生成的攻擊樣本更容易欺騙其他模型。

研究人員在 ImageNet 相關(guān)數(shù)據(jù)集上，將這種方法與多種已有攻擊技術(shù)進(jìn)行對(duì)比，包括 DI、RDI、SI、Admix、SIA、BSR、ODI、CFM 和 FTM，這些方法都是當(dāng)前提升對(duì)抗攻擊遷移性的主流技術(shù)。

實(shí)驗(yàn)結(jié)果表明，在多數(shù)模型組合中，RaPA 的攻擊成功率均達(dá)到最高或接近最高。例如，在卷積神經(jīng)網(wǎng)絡(luò)生成攻擊樣本并攻擊 Transformer 模型的情況下，現(xiàn)有最優(yōu)方法的平均攻擊成功率約為 33%，而 RaPA 可以將平均攻擊成功率提升到約 45%，說(shuō)明這種方法能夠更容易欺騙結(jié)構(gòu)不同的模型。

在跨模型結(jié)構(gòu)攻擊任務(wù)中，RaPA 的優(yōu)勢(shì)更加明顯。卷積神經(jīng)網(wǎng)絡(luò)生成攻擊樣本并攻擊 Transformer 模型被認(rèn)為是對(duì)抗攻擊中難度較高的場(chǎng)景，因?yàn)閮深惸Ｐ驮诮Y(jié)構(gòu)和訓(xùn)練方式上差異較大。實(shí)驗(yàn)結(jié)果表明，當(dāng)使用 ResNet50 作為攻擊模型時(shí)，平均攻擊成功率提升約 11.7%；當(dāng)使用 DenseNet121 作為攻擊模型時(shí)，平均攻擊成功率提升約 17.5%。這些結(jié)果表明 RaPA 生成的對(duì)抗樣本具有更強(qiáng)的通用性和遷移能力。

研究人員還測(cè)試了另一種方向的遷移攻擊，即 Transformer 模型生成攻擊樣本并攻擊卷積神經(jīng)網(wǎng)絡(luò)模型。實(shí)驗(yàn)結(jié)果顯示，在這一場(chǎng)景中 RaPA 的平均攻擊成功率達(dá)到約 51%，同樣高于所有對(duì)比方法。這一結(jié)果說(shuō)明這種攻擊方法不僅在跨架構(gòu)攻擊任務(wù)中有效，在常規(guī)遷移攻擊任務(wù)中也表現(xiàn)出更好的性能。

此外，研究人員還在多種防御機(jī)制存在的情況下測(cè)試了 RaPA 的攻擊效果，包括對(duì)抗訓(xùn)練模型、JPEG 壓縮防御、隨機(jī)化防御、圖像降噪防御以及擴(kuò)散模型防御。實(shí)驗(yàn)結(jié)果表明，在所有防御條件下 RaPA 的攻擊成功率仍然最高。例如，在對(duì)抗訓(xùn)練模型上，RaPA 的攻擊成功率約為 88%，明顯高于其他攻擊方法。

研究人員還進(jìn)一步測(cè)試了計(jì)算資源變化對(duì)攻擊效果的影響，通過(guò)增加攻擊迭代次數(shù)以及增加每輪計(jì)算次數(shù)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示，當(dāng)計(jì)算量增加時(shí)，其他攻擊方法的性能提升幅度較小，而 RaPA 的性能提升最為明顯。例如在使用 ResNet50 的情況下，攻擊成功率可以額外提升約 15.9%。這些結(jié)果表明，在更多計(jì)算資源支持下，RaPA 的攻擊效果能夠得到進(jìn)一步增強(qiáng)。

多模型、多方法對(duì)比下的實(shí)驗(yàn)驗(yàn)證

研究人員開展的實(shí)驗(yàn)任務(wù)屬于目標(biāo)遷移攻擊研究。目標(biāo)遷移攻擊指的是首先選擇一個(gè)模型作為代理模型，在這個(gè)模型上生成對(duì)抗樣本，然后利用這些對(duì)抗樣本去攻擊其他未知模型。與普通對(duì)抗攻擊不同，這種攻擊并不是只讓模型產(chǎn)生任意錯(cuò)誤分類，而是要求模型輸出指定的錯(cuò)誤類別。例如一張?jiān)颈蛔R(shí)別為狗的圖像，在攻擊之后希望模型將其識(shí)別為貓，因此這種攻擊任務(wù)比普通攻擊更加困難。

實(shí)驗(yàn)使用的數(shù)據(jù)集為 ImageNet-compatible dataset，這個(gè)數(shù)據(jù)集來(lái)源于 NIPS 2017 對(duì)抗攻擊比賽。數(shù)據(jù)集中的圖像來(lái)自 ImageNet，同時(shí)包含真實(shí)標(biāo)簽以及目標(biāo)攻擊標(biāo)簽，因此既能夠用于正常分類評(píng)估，也能夠用于目標(biāo)攻擊研究，非常適合進(jìn)行目標(biāo)遷移攻擊實(shí)驗(yàn)。

在實(shí)驗(yàn)?zāi)Ｐ头矫妫芯繄F(tuán)隊(duì)使用了多種不同類型的模型進(jìn)行測(cè)試。首先是卷積神經(jīng)網(wǎng)絡(luò)模型，其中包括 VGG16、ResNet18、ResNet50、DenseNet121、MobileNetV2、EfficientNetB0、Inception 系列模型以及 Xception，這些模型都是經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

其次是視覺 Transformer 模型，包括 ViT、LeViT、ConViT、Twins 和 PiT，這些模型采用 Transformer 架構(gòu)進(jìn)行圖像識(shí)別。除此之外，研究人員還測(cè)試了 CLIP 模型。CLIP 是一種同時(shí)利用圖像和文本進(jìn)行訓(xùn)練的模型，其結(jié)構(gòu)和普通視覺模型存在較大差異，因此可以用于評(píng)估攻擊方法在不同類型模型之間的遷移能力。

在實(shí)驗(yàn)設(shè)置方面，研究人員對(duì)攻擊參數(shù)進(jìn)行了統(tǒng)一控制。實(shí)驗(yàn)中對(duì)最大擾動(dòng)強(qiáng)度進(jìn)行了固定，同時(shí)學(xué)習(xí)步長(zhǎng)也保持一致，并且每種攻擊方法都使用相同的計(jì)算資源。研究人員特別指出，不同攻擊方法在每一輪計(jì)算中可能需要的計(jì)算次數(shù)并不相同，因此在實(shí)驗(yàn)中統(tǒng)一規(guī)定每輪計(jì)算次數(shù)相同，從而保證不同方法之間的比較是公平的。

為了驗(yàn)證方法的有效性，研究團(tuán)隊(duì)選擇了多種當(dāng)前主流攻擊方法作為對(duì)比基線。第一類是輸入變換類方法，例如 DI、RDI、SIA 和 BSR，這些方法通過(guò)改變輸入圖像的形式來(lái)增強(qiáng)攻擊效果。第二類是梯度優(yōu)化類方法，例如 SI 和 MI-FGSM，這類方法通過(guò)改進(jìn)梯度計(jì)算過(guò)程來(lái)提高攻擊成功率。第三類是特征混合類方法，例如 Admix、CFM 和 FTM，這些方法通過(guò)混合不同圖像或特征來(lái)增強(qiáng)攻擊樣本的遷移能力。第四類是模型集成類方法，例如 MUP 和 SE-ViT，這些方法通過(guò)構(gòu)造多個(gè)模型并進(jìn)行集成來(lái)提升攻擊效果。

在具體攻擊流程方面，RaPA 方法首先以原始圖像作為初始輸入。隨后在每一次攻擊迭代過(guò)程中，隨機(jī)選擇一部分模型參數(shù)并將其暫時(shí)關(guān)閉，這些參數(shù)主要包括全連接層參數(shù)以及歸一化層參數(shù)。通過(guò)這種方式，原始模型在每一次迭代中都會(huì)產(chǎn)生一個(gè)新的模型版本。

接著在同一次迭代中生成多個(gè)不同的隨機(jī)剪枝模型，也就是說(shuō)，一個(gè)原始模型會(huì)被擴(kuò)展為多個(gè)結(jié)構(gòu)略有不同的模型。然后利用這些不同模型分別計(jì)算攻擊所需的梯度信息。所有模型得到的梯度會(huì)被統(tǒng)一進(jìn)行平均處理。之后根據(jù)平均得到的梯度對(duì)圖像進(jìn)行更新，從而生成新的對(duì)抗樣本。整個(gè)過(guò)程會(huì)不斷重復(fù)多次迭代，直到攻擊過(guò)程結(jié)束并得到最終的對(duì)抗樣本。

一種更具通用性的對(duì)抗攻擊策略

研究團(tuán)隊(duì)在研究過(guò)程中發(fā)現(xiàn)，現(xiàn)有許多對(duì)抗攻擊方法在生成對(duì)抗樣本時(shí)存在一個(gè)重要問(wèn)題，即生成的攻擊樣本往往過(guò)度依賴代理模型中的少量關(guān)鍵參數(shù)。實(shí)驗(yàn)分析表明，當(dāng)刪除這些最重要的參數(shù)時(shí)，攻擊成功率會(huì)出現(xiàn)明顯下降，這說(shuō)明攻擊樣本在生成過(guò)程中對(duì)特定參數(shù)產(chǎn)生了較強(qiáng)依賴。這種依賴性會(huì)導(dǎo)致攻擊樣本難以適應(yīng)其他模型結(jié)構(gòu)，從而降低對(duì)抗樣本在不同模型之間的遷移能力。

針對(duì)這一問(wèn)題，研究人員提出了一種新的解決思路，即避免讓攻擊過(guò)程依賴固定的一部分模型參數(shù)。為此，研究團(tuán)隊(duì)在攻擊過(guò)程中引入隨機(jī)剪枝策略，通過(guò)隨機(jī)屏蔽模型中的部分參數(shù)，使每一次攻擊時(shí)所使用的模型都會(huì)發(fā)生變化。由于每一輪攻擊都對(duì)應(yīng)不同的模型參數(shù)結(jié)構(gòu)，生成的對(duì)抗樣本需要在不斷變化的模型環(huán)境中進(jìn)行優(yōu)化，因此攻擊樣本不再依賴某些固定參數(shù)，而是能夠適應(yīng)更多不同的模型情況。

在這種機(jī)制下，由于攻擊過(guò)程中模型結(jié)構(gòu)不斷變化，對(duì)抗樣本在生成時(shí)需要同時(shí)適應(yīng)多種模型形式，因此生成的攻擊樣本具有更強(qiáng)的泛化能力，并且更容易遷移到其他模型上實(shí)現(xiàn)攻擊。這種方法不僅能夠有效提升攻擊樣本的遷移性能，同時(shí)在實(shí)現(xiàn)上也比較簡(jiǎn)單。整個(gè)方法不需要重新訓(xùn)練模型，也不需要額外的數(shù)據(jù)，只需要在攻擊過(guò)程中隨機(jī)屏蔽一部分模型參數(shù)即可完成。

此外，研究人員還指出，這種方法能夠與多種已有攻擊技術(shù)進(jìn)行結(jié)合使用，例如 Admix、CFM 以及各種輸入變換方法。在這些方法的基礎(chǔ)上引入隨機(jī)參數(shù)剪枝策略，可以進(jìn)一步增強(qiáng)攻擊樣本的遷移能力，從而獲得更好的攻擊效果。

RaPA 背后的科研力量

陳薇，中國(guó)科學(xué)院計(jì)算技術(shù)研究所教授，她長(zhǎng)期從事機(jī)器學(xué)習(xí)基礎(chǔ)理論與人工智能安全方面的研究，目前主要研究可信機(jī)器學(xué)習(xí)，希望使機(jī)器學(xué)習(xí)模型尤其是深度學(xué)習(xí)模型在訓(xùn)練過(guò)程、模型結(jié)構(gòu)和決策結(jié)果上更加可解釋、可理解并且能夠被人類有效控制。

她于 2006 年在山東大學(xué)獲得統(tǒng)計(jì)學(xué)學(xué)士學(xué)位，隨后進(jìn)入中國(guó)科學(xué)院繼續(xù)深造，并在 2011 年獲得概率論與數(shù)理統(tǒng)計(jì)博士學(xué)位，導(dǎo)師為馬志明教授。在加入中國(guó)科學(xué)院之前，她曾在微軟亞洲研究院從事研究工作，并擔(dān)任計(jì)算與學(xué)習(xí)理論研究團(tuán)隊(duì)負(fù)責(zé)人以及理論研究中心聯(lián)合負(fù)責(zé)人，積累了豐富的機(jī)器學(xué)習(xí)理論研究經(jīng)驗(yàn)。

陳薇曾被評(píng)為中國(guó)科技領(lǐng)域具有影響力的女性科技人物之一，并被評(píng)為中國(guó)智能計(jì)算領(lǐng)域創(chuàng)新人物，還入選中國(guó)科學(xué)院大學(xué)的小米青年人才計(jì)劃，在學(xué)術(shù)界具有較高的影響力。

參考鏈接： https://weichen-cas.github.io/

朱勝宇，現(xiàn)任中國(guó)科學(xué)院計(jì)算技術(shù)研究所副研究員，主要從事機(jī)器學(xué)習(xí)、因果推斷與發(fā)現(xiàn)以及信息論等方向的研究。目前擔(dān)任博士研究生導(dǎo)師，開展人工智能基礎(chǔ)理論及相關(guān)應(yīng)用研究工作。

在學(xué)術(shù)研究方面，朱勝宇長(zhǎng)期從事機(jī)器學(xué)習(xí)理論、因果推斷以及分布式學(xué)習(xí)等方向的研究，在多個(gè)國(guó)際重要期刊和會(huì)議上發(fā)表了大量論文。其中在期刊方面，他在信息論、信號(hào)處理、控制系統(tǒng)以及神經(jīng)網(wǎng)絡(luò)等領(lǐng)域的國(guó)際期刊上發(fā)表了多篇論文。在會(huì)議方面，他在機(jī)器學(xué)習(xí)與人工智能領(lǐng)域的重要會(huì)議上發(fā)表多篇論文，包括人工智能、機(jī)器學(xué)習(xí)以及計(jì)算機(jī)視覺等方向的國(guó)際會(huì)議。

參考鏈接：https://www.ict.ac.cn/sourcedb/cn/jssrck/202502/t20250207_7525316.html

程學(xué)旗，中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員，智能算法安全全國(guó)重點(diǎn)實(shí)驗(yàn)室主任，數(shù)據(jù)科學(xué)與大數(shù)據(jù)分析領(lǐng)域?qū)＜遥瑖?guó)家杰出青年基金獲得者，國(guó)家高層次人才，北京學(xué)者，CCF 會(huì)士，IEEE Fellow。

中國(guó)計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì)主任，中國(guó)中文信息學(xué)會(huì)副理事長(zhǎng)，長(zhǎng)期從事網(wǎng)絡(luò)數(shù)據(jù)科學(xué)、大數(shù)據(jù)系統(tǒng)、認(rèn)知計(jì)算、算法安全等方向研究。在重要學(xué)術(shù)會(huì)議和 IEEE 匯刊上發(fā)表論文 200 余篇，七次獲得本領(lǐng)域頂級(jí)國(guó)際學(xué)術(shù)會(huì)議最佳論文獎(jiǎng)，谷歌學(xué)術(shù)引用三萬(wàn)多次，獲授權(quán)發(fā)明專利 143 項(xiàng)。獲國(guó)家技術(shù)發(fā)明二等獎(jiǎng) 1 項(xiàng)、國(guó)家科技進(jìn)步二等獎(jiǎng) 3 項(xiàng)。

參考鏈接： https://people.ucas.ac.cn/~cxq?language=en&utm

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.