網易首頁 > 網易號 > 正文申請入駐

通過視覺安全提示與深度對齊實現大型視覺語言模型的安全對齊

2025-11-24 16:37:06　來源: 機器之心Pro

天津舉報

分享至

隨著大型視覺語言模型在多個下游任務的廣泛應用，其潛在的安全風險也開始快速顯露。研究表明，即便是最先進的大型視覺語言模型，也可能在面對帶有隱蔽的惡意意圖的圖像 — 文本輸入時給出違規甚至有害的響應，而現有的輕量級的安全對齊方案都具有一定的局限性。

在這一背景下，清華大學人工智能學院團隊提出了DAVSP（Deep Aligned Visual Safety Prompt）。該工作以Oral 形式被 AAAI 2026 錄用。

DAVSP 通過引入全新的視覺安全提示與深度對齊策略，在幾乎不破壞模型正常能力的前提下，顯著提升了大型視覺語言模型對惡意輸入的抵御效果，為大型視覺語言模型的安全對齊提供了新的方法。

論文鏈接：https://arxiv.org/pdf/2506.09353
Github 鏈接：https://github.com/zhangyitonggg/DAVSP

研究背景與問題

大型視覺語言模型（LVLMs）雖在多模態任務中表現亮眼，但其安全隱患正迅速顯現。攻擊者可以將惡意意圖隱蔽地嵌入圖像中，使模型在未察覺風險的情況下輸出有害內容。因此，如何增強 LVLMs 對多模態惡意輸入的安全對齊能力，成為當前亟需解決的問題。

如何提升 LVLMs 的安全性？一條常見并且輕量級的思路是對用戶請求添加安全提示（safety prompt）以引導模型遵循安全準則。文本領域已有通過在用戶文本前加入提示語來提高模型安全性的方法。但在多模態場景下，僅保護文本遠遠不夠，攻擊者完全可以繞過文本提示，將威脅藏在圖像中。

近期工作如 ESIII、UniGuard 嘗試在圖像上添加可訓練的視覺安全擾動，以提升模型拒絕惡意請求的能力，并與文本安全提示結合取得一定成效。然而，這類視覺安全擾動在真實應用中仍存在兩大問題：

安全性不足：例如在 FigStep 基準上，即便加入視覺安全擾動，模型仍有約 30% 的惡意輸入沒有被成功拒絕。
性能損害明顯：在 MME 基準上，某模型的得分從 1818 直接跌至 1403，意味著模型「更安全」的同時也顯著「變弱」。

上述缺陷背后的原因在該研究中被進一步剖析：

首先，直接在圖像像素上疊加噪聲會不可避免地擾亂圖像的關鍵視覺特征（如邊緣、紋理、色彩分布），削弱模型對圖像的感知，從而影響模型的性能。為減輕這一問題，擾動幅度不得不被嚴格限制，但這又極大壓縮了可用的優化空間，限制了視覺安全擾動發揮作用的能力。
其次，僅依據模型最終輸出是否安全來訓練擾動（比如讓模型盡量輸出預設的拒絕語）屬于淺層的對齊，模型可能學到的是表面模式而非真正的安全準則。因此經常出現模型回復以「抱歉」開頭，看似拒絕，但緊接著還是給出了有害內容的情況。圖 1 的案例直觀展示了這一「表面拒絕」現象：左側施加傳統安全擾動的模型先說「抱歉不能幫助」，卻隨后繼續提供了實行非法黑客行為的具體步驟。

針對以上挑戰，清華大學人工智能學院團隊在 AAAI 2026 上提出了全新的安全對齊方法DAVSP（Deep Aligned Visual Safety Prompt）。

該方法的核心思想是從視覺提示范式和訓練對齊機制兩方面同時創新，以克服以往方法的局限性。在保證模型對正常輸入性能幾乎不受影響的前提下，大幅提升模型對惡意多模態攻擊的抵御能力。下面我們詳細介紹 DAVSP 的方法原理和其兩項關鍵創新：視覺安全提示（Visual Safety Prompt）和深度對齊（Deep Alignment）。

方法與創新：深度對齊的視覺安全提示（DAVSP）

DAVSP 整體思路：作者重新審視了將安全提示引入視覺模態的范式，提出視覺安全提示（VSP）來取代傳統的圖像全局擾動，并設計了深度對齊（DA）的訓練策略讓模型從內部真正理解何為「不安全」輸入。下圖概覽了 DAVSP 的工作原理。

視覺安全提示

視覺安全提示（Visual Safety Prompt，VSP）是 DAVSP 提出的新型視覺提示范式。不同于以往直接在整幅圖像像素上加擾動的方法，VSP 選擇在輸入圖像周圍添加一圈額外的可訓練邊框，作為安全提示區域。這樣做有兩大好處：

保護原始視覺特征：由于提示信息只存在于圖像邊緣的新擴展區域，而不直接修改原圖的像素，視覺安全提示不會破壞原有圖像的關鍵細節。模型在處理時能夠較好地接收到原圖信息，從而保證對良性輸入的正常感知與理解不會因提示的加入而下降。實驗中也驗證了這一點：使用 DAVSP 后模型在多個基準上的各項性能幾乎與僅施加文本安全提示時相當，顯著少于于以往視覺安全擾動方法的性能損失。
擴大優化空間：相較于傳統像素級的視覺安全擾動（其擾動幅度常被嚴格限制在如 32/255 的極小范圍內），視覺安全提示通過引入額外的圖像邊界區域，可以被優化為任意像素值，大大拓寬了可學習參數的空間。實驗表明，在消除了這一擾動幅度限制后，在測試時能夠表現出更強有力的安全對齊能力。

此外，視覺安全提示作為一種「即插即用」的模塊具有實用優勢：只需在推理時將圖像加上優化得到的視覺安全提示，不需要改動模型結構，也不會帶來額外的計算開銷或顯著延遲。

深度對齊

有了合適的提示范式，還需要有效的訓練策略使視覺安全提示發揮作用。DAVSP 的第二項創新深度對齊（Deep Alignment）旨在深入模型內部，對其內部激活空間進行監督，挖掘并增強模型自身對「有害 / 無害」信息的區分能力。

研究人員注意到，大型視覺語言模型內部往往已經蘊含了一定的對有害意圖的「潛在辨別能力」—— 即惡意查詢和正常查詢在模型中的激活向量存在系統性差異。與其僅看最終輸出是否拒絕，不如利用模型內部表征來指導訓練，促使模型從內部真正認知到哪些輸入是不安全的。具體來說，作者提出了以下步驟：

構建有害向量：首先在模型內部選取一層（如解碼器的中間層），比較模型處理一組容易拒絕的惡意樣本與一組正常良性樣本時該層激活向量的差異。通過計算兩組樣本在該層最終一個輸入 token 的平均激活差，得到一個向量方向，稱為「有害向量」。直觀理解，這個向量代表了將模型內部表示從「良性」方向推向「惡意」方向的變化方向。
深度對齊訓練：有了有害向量，就可以在訓練視覺安全提示時引入一種基于內部表示的目標。具體做法是：讓帶有惡意意圖的輸入在該向量方向上的投影盡可能增加，而良性輸入的投影盡可能減少。也就是說，訓練過程中視覺提示會被不斷優化，促使模型對惡意查詢在激活向量上更偏向「有害」方向，從而模型更容易意識到「這是不好的請求」，進而在輸出層拒絕回答；相反，對正常輸入則壓低這種有害方向的激活，避免模型誤判正常請求為有害請求。

實驗結果

作者在多個基準上對 DAVSP 進行了全面評估，結果顯示該方法在抵御惡意攻擊和保持模型實用性兩方面均顯著優于現有方案。

惡意輸入抵御能力：在兩個具有代表性的惡意多模態數據集上，DAVSP 取得了遠高于現有同類方法的拒絕率（RSR，Resist Success Rate）。

良性任務性能：與提升安全性相對應，DAVSP 對模型正常能力的影響卻很微小。DAVSP 在多個基準上的實用性評分與僅施加文本安全提示時持平，且優于其他視覺安全擾動的方法。

跨模型泛化：令人驚喜的是，DAVSP 訓練得到的視覺安全提示具有一定的泛化能力，可以在不同模型之間遷移使用。

關鍵組件作用：通過消融實驗，作者驗證了 DAVSP 的兩大創新 —— 視覺安全提示和深度對齊 —— 缺一不可。移除深度對齊、僅對輸出進行監督時，模型對惡意攻擊的抵抗成功率大幅下降。同樣地，將視覺安全提示替換回原始的像素級的視覺安全擾動后，會造成安全性和實用性同時退化。

團隊介紹

本研究由清華大學人工智能學院團隊完成。通訊作者為清華大學人工智能學院李佳助理教授，主要研究方向包括人工智能和軟件工程的交叉賦能、AI for SE、SE for AI 等。第一作者張奕彤將于明年正式入學清華大學人工智能學院攻讀博士學位。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.