網易首頁 > 網易號 > 正文申請入駐

ICLR 2026 | ProSafePrune：一剪見效，告別大模型過度防御

2026-04-22 12:26:18　來源: 機器之心Pro

河北舉報

分享至

一作：陳紫軍，合肥工業大學博士生，研究方向為大模型概率可靠性以及可解釋性，曾在 ICLR，AAAI, COLING 等頂級會議上發表論文。

通訊作者：胡文波，合肥工業大學計算機與信息學院副教授，黃山青年學者。主要研究方向為機器學習，包括貝葉斯概率機器學習、人工智能安全以及科學人工智能。

當你問 AI 「如何關掉房間的燈（how to kill the lights）」，卻被冰冷拒絕「無法提供相關幫助」；當你想探討「黑客技術的正向應用」，得到的卻是「拒絕涉及非法活動」的機械回應 —— 你遇到的正是大語言模型（LLMs）的「過度拒絕」（over-refusal）痛點。

為了平衡安全與實用性，現有對齊技術往往強化模型的拒絕機制，卻讓模型變得「草木皆兵」，把含表面風險詞匯但語義無害的指令誤判為有害。這不僅嚴重影響用戶體驗，還會導致「對齊稅」（alignment tax），讓模型在通用任務上的性能大打折扣。

針對這一行業難題，合肥工業大學與科大訊飛聯合團隊提出了全新的低秩參數修剪框架ProSafePrune，該工作已被國際頂會 ICLR 2026 錄用。通過精準定位模型內部的認知偏差并針對性修剪，ProSafePrune 在大幅降低過度拒絕率的同時，不僅不損害模型的安全防御能力，還能輕微提升通用任務性能，為 LLM 的安全部署提供了全新思路。

論文鏈接：https://openreview.net/forum?id=QkHKaPfRAB
Github 鏈接：https://github.com/hfutml/PROSAFEPRUNE

研究背景：

過度拒絕的核心痛點與現有方案局限

大語言模型在內容創作、智能客服等領域的廣泛應用，讓安全對齊成為必答題。主流的 SFT（監督微調）、RLHF（基于人類反饋的強化學習）等技術，雖能有效抑制惡意輸出，卻容易陷入「過度防御」的困境。

這種「過度拒絕」本質上是模型在特征層面的認知偏差：LLM 的隱藏狀態會自然編碼輸入的安全屬性，但偽有害指令（語義無害但含風險詞匯）會同時投影到有害子空間和無害子空間。過度的安全微調會放大這種投影中的有害成分，壓制無害成分，導致模型內部決策邊界偏移，最終誤判拒絕。

更棘手的是，這種認知偏差還會引發「對齊稅」：模型為了追求絕對安全變得過度謹慎，通用推理、知識問答等核心能力會隨之下降。

現有緩解方案存在明顯短板：

訓練 - based 方法：需要額外標注數據和大量計算資源，成本高且實用性有限；
訓練 - free 方法：雖無需參數更新，但多在推理時干預，會引入額外延遲，且需要固定干預向量，不方便部署。

找到一種輕量化、能直擊問題根源的解決方案，成為 LLM 安全部署的關鍵。

核心發現：

過度拒絕的根源是「過度有害編碼」

團隊通過探針實驗揭示：過度拒絕的本質是模型對偽有害指令的「過度有害編碼」（over-harmful encoding）。

研究人員在 LLaMA-2-7B 和 LLaMA-3-8B 上的實驗發現：偽有害指令在模型早期層會因詞匯相似性呈現強有害信號，中間層隨著全局語義浮現，有害信號會減弱，但 LLaMA-2-7B 的深層卻不能有效削弱有害特征，這與其 38.5% 的高誤拒率高度相關（LLaMA-3-8B 誤拒率僅 10.5%）。

這種「過度有害編碼」不僅導致了過度拒絕，還使得模型過度謹慎，導致通用任務性能下降。這一發現為解決方案指明了方向：直接在參數空間中移除這些冗余的低秩有害成分，就能在不影響安全防御的前提下，緩解過度拒絕并降低對齊稅。

ProSafePrune：

三大核心設計，精準修剪認知偏差

ProSafePrune 的核心思路是：通過子空間投影分離偽有害特征與真正有害特征，在模型最具辨別力的中間層，針對性修剪放大偽有害性的低秩參數方向。整個框架無需額外訓練，推理時無任何開銷，實現了「一次修剪，永久生效」。

1. 子空間提取：用 SVD 精準分離特征

團隊采用奇異值分解（SVD），從安全、有害、偽有害三類指令的模型輸出中，分別提取對應的子空間。這種分解能在最小化信息損失的前提下，捕捉最具判別力的特征方向，確保分離出的子空間精準可靠。

具體來說，針對模型第 l 層的每個子模塊（Q、K、V、O、FFN），收集三類指令的輸出激活并池化為向量矩陣，通過 SVD 分解得到：

2. 重疊算子：精準定位「過度有害」成分

為了避免修剪時誤刪真正的安全防御成分，團隊設計了獨特的重疊算子：

該算子通過三步精準篩選：

這種設計能精準定位需要修剪的「過度有害」成分，確保修剪后模型仍能有效拒絕真正的惡意指令。

3. 中間層修剪：平衡效果與性能

通過 t-SNE 可視化和輪廓系數（silhouette score）分析，團隊發現模型的中間層具有最強的特征分離能力，是安全相關特征判別最關鍵的區域。修剪這些層既能高效緩解過度拒絕，又能最小化對模型整體性能的影響。

最終修剪操作通過以下公式實現：

其中 λ∈[0,1] 控制修剪強度，通過調節 λ 可平衡過度拒絕緩解效果與安全性能。

實驗驗證：

全方位碾壓 SOTA，安全與實用雙提升

團隊在 LLaMA-2/3、Qwen2.5/3 等多個系列模型（7B-70B 參數）上進行了全面評估，涵蓋過度拒絕、安全防御、通用任務三大維度，結果顯示 ProSafePrune 表現突出。

1. 過度拒絕顯著緩解

在 OR-Bench、PHTest 等四大偽有害指令基準上，ProSafePrune 的合規率（C.R.）大幅提升。以 LLaMA-2-7B 為例，合規率從默認的 11.0% 提升至 73.0%，遠超 Self-CD（43.5%）、Surgical（57.5%）等 SOTA 方法，意味著更多偽有害指令能被正確響應。從內部表征的角度，可以明顯觀察到經過裁剪，后續層過度的有害性編碼被有效緩解。

2. 安全防御能力不降級

在 AdvBench、JailbreakBench 等惡意指令基準上，ProSafePrune 的安全分數（S.S.）與原始模型相比下降微小，證明修剪僅移除「過度有害」成分，不會過度損害模型對真正惡意指令的拒絕能力。

3. 通用任務性能略微提升

內部過度有害編碼與對齊稅具有關聯性，ProSafePrune 還能輕微提升模型的通用能力：LLaMA-2-7B 在 MMLU 上的得分從 37.1 提升至 39.6，CommonQA 從 49.0 提升至 53.0，GSM8K 從 23.0 提升至 25.5。

4. 消融實驗驗證關鍵設計

單獨修剪單個子模塊（如 V.proj）的合規率僅 30.5%，遠低于修剪整個層的 73.0%，證明過度拒絕源于子模塊間的交互；
若移除偽有害子空間投影，雖能進一步提升合規率，但安全分數會從 96% 暴跌至 75% 左右，驗證了重疊算子的精準篩選作用；
修剪中間層的效果遠超底層和頂層，證實了中間層在安全特征判別中的核心作用。

方法優勢：

部署友好，泛化性強

相比現有方案，ProSafePrune 具有三大實用優勢：

1. 無推理開銷：修剪后生成獨立模型，無需額外存儲干預向量或推理時調整，部署成本低；

2. 推理速度快：在 OR-Bench-Hard-1K 測試中，ProSafePrune 僅需 16 分鐘，遠快于 Self-CD（43 分鐘）、SCAN（20 分鐘）；

3. 泛化性強：在 32B 參數的 Qwen3 和 70B 參數的 LLaMA-2 上仍有效，LLaMA-2-70B 的 OR-Bench 合規率從 6.5 提升至 68.5。

總結與展望

ProSafePrune 的核心貢獻在于從表征空間角度揭示了過度拒絕的根源，并提出了參數層面的根治方案。通過子空間投影與低秩修剪的結合，該方法實現了「安全防御不降級、過度拒絕大緩解、通用性能小提升」的三重目標，為 LLM 的安全對齊提供了新范式。

隨著 LLM 在各行各業的深度滲透，安全與實用的平衡成為核心競爭力。ProSafePrune 的開源發布，將為開發者提供高效的解決方案，推動 AI 技術更安全、更友好地落地。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.