網易首頁 > 網易號 > 正文 申請入駐

NeurIPS 2025 | DePass:通過單次前向傳播分解實現統一特征歸因

0
分享至



共同一作:洪翔宇,清華大學電子系大四本科生,曾獲清華大學蔣南翔獎學金等,曾在NeurIPS,EMNLP,NAACL等頂級會議上發表論文。姜澈,清華大學電子系博士三年級在讀,主要研究方向為LLM Interpretebility,LLM Agent,曾在NeurIPS,ICML,EMNLP,NAACL等頂級會議上發表論文。

隨著大型語言模型在各類任務中展現出卓越的生成與推理能力,如何將模型輸出精確地追溯到其內部計算過程,已成為 AI 可解釋性研究的重要方向。然而,現有方法往往計算代價高昂、難以揭示中間層的信息流動;同時,不同層面的歸因(如 token、模型組件或表示子空間)通常依賴各自獨立的特定方法,缺乏統一且高效的分析框架。

針對這一問題,來自清華、上海 AI Lab 的研究團隊提出了全新的統一特征歸因框架——DePass(Decomposed Forward Pass)。

該方法通過將前向傳播中的每個隱藏狀態分解為多個可加子狀態,并在固定注意力權重與 MLP 激活的情況下對其逐層傳播,實現了對 Transformer 內部信息流的無損分解與精確歸因。借助 DePass,研究者能夠在輸入 token、注意力頭、神經元乃至殘差流子空間等多個層面上進行歸因分析,為機制可解釋性研究提供了統一而細粒度的新視角。



  • 論文標題:DePass: Unified Feature Attributing by Simple Decomposed Forward Pass
  • 論文鏈接: https://arxiv.org/pdf/2510.18462
  • 代碼鏈接: https://github.com/TsinghuaC3I/Decomposed-Forward-Pass

問題分析:

現有歸因方法的局限性

現有的歸因方法大致可以分為以下幾類:

  • 基于噪聲消融和激活修補的方法:這些方法通過直接對模型的所有模塊施加噪聲或修補激活值來分析模型行為,但計算成本高昂,且難以洞察中間信息流。
  • 基于梯度的歸因方法:這類方法在理論上面臨挑戰,難以提供細粒度的解釋。
  • 基于模型近似或抽象的方法:雖然部分方法能夠與人類認知對齊,但通常無法達到細粒度的組件級別(如神經元或注意力頭),且非保守的近似可能會損害歸因的可信度。

DePass:

一種全新的歸因框架



實驗驗證:

DePass 的有效性

DePass 提供了一個統一的歸因框架,支持在輸入 token、注意力頭、神經元以及殘差流子空間等多個層面進行一致歸因,無需修改模型結構或依賴任務特定近似,并可自然銜接人類推理及稀疏字典學習(如 SAE)等方法。研究團隊在 token 級、模型組件級和子空間級歸因任務上驗證了 DePass 的有效性:

Token-Level DePass——輸出歸因到輸入:精準識別驅動預測的核心證據

我們首先在輸出到輸入 token 的歸因任務上驗證了 DePass 的表現,目標是評估每個輸入 token 對模型最終輸出的實際貢獻。

在「Disrupt-top」實驗中,移除 DePass 判定最關鍵的 tokens 會導致模型輸出概率急劇下降,表明其捕捉到了真正驅動預測的核心證據;而在「Recover-top」實驗中,DePass 保留的極少量 tokens 依然能高度恢復模型判斷。這表明 DePass 能夠更忠實地刻畫模型內部的信息流動與輸入貢獻關系,實現高可信度的 token 級歸因分析。



Token-Level DePass——子空間歸因到輸入:追蹤子空間信號的 token 來源

DePass 不僅能在 token 層面追蹤預測依據,還能精準定位哪些輸入 token 激活了模型中「特定方向/特定語義子空間」的信號(例如「truthfulness」方向),從而識別出影響模型判斷的關鍵來源(如誤導性信息),并顯著提升模型的可控性與可解釋性。

在事實性任務中,團隊利用 DePass 將「虛假信息子空間」拆解后,進一步將其激活分配到每個輸入 token。歸因結果清晰揭示了哪些詞觸發了模型的錯誤方向。基于這些 token 進行定向遮罩后,模型在 CounterFact 上的事實性準確率從約10% → 40%+大幅提升,顯著優于現有 probe-based masking 方法。



Model-Component-Level DePass——模型組件級歸因:觀察注意力頭與 MLP 神經元的實際功能

DePass 能直接量化每個注意力頭與 MLP 神經元對預測的真實貢獻,在遮罩實驗中顯著優于梯度、激活等傳統重要性指標。

當遮罩 DePass 判定的「重要組件」(Top-k Masking)時,模型準確率下降更快;當僅保留「最不重要組件」(Bottom-k Masking)時,模型性能保持得更好。這說明 DePass 識別的組件重要性具備更高的敏感性、完備性、因果性,在 IOI 與 CounterFact 等任務上均顯著超越 AtP、Norm 等主流歸因指標。



Subspace-Level DePass——子空間級歸因

DePass 還可以用于研究隱狀態中不同子空間之間的相互作用,以及這些子空間對最終輸出的影響。我們以語言子空間(language subspace)為例進行分析。

我們訓練了一個語言分類器,并將其權重方向作為語言子空間的基向量。隨后,將中間層的隱狀態分別投影到語言子空間與其正交語義子空間中;兩部分隱狀態在網絡中分別獨立傳播至最終層,并通過 LM Head 解碼,以觀察其對應輸出。

  • 語言子空間:經 t-SNE 顯示形成清晰的語言聚類(如英文/法文/德文),體現語言特征集中分布。
  • 語義子空間:獨立解碼結果跨語言一致,例如無論輸入語言為何,都會生成相同的事實答案(如「Dutch」)。

這一結果說明 DePass 能忠實保留并傳播子空間的功能屬性,為跨語言解釋和語義分解提供了全新視角。



(左)對 token 在語言子空間上的投影進行 t-SNE 可視化。(右)針對不同多語言提示語,從語言子空間與語義子空間中解碼得到的前五個 token

總結

DePass 作為一種基于分解前向傳播的 Transformer 解釋框架,兼具簡潔性與高效性。通過凍結并分配注意力得分和 MLP 激活,DePass 實現了無損的加性分解,可無縫適配各種 Transformer 架構。

實驗結果表明,DePass 在多層次粒度的歸因分析中具有更高的忠實性。我們期望 DePass 能成為機制可解釋性研究中的通用工具,推動社區在更廣泛的任務與模型上探索其潛力與應用。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
將對決趙心童!39歲丁俊暉爆發:10-5淘汰世界第25 連續2年進16強

將對決趙心童!39歲丁俊暉爆發:10-5淘汰世界第25 連續2年進16強

風過鄉
2026-04-20 19:41:28
美方扣押一艘中國駛來伊朗貨船,外交部:對美方強制截停有關船只表示關切

美方扣押一艘中國駛來伊朗貨船,外交部:對美方強制截停有關船只表示關切

澎湃新聞
2026-04-20 15:42:26
你怕了?日艦闖臺海48小時后,中國軍艦開到家門口!日本網友崩了

你怕了?日艦闖臺海48小時后,中國軍艦開到家門口!日本網友崩了

史行途
2026-04-20 22:12:22
人心散了!34分慘敗引發內訌,趙繼偉發社媒表達不滿,怒噴隊友

人心散了!34分慘敗引發內訌,趙繼偉發社媒表達不滿,怒噴隊友

南海浪花
2026-04-20 23:37:05
絕不談判!永久關閉豁免窗口!中國打響光刻機反擊戰

絕不談判!永久關閉豁免窗口!中國打響光刻機反擊戰

阿七說史
2026-04-20 15:10:26
爭議!趙繼偉慘敗夜發“呵呵” 自責“想找地縫鉆進去”引熱議

爭議!趙繼偉慘敗夜發“呵呵” 自責“想找地縫鉆進去”引熱議

醉臥浮生
2026-04-20 22:28:30
罕見!7.7級地震把半個日本都震醒了,日網民:快請發達中國救我

罕見!7.7級地震把半個日本都震醒了,日網民:快請發達中國救我

社會日日鮮
2026-04-21 05:24:33
何潤東亮相蘇超僅3天,政治立場被扒底朝天,原來我們都被騙了

何潤東亮相蘇超僅3天,政治立場被扒底朝天,原來我們都被騙了

天馬幸福的人生
2026-04-21 02:08:10
撤下主力放棄比賽,替補卻反敗為勝!哈登都看傻了

撤下主力放棄比賽,替補卻反敗為勝!哈登都看傻了

林子說事
2026-04-21 02:26:26
罰15億!拼多多一員工故意關門,對抗調查,導致執法人員手指骨折

罰15億!拼多多一員工故意關門,對抗調查,導致執法人員手指骨折

魔都姐姐雜談
2026-04-19 08:03:27
全場嘩然!29歲女子在相親舞臺稱“娶我一定讓你爽”,王婆也懵了

全場嘩然!29歲女子在相親舞臺稱“娶我一定讓你爽”,王婆也懵了

火山詩話
2026-04-19 06:42:57
孕晚期女子征婚:接受腹中胎兒,不要彩禮,評論區一點面子都不給

孕晚期女子征婚:接受腹中胎兒,不要彩禮,評論區一點面子都不給

譚談社會
2026-04-21 00:12:25
胡歌當年居然沒有和左一這個美女在一起!太可惜了吧!

胡歌當年居然沒有和左一這個美女在一起!太可惜了吧!

小椰的奶奶
2026-04-20 02:15:20
當年張柏芝抱著lucas后面居然是大s,到現在才發現,真美好

當年張柏芝抱著lucas后面居然是大s,到現在才發現,真美好

TVB的四小花
2026-04-21 00:03:30
美專家:美國在伊朗正面臨四個大問題

美專家:美國在伊朗正面臨四個大問題

環球時報國際
2026-04-21 00:16:12
臺灣回歸新方案浮出水面:國民黨若同意,解放軍或無需動武

臺灣回歸新方案浮出水面:國民黨若同意,解放軍或無需動武

老范談史
2026-04-20 22:13:51
被蘋果、華為干倒的諾基亞,又殺回來了!

被蘋果、華為干倒的諾基亞,又殺回來了!

大佬灼見
2026-04-19 10:28:53
日本將地震震級調整至7.5級

日本將地震震級調整至7.5級

界面新聞
2026-04-20 16:30:33
金像獎成功收官:四大尷尬,三大暖心,兩個意外發現,謝霆鋒贏麻

金像獎成功收官:四大尷尬,三大暖心,兩個意外發現,謝霆鋒贏麻

八斗小先生
2026-04-20 16:37:47
國際奧委會明確表態,對2036年奧運會的申辦情況很是失望

國際奧委會明確表態,對2036年奧運會的申辦情況很是失望

安安說
2026-04-20 11:09:20
2026-04-21 08:15:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12813文章數 142633關注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

特朗普兩天三次反轉 伊朗學習特朗普玩起"極限施壓"

頭條要聞

特朗普兩天三次反轉 伊朗學習特朗普玩起"極限施壓"

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經要聞

利潤暴跌7成,字節到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態度原創

藝術
時尚
旅游
親子
軍事航空

藝術要聞

春天最適合小住三五天的地方

春天衣服不用準備太多!這幾大單品提前備好,百搭實用又不過時

旅游要聞

閻錫山故居:一座都督府,半部民國史

親子要聞

大體重孩子家長要關注孩子運動足部壓力是否正常

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個洞

無障礙瀏覽 進入關懷版