无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

條條電路通羅馬:大模型可解釋性的唯一機制可能從一開始就不存在

0
分享至



長期以來,機制可解釋性(mechanistic interpretability)領域有一個幾乎從未被明說、卻被視為理所當然的前提:模型對于同一種任務的能力或表現,背后對應著一條唯一的、或近乎唯一的內部「電路」(circuit)。該領域的研究者們之所以要做「電路發現」(circuit discovery),是為了要把這些「特定的」電路找出來。
但一篇被 ICML 2026 接收的新論文給出了一個讓人不太舒服的答案:「唯一電路」可能從一開始就不存在。 同一個任務,可以由許多結構上幾乎完全不重疊、卻有著同樣高任務能力、稀疏、完備的電路獨立完成。論文把這個被長期默認的前提命名為「功能各向異性假說」(Functional Anisotropy Hypothesis),并從實驗與理論兩種路徑,系統性地把它推翻了。

一個被默認了很久,卻從未被言明的假設

近幾年,circuit 與 sheaf 發現(Circuit and Sheaf Discovery,簡稱 CSD)成了機制可解釋性(Mechanistic Interpretability)里最熱門的方向之一。它的目標很直接:把大模型這個「黑盒」打開,找出模型在表現出某種能力時,內部到底是哪些組件(注意力頭、MLP)以及它們之間的哪些連接(作為殘差流信息傳遞通道)在真正起作用。

這里有兩個相關但不完全相同的概念。circuit 指的是在干預下因果相關的計算子圖;而 DiscoGP 提出的 sheaf,要求更嚴格:它不僅要因果相關,還必須能在獨立運行(被剪枝的邊只能傳遞被全部置零的激活值)時獨立支撐起任務表現。

本文主要圍繞 sheaf 展開,但結論對 circuit 同樣成立。無論是哪一種,幾乎所有已發表的 CSD 工作都隱式地傳達著同一個愿景:每一個能力都對應著一個在結構上被特化的、唯一的內部機制。



  • 論文標題:All Circuits Lead to Rome: Rethinking Functional Anisotropy in Circuit and Sheaf Discovery for LLMs
  • 作者:Xi Chen*, Mingyu Jin*, Jingcheng Niu*, Yutong Yin, Jinman Zhao, Bangwei Guo, Dimitris N. Metaxas, Zhaoran Wang, Yutao Yue?, Gerald Penn?(* 共同一作,?通訊作者)
  • 機構:多倫多大學、香港科技大學(廣州)、羅格斯大學、達姆施塔特工業大學、西北大學
  • 會議:ICML 2026(韓國,首爾)
  • 論文:https://openreview.net/forum?id=3uC9teMlUt
  • 代碼:https://github.com/TonyXiChen/OASR

這篇論文把這個假設稱為功能各向異性假說。它聽上去合理,也確實主導了整個領域的評測范式:基于 Tracr 的合成基準,用「發現的 circuit 與預設的 ground-truth 機制有多吻合」來打分;像 MIB(Mechanistic Interpretability Benchmark, 一個機制可解釋性評測基準),則獎勵那些用最少組件達到高性能的 circuit。兩者都隱式地默認「同一模型內,一個任務對應一個機制解釋上的正確答案」,并默認進一步壓縮終將收斂到一個唯一的、不可或缺的核心機理。

但如果這個前提本身是錯的呢?



同一個任務,可以由幾乎不重疊的兩條電路完成

為了系統性地把「另一條路」找出來,作者提出了重疊感知的 sheaf 排斥(Overlap-Aware Sheaf Repulsion,OASR)。這個思路簡單且優雅。

作為 CSD 的框架基底,DiscoGP 把 sheaf 發現通過 Gumbel-Sigmoid 建模成一個可微的「選邊」問題:給每條邊一個可學習的 logit,再在稀疏、任務性能、完備三個目標下通過 STE(Straight-Through Estimator) 優化一個二值掩碼。



在經典的間接賓語識別(IOI) 任務上,作者用這個方法找到了兩條 sheaf:A 和 B。結果如下表,兩者都在 IOI 上達到 100% 準確率,在完備性準確率、邊密度等標準指標上也旗鼓相當。按照現有的一切評判標準,A 和 B 都是「好 sheaf」,都具備充分的解釋力。



但真正驚人的是它們的重疊部分:交集只有 96 條邊,并集卻有 2351 條,交并比(IoU)僅為 4.1%,已經逼近在 DAG (有向無環圖)子圖限制下隨機選邊所能產生的重合度。

換句話說,兩條幾乎完全不同的 sheaf,支撐起了同一個任務、同樣的性能。這直接與功能各向異性假說相抵觸。

作者進一步排除了「這只是表面差異」的可能:通過逐層分析兩條 sheaf 的連邊交集,可以看到它們在中間層的邊分布有顯著不同。這不是簡單的重參數化或組件的換位,而是信息的流動與選取方式在層間的真正不同。



而且,這個現象不止 IOI 一個任務。作者在 BLiMP 的子任務:AGA、ANA、一系列 DNA 變體以及 Docstring 等常用基準上重復了同樣的流程,每個任務都能穩定地找到兩個任務性能相當,但 IoU 極低(普遍在 4%–11% 之間)的 sheaf。

電路越多,「共識」越少

對于一個模型,如果同一任務真有唯一的核心內部機制,那么直覺上,當我們發現的 sheaf 越來越多時,它們的交集應該逐漸收斂到那個核心。作者把這個直覺拿來做了實驗:對每個任務,通過 OASR 重復發現 20 次,看這 20 條 sheaf 的累計交集和累計并集如何演化。

結論恰恰相反。隨著 sheaf 數量增加,并集穩步增長,交集卻持續萎縮。在許多任務上,20 條 sheaf 的全局交集最后只剩下幾十條邊,對應的互 IoU 遠低于 1%(IOI 在 OASR 下僅為 0.15%)。而且,顯式地施加 OASR 這種重疊懲罰,會讓這個共享交集進一步縮小,同時幾乎不損失稀疏性和性能。這意味著:增加發現的 sheaf 數量,并不會讓它們收斂到一個共同的核心。更多的 sheaf,不會通向一個共識,它們只是揭示了更多互不相同、卻同樣可行的實現機制。

作者特別強調,這種「消失的交集」不能用隨機初始化的噪聲或發現過程的不穩定來解釋:在所有運行都產出高質量 sheaf 的前提下,交集結構依然極小,并且在顯式懲罰重疊時進一步收縮。



這不是某一種方法的「偏差」

一個自然的質疑是:會不會這只是 DiscoGP + OASR 這一種方法的特性?

作者把同樣的分析搬到了另外三種主流電路發現方法上:ACDC(啟發式的基于能力閾值的逐邊刪除),EAP(基于一階梯度歸因),Edge Pruning(EP)(基于梯度優化的剪枝)。盡管設計哲學迥異,三者都被默認是在「逼近那個唯一的解釋性子圖」。

結果,同樣的現象在每一種方法上都復現了:

  • ACDC 對遍歷順序敏感。注意力頭的索引本無語義優先級可言,但僅僅改變同一層內注意力頭的遍歷順序,在完全相同的閾值下,ACDC 就會給出結構差異巨大、IoU 遠離 1 的不同電路。
  • EAP 對任務無關信息敏感。在 IOI 里,把提示中的 John、Mary 換成 Alice、Bob,本應是完全等價的任務。但僅僅替換這些與任務無關的名字,EAP 找到的電路之間的 IoU 就會隨著保留邊數 k 系統性地下降:一個真正唯一、被特化的機制,本不該對這種表面改動如此敏感。
  • EP 與 DiscoGP 同源。當把 EP 原本的 KL 散度目標換成 DiscoGP 所用的任務特定損失后,EP 同樣表現出電路的高度不一致性。原本看似「穩定」的算法行為,其實來自于在輸出的整個詞表分布上做對齊所帶來的假象。

跨越這些方法論上的巨大差異,結論是一致的:功能各向異性的失效,不是 DiscoGP 一家的問題,而是貫穿主流 circuit 與 sheaf 發現范式的普遍現象。

當連「核心」也被證明可有可無:三條邊的故事

到這里,一個退而求其次的希望仍然存在:就算電路不唯一,會不會至少有一部分共享組件,構成一個跨所有電路都存在的「不可或缺的核心」?非唯一性也許只發生在外圍,而真正關鍵的計算,集中在一個緊湊、不可替代的子電路里。

為了檢驗這個更弱的假說,作者做了一件更極端的實驗:從多條獨立的由 DiscoGP + OASR 發現的 IOI 電路里反復取交集并測試這種交集作為 IOI 電路的性能。這些交集電路在不斷縮小的同時竟然依舊高度可用:縮到 11 條邊時仍能保持 90% 以上的準確率。再從這 11 條邊出發窮舉搜索,最終他們分離出了一個超稀疏的三條邊的 sheaf:在 zero ablation (零值激活干預) 條件下,僅靠這三條邊,IOI 準確率達到 86.7%。



這三條邊分別是:

  • e?:初始輸入 Embedding → 第 0 層的 MLP
  • e?:第 0 層的 MLP → 第 10 層第 7 個注意力頭的 V Node
  • e?:第 10 層第 7 個注意力頭 → 最終的殘差流表示 Hidden Representation

乍一看,這三條邊簡直就是「不可或缺的核心」,因為如果把它們從已發現的 IOI 電路中移除,平均準確率會從高位跌到 52.3%;

在發現過程中明令禁止使用它們,DiscoGP 甚至無法再找到達成足夠高任務性能的 sheaf。一切都指向:模型確實反復依賴這個收斂到的的核心機制。

然而,這個結論恰恰建立在一個被忽視的前提上:把 IOI 當成一個不可分割的整體任務。

當作者把 IOI 拆解成 ABBA 與 BABA 兩個子模板,并要求在「三條邊全部禁用」的約束下重新做 sheaf 發現時,模型依然能找到稀疏(邊密度低于 3.5%),高度可用的電路,于下表給出。



于是論文確立了「非不可或缺性」:每一條邊都能被某條替代 sheaf 繞開。那個看似堅不可摧的「三條邊核心」之所以顯得不可或缺,僅僅是因為 IOI 被當成了一個聚合任務。一旦把子任務拆開,核心的「必要性」就煙消云散了。

一個理論解釋:分布式稠密電路假說

如果非唯一性如此普遍,那它背后是否有更深的原因?這是論文的核心理論貢獻:分布式稠密電路假說(Distributive Dense Circuit Hypothesis)。作者證明:電路解釋在一般情況下本就是非唯一的,而且這種非唯一性不是偶然,而是高維表示中疊加(superposition)的直接后果。

該直覺的合理化可以由如下步驟得出:





這對可解釋性研究意味著什么

需要強調的是,這篇論文并沒有否定 CSD 的價值:它發現的機制依然是有意義的、因果相關的。它真正動搖的,是我們解讀這些機制的方式。一條被發現的電路,不應再被當作「那個支撐任務的機制」來宣稱;它只是一個更大的、由功能等價機制構成的空間里的一種實現而已。

那種樸素的還原論視角,即把一個任務的行為歸因于一個唯一、稀疏、不可或缺的子圖,已經不足以解釋觀察到的非唯一性。取而代之的,是一種更分布式的計算機制理解:任務行為,源自一群共存且部分冗余的稠密機制的共同作用。

「條條電路通羅馬」這一論文的標題,恰好是它最精煉的注腳。

更多實驗細節(各方法隨機性來源分析、節點級重疊、逐個 sheaf 的完整統計、各任務的計算圖可視化等)與完整證明,可參見原論文及附錄。

作者簡介

本文由陳熙、金明宇、牛靖程共同作為第一作者完成。陳熙本科畢業于多倫多大學,本科期間師從多倫多大學 Gerald Penn 教授,并將于今年 9 月入學香港中文大學(深圳),師從杜夢楠教授攻讀人工智能方向博士學位。金明宇為在讀博士生。牛靖程于 2025 年獲得多倫多大學計算機科學博士學位,博士導師為 Gerald Penn 教授。完成本工作期間,陳熙在香港科技大學(廣州)岳玉濤副教授課題組擔任研究助理。尹禹童為西北大學在讀博士生;汪昭然為西北大學副教授,同時隸屬于西北大學深度學習中心和優化與統計學習中心。尹禹童和汪昭然教授對本文的理論構建給予了大力支持。本工作重點研究的電路發現算法之一為 DiscoGP,牛靖程為 DiscoGP 的共同第一作者。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
飛機最后面倉位的空姐視角,難得一見

飛機最后面倉位的空姐視角,難得一見

微微熱評
2026-06-30 12:40:16
沒有公告,盧卡申科緊急訪華,普京有心無力,白俄只有中國能救?

沒有公告,盧卡申科緊急訪華,普京有心無力,白俄只有中國能救?

顧史
2026-06-30 02:21:37
堪稱吃絕戶!新婚一年離婚分割財產,上海男子分得女方6800多萬?

堪稱吃絕戶!新婚一年離婚分割財產,上海男子分得女方6800多萬?

火山詩話
2026-06-30 09:01:21
熱議德國爆冷:德國失去了祖傳風格,是“娘炮”在踢球

熱議德國爆冷:德國失去了祖傳風格,是“娘炮”在踢球

懂球帝
2026-06-30 09:45:08
可能扳倒內塔尼亞胡的人是誰?

可能扳倒內塔尼亞胡的人是誰?

環球時報國際
2026-06-30 16:01:46
海爾、美的、格力回應歐洲空調需求激增

海爾、美的、格力回應歐洲空調需求激增

中國能源網
2026-06-30 09:44:04
俄烏雙方傷亡近180萬人,多支俄軍慘被全殲并撤銷番號

俄烏雙方傷亡近180萬人,多支俄軍慘被全殲并撤銷番號

東方豪俠
2026-06-30 08:39:05
法拉利被當滑梯后續:家長只愿賠五百,警方介入,車主硬氣維權

法拉利被當滑梯后續:家長只愿賠五百,警方介入,車主硬氣維權

史料布籍
2026-06-29 18:20:42
人民日報披露案情,抓捕12人,坐實《四渡》被黑

人民日報披露案情,抓捕12人,坐實《四渡》被黑

光影新天地
2026-06-29 20:00:56
離譜!維也納鄰居互相舉報裝中國空調,一臺空調卷成政治矛盾

離譜!維也納鄰居互相舉報裝中國空調,一臺空調卷成政治矛盾

福建睿平
2026-06-30 07:38:35
雨,雨,雨!這“不懂事”的梅姑娘要鬧一個禮拜?上海人再摒一摒,下周有望出梅?

雨,雨,雨!這“不懂事”的梅姑娘要鬧一個禮拜?上海人再摒一摒,下周有望出梅?

新民晚報
2026-06-30 12:54:21
世界酒莊文化大會背后:郎酒從“術”到“道”的戰略升維

世界酒莊文化大會背后:郎酒從“術”到“道”的戰略升維

摩斯商業
2026-06-24 17:47:07
凌晨2時導彈雨傾瀉!伊朗實施大規模報復,美方連夜空襲回擊?

凌晨2時導彈雨傾瀉!伊朗實施大規模報復,美方連夜空襲回擊?

小樾說歷史
2026-06-29 13:08:29
豪賭100萬!前國腳批董路:足球小將拿的不是世界杯 只會消費孩子

豪賭100萬!前國腳批董路:足球小將拿的不是世界杯 只會消費孩子

念洲
2026-06-29 20:04:50
周光磊接受紀律審查和監察調查

周光磊接受紀律審查和監察調查

貴陽網
2026-06-30 10:11:00
無人機攻防正酣,烏克蘭打算收手?

無人機攻防正酣,烏克蘭打算收手?

新民晚報
2026-06-30 12:53:16
停更5年,西祠胡同宣布回歸!網友沸騰:一代人的青春要回來了

停更5年,西祠胡同宣布回歸!網友沸騰:一代人的青春要回來了

魯中晨報
2026-06-30 13:18:07
姜萍再登熱搜!漣水企業家再訪姜萍家,網傳其已在蘇州某高校就讀

姜萍再登熱搜!漣水企業家再訪姜萍家,網傳其已在蘇州某高校就讀

火山詩話
2026-06-30 11:34:28
四渡赤水打的是國民黨,電影《四渡》居然要和日本IP作戰……

四渡赤水打的是國民黨,電影《四渡》居然要和日本IP作戰……

影視口碑榜
2026-06-29 13:38:35
巴拉圭淘汰德國后,巴拉圭知名女球迷里克爾梅直播中動情落淚

巴拉圭淘汰德國后,巴拉圭知名女球迷里克爾梅直播中動情落淚

懂球帝
2026-06-30 11:32:05
2026-06-30 17:23:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13398文章數 142684關注度
往期回顧 全部

科技要聞

iPhone18 Pro遭泄密!印度代工商惹禍

頭條要聞

日本裔藤森慶子將成秘魯總統 其父因貪腐趁訪日時流亡

頭條要聞

日本裔藤森慶子將成秘魯總統 其父因貪腐趁訪日時流亡

體育要聞

大熱倒灶壓力給到法國 王楚揭法國隊隱患

娛樂要聞

韓紅稱要退出公益,多位名人挽留

財經要聞

韓國萬億"芯"基建:存儲能否成AI時代油田

汽車要聞

誰懂啊家人們!爹味和班味一點都沒,這臺底盤最硬國產大獵裝太上頭!

態度原創

家居
游戲
藝術
本地
公開課

家居要聞

傳奇筑 日常詩

為了玩上《逆水寒:新世界》,就算送648我也愿意呀

藝術要聞

喬治·莫蘭迪簡潔的靜物畫,色彩看著太舒服了!

本地新聞

貴州小城的新目標:舉辦“村超”世界杯!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版