網易首頁 > 網易號 > 正文申請入駐

東北大學與麻省理工學院聯手破解AI"黑箱"

2026-04-17 23:28:18　來源: 科技行者

天津舉報

分享至

這項由美國東北大學與麻省理工學院聯合開展的研究，于2026年3月28日發布于預印本平臺arXiv，論文編號為arXiv:2603.27070v1，研究方向歸屬于計算機視覺與多模態人工智能領域。感興趣的讀者可以通過該編號在arXiv平臺檢索完整論文。

**一被一堵黑墻擋住的問題**

現在的AI已經能看圖、能讀文字、能回答"這張照片里有幾只貓"這樣的問題，甚至能解讀醫學影像、分析衛星圖片。這類能同時處理圖片和文字的AI系統，學術上叫做"視覺-語言模型"（Vision-Language Model，簡稱VLM）。它們就像一個同時能聽、能看、又能說話的助手，表現相當出色。

然而有一個令人困惑的問題一直懸而未解：這個助手究竟是怎么在大腦里把看到的圖和讀到的字融合在一起、最終給出答案的？換句話說，它的內部運作究竟是怎樣的？

這個問題不是純粹的學術好奇心。如果我們不知道AI是如何"思考"的，就很難解釋它為什么有時候會出錯，也很難讓它變得更可靠、更安全。就像你買了一臺神奇的機器，它大多數時候都工作得很好，但偶爾會莫名其妙地出故障，而你完全不知道里面的線路是怎么連的——這種感覺令人非常不安。

以往的研究者們嘗試過各種方法來"看清楚"這臺機器的內部。他們會觀察AI在處理圖片時，哪些像素區域受到了"關注"（這叫做注意力圖）；或者追蹤哪個輸入詞對最終輸出影響最大（這叫做歸因分析）。這些方法有點像只盯著某一顆螺絲釘來理解整臺發動機，確實能發現一些局部信息，但對于理解整體的協同運作遠遠不夠。

東北大學與麻省理工學院的研究團隊提出了一個全新的視角——不再盯著某顆"螺絲釘"（單個神經元或單個詞的影響），而是觀察整臺發動機里所有零件之間的協作關系網絡。他們把這個方法叫做"神經拓撲"（Neural Topology）分析。

**二給AI大腦畫一張"關系圖"**

研究團隊提出的核心想法可以用一個生活場景來理解。假設一家公司里有幾千名員工，你想了解這家公司的運作模式。你可以選擇研究每個員工的個人簡歷（單神經元分析），但這效率很低，而且看不到全貌。更有效的方法是觀察他們之間的協作關系：誰經常和誰一起工作？誰是核心樞紐？哪些部門之間聯系緊密？誰被孤立？這種關系網絡圖，能讓你一眼看出公司的真實權力結構和運作方式，遠比逐個讀簡歷有效得多。

研究團隊對AI的每一個處理層都畫了這樣一張"關系圖"。具體來說，當一張圖片配上一個問題被送入AI模型時，AI內部會逐層處理這些信息，每一層都有數千個處理單元（即神經元）在工作。研究團隊記錄了每一層里所有神經元的響應數據，然后計算任意兩個神經元之間的"協同程度"——簡單說就是，當一個神經元活躍時，另一個神經元是否也傾向于活躍？這種協同程度用皮爾遜相關系數來量化，得到的結果就是一張以神經元為節點、以協同強度為邊權重的關系圖，稱為"神經元相關性圖"（Neuron Correlation Graph）。

每一層都有這樣一張圖，整個模型從輸入到輸出的所有層組合在一起，就形成了AI處理信息時的"神經拓撲"全景。這個視角既比單個神經元的分析豐富得多，又比試圖追蹤AI內部每一條信號通路（即"電路級分析"）更加可操作。

為了讓分析更精細，研究團隊還對同一個處理層構建了三種不同的關系圖：一種基于圖片對應的神經元響應（視覺拓撲），一種基于文字對應的神經元響應（文本拓撲），一種基于圖片和文字合并后的整體響應（多模態拓撲）。這三種圖之間的差異，就能揭示AI是如何分別處理視覺信息和語言信息、以及如何將二者融合的。

**三用圖網絡讀懂關系圖**

有了這些關系圖，下一步是從中提取有用的信息。研究團隊選擇了一種叫做"圖卷積網絡"（Graph Convolutional Network，GCN）的技術來做這件事。

可以這樣理解：一張關系圖本身是一堆數字，需要一個工具把它"讀懂"并壓縮成一個緊湊的數字摘要。GCN就是這個讀圖工具。它會逐個神經元地考察每個節點與其鄰居節點之間的關系，從而提煉出整張圖的結構特征。

關鍵的設計細節在于：GCN并不直接讀取每個神經元的激活數值（即那個神經元"有多興奮"），而是只看神經元之間的相關結構。每個神經元被賦予一個獨特的"身份標簽"（one-hot編碼），GCN的任務是通過關系圖的連接結構來理解這些身份之間的組織方式。這樣做的好處是，分析結論來自于神經元之間的關系模式，而不是某個神經元單獨有多強或多弱。

最后，研究團隊用兩種方式把整張圖的特征匯總成一個固定長度的數字向量：一種是對所有節點特征求平均（捕捉整體傾向），另一種是取所有節點特征的最大值（保留最突出的結構信號）。把這兩種匯總方式拼接在一起，就得到了每一層的"結構指紋"。有了這個指紋，就可以拿它去預測模型的行為，或者研究其內部組織方式。

為了處理計算上的挑戰，研究團隊沒有保留所有神經元之間的完整關系（這會產生數以千萬計的邊，計算上不可行），而是只保留相關性最強的一小部分邊。實驗表明，保留1%到20%的最強邊時，預測效果基本穩定，這說明最有用的結構信號確實集中在最強的那些協作關系中。

**四關系圖真的能預測AI的行為嗎**

研究團隊拿這套方法做的第一個測試，是看它能否預測AI模型對各類任務的回答是否正確。被測試的三個AI模型分別是InternVL3-1B、Qwen2.5-VL-3B和LLaVA-1.5-7B，涵蓋了從小型到中型的常見視覺-語言模型。

測試任務涵蓋了多個方向。CLEVR數據集用來測數數能力，比如讓AI數圖片里有幾個物體；TDIUC數據集測語義理解，比如識別圖片里的運動類型或顏色；MMMU和MMMU-Pro測試跨學科的綜合推理能力；BLINK和EMMA則是更具挑戰性的視覺感知和多模態推理任務。

每個任務的測試方式是這樣的：從AI模型里提取每一層的關系圖，用GCN讀取結構指紋，然后訓練一個簡單的"探針"分類器來預測AI最終會給出正確還是錯誤的答案。同時，用一個最簡單的線性分類器作為對照組。

結果顯示，基于關系圖的GCN探針在大多數任務和模型上都優于線性分類器。最明顯的提升出現在CLEVR數據集上：GCN探針相比線性分類器，在LLaVA上提高了約7.7個百分點，在Qwen2.5-VL上提高了約4.3個百分點，在InternVL3上提高了約1.3個百分點。TDIUC上的表現同樣出色，InternVL3的GCN探針準確率高達96.5%，Qwen2.5-VL達到97.6%，LLaVA達到95.4%，均高于各自的線性基線。

不只是分類任務，數數這件事也被測試了回歸版本——即預測AI數出來的具體數字是多少。結果同樣令人信服：GCN探針在均方誤差（MSE，越低越好）、R?（越高越好）和皮爾遜相關系數（越高越好）三項指標上均優于線性基線。以InternVL3為例，線性探針的MSE為0.020，GCN探針降低到0.007；R?從0.996提升到0.999。這說明關系圖里包含的不只是"對不對"的粗略信號，而是能精確反映數量判斷的細粒度信息。

對于更難的多模態推理任務（如MMMU、BLINK、EMMA），GCN探針的優勢相對縮小，表現更加參差不齊。這說明神經拓撲對于那些需要AI將視覺和語言緊密配合的接地氣任務特別有效，而對于那些更依賴抽象推理的任務，其優勢則相對有限。

研究團隊還按照層的深度分析了探針表現。發現不同模型的最優層深度不同：Qwen2.5-VL在第27層附近的探針準確率最高，隨后略有下降；而LLaVA和InternVL3的準確率曲線則比較平坦或逐漸下降。這說明不同架構的AI在哪一層"積累"了最多的任務相關信息是不同的。

**五能抓住"說謊"的AI嗎**

現在的視覺-語言AI有一個著名的問題：它有時會"幻覺"，也就是信口開河地描述圖片里根本不存在的東西。研究團隊把神經拓撲用于檢測這種幻覺行為。

使用的數據集叫做MHaluBench，包含2110個樣本，其中一半是AI對圖片的正常回答，另一半是AI產生幻覺的回答。任務是訓練一個分類器，僅憑從AI內部讀取的關系圖結構，判斷AI的某個回答是否屬于幻覺。

作為對照，研究團隊還設計了兩個只看文字的簡單基線：一種用Word2Vec提取問題和回答文本的平均詞向量（即文字的"平均語義"），另一種直接用文本長度作為特征。這兩種基線代表了"只看表面文字特征能否判斷幻覺"。

結果明確：GCN探針在三個模型上都大幅優于文字基線。具體來說，Qwen2.5-VL-3B的GCN探針準確率高達91.0%，LLaVA-1.5-7B達到90.8%，InternVL3-1B達到78.9%。相比之下，文字平均向量基線只有65.4%、64.9%和66.4%，文本長度基線更低，InternVL3上甚至只有50.0%（相當于瞎猜）。這說明AI在說謊時，它內部神經元之間的協作模式確實發生了某種可被捕捉的變化，這種變化遠比文字表面的特征更能暴露幻覺。

**六視覺和語言在AI大腦里是怎么融合的**

上述實驗證明了關系圖能預測行為，但一個更深層的問題是：AI在處理圖片和文字時，內部的組織方式究竟是怎樣演變的？兩種信息是如何從各自獨立變成協同工作的？

研究團隊從三個角度對這個問題進行了分析。

第一個角度是觀察不同類型的令牌（token）之間的相關性隨層深度如何變化。這里的"令牌"可以理解為：AI處理圖片時會把圖片切成一塊塊"圖像塊"，每塊對應一個視覺令牌；處理文字時每個詞或子詞對應一個文本令牌。研究團隊計算了視覺令牌之間、文本令牌之間、以及視覺和文本令牌之間的平均相關性，并追蹤這些數值隨層深度的變化趨勢。

結果顯示出一個清晰的規律：隨著層數加深，視覺令牌與文本令牌之間的相關性持續增強，文本令牌之間的相關性也隨之增強，而視覺令牌之間的相關性則相對平穩。這個規律在多個模型和多種規模上都一致出現。這意味著，在AI的淺層，視覺信息和語言信息還是相對獨立地被處理；隨著層數加深，視覺信息越來越多地滲入語言處理的過程，兩者逐漸融合。這種模式與研究者們對解碼器式語言模型的理解是吻合的：視覺令牌更像是"條件輸入"，隨著深度增加越來越深刻地影響語言側的表達。

第二個角度是觀察"樞紐神經元"（hub neuron）的穩定性。在一張關系圖里，一個神經元的"度"（degree）是指它與多少其他神經元有強關聯，度越高就意味著這個神經元是關系網絡里的"中心節點"，類似于公司里那個認識所有人、掌握所有信息的核心聯絡人。研究團隊把每層中度最高的前1%神經元定義為"樞紐神經元"。

關鍵問題是：對于不同的輸入圖片和問題，樞紐神經元是否總是那幾個？如果每次輸入都對應不同的樞紐神經元，那說明這種結構只是隨機涌現，沒有穩定意義；如果樞紐神經元在不同輸入下高度重合，那就說明AI內部存在一些固定的"核心樞紐"，是多模態處理的穩定組織中心。

實驗結果顯示，基于關系圖定義的樞紐神經元確實具有很高的跨樣本穩定性，遠高于基于激活數值大小定義的"高活躍神經元"，也高于基于單一模態（視覺或文本）定義的樞紐神經元。也就是說，關系圖揭示出了一批真正穩定的核心節點，而單純看哪個神經元"叫得最響"并不能找到這些節點。

進一步按層深度分析發現，樞紐神經元的穩定性在中間層達到峰值，與視覺-文本相關性增強的區間大致吻合。這意味著，AI在中間層存在一批特別穩定的"核心聯絡員"，它們在處理不同輸入時始終擔任組織多模態信息的關鍵角色。

第三個角度是測試視覺關系圖和文本關系圖在結構上是否對齊，即它們是否處于一個共享的結構空間中。研究團隊用一種對比學習的方式（InfoNCE目標函數）訓練了一個對齊模型，讓來自同一樣本、同一層的視覺關系圖和文本關系圖彼此靠近，讓來自不同樣本或不同層的關系圖彼此遠離。然后用GAUC（圖級別排名指標）來評估對齊程度。

以LLaVA模型的第6層為例，多模態-多模態自對齊的GAUC達到0.960，作為參考上限；文本-圖像對齊的GAUC為0.819，低于自對齊，說明視覺和語言路徑在結構上確實有差異，并未完全融合成一體；而將LLaVA的文本關系圖與其骨干語言模型LLaMA的文本關系圖對比，GAUC進一步下降到0.680，說明多模態訓練確實改變了語言模型原本的內部結構。換句話說，多模態微調并沒有把視覺和語言"焊死"成一個均質的整體，而是讓它們部分靠近的同時保留了各自的結構特色。

**七找到關鍵節點，一戳就痛**

以上分析都是"看"的角度，最有說服力的證據來自"動手"——主動修改AI的內部關系，看看模型的輸出是否會隨之改變。研究團隊設計了三種干預實驗。

第一種干預是直接把被選中的神經元激活值清零（即讓該神經元完全失聲），比較不同選神經元策略帶來的效果差異。選法有三種：隨機選、按激活數值大小選（選那些"叫得最響"的神經元），以及按關系圖中的度值選（選真正的樞紐神經元）。

結果非常清晰：無論在TDIUC還是CLEVR任務上，讓樞紐神經元失聲帶來的性能下降都是最大的，遠超隨機選和按激活強度選。在InternVL3-1B的第11層和Qwen2.5-VL-3B的第0層上，消除樞紐神經元后，模型在某些任務上的準確率下降幅度達到數十個百分點，有的甚至超過50%甚至80%，而消除同數量的"高激活"神經元或隨機神經元造成的影響則小得多。這清楚地說明，關系圖中的樞紐神經元在功能上的重要性要高于那些單純激活值大的神經元。

第二種干預針對的是"邊"而非"節點"，即對關系圖中最強的一條邊（即全數據集中協作關系最強的那對神經元）進行干預。方法是固定這對神經元中的一個，對另一個做不同處理：把它替換為對方的激活值（IDENTICAL，即兩個神經元的信號完全一致）；把它替換為對方激活值的負數（OPPOSITE，即信號完全相反）；或者把它替換為一個隨機向量（RANDOM，即完全無關的噪聲）。

三種干預帶來的效果形成了明顯的梯度：IDENTICAL干預對性能幾乎沒有影響，甚至在某些情況下略有提升；RANDOM替換帶來中等程度的性能下降；而OPPOSITE替換造成的破壞最大，尤其是在Qwen2.5-VL-3B上，顏色識別和計數任務的準確率都出現了大幅下降。這說明一對神經元之間的關系中，不僅神經元的身份重要，它們之間信號的協調方向（同向還是反向）同樣至關重要——關系圖在"邊"的層面也承載了功能意義。

第三種干預是直接縮放特定樞紐神經元的激活值，看看它的大小變化如何影響模型輸出。研究團隊在InternVL3-1B上選了第11層的第62號神經元，在Qwen2.5-VL-3B上選了第0層的第71、318、294、528、583號神經元，分別將它們的激活值乘以不同的系數（從-1到2，覆蓋抑制、正常、增強三種情形）。

結果出乎意料地直觀：即使是很小的擾動，也會造成顏色識別和數數任務準確率的明顯下降，而且這種下降對放大和縮小都同樣敏感——曲線呈現出以原始值為中心的"U形"，左右兩側都是性能的坑。這說明這些樞紐神經元在一個很窄的"舒適區"內工作，激活值稍微偏離正常范圍就會打亂整個系統的平衡，類似于樂隊中的指揮——聲音太小沒人聽，聲音太大反而亂了節奏。

**八它和既有研究的關系**

在VLM可解釋性研究這個領域，以前的主流方法大致可以分為兩類。一類關注注意力機制，分析Transformer架構中哪些位置在"關注"哪些輸入；另一類關注梯度或顯著性圖，追蹤哪些像素或詞匯對輸出貢獻最大。這些方法提供的都是局部解釋，只能告訴你"這張圖的哪個區域最重要"，而不能解釋"這些區域的信息是如何在整個網絡中被組織起來"。

另有一類研究方向叫做"機制可解釋性"，試圖找出AI內部實現某種功能的具體電路——比如，哪條神經元連接鏈條負責處理"否定"語義。這類研究極度細粒度，但計算成本極高，而且往往只能分析模型的某一個極小子集。

神經拓撲方法恰好處于二者之間：比局部歸因更豐富，因為它考察的是整個層內神經元之間的組織模式；比全電路分析更可操作，因為它不需要枚舉每一條信號通路。用研究團隊自己的話說，這是一個"有意義的中間尺度"——足夠豐富，又足夠實用。

在神經科學領域，這種從單個神經元上升到群體動力學的思維轉變經歷了幾十年的發展，逐漸揭示了大腦中樞紐節點、小世界網絡和功能模塊等組織原則。研究團隊的核心論點是：AI的多模態推理也更適合被理解為一種有組織的群體動力學現象，而非若干獨立組件的簡單疊加。

說到底，這項研究最令人印象深刻的地方不只是它給出了一套新工具，而是它把三件事統一在了同一個框架下：預測模型行為（探針實驗）、理解內部組織方式（多模態結構分析），以及主動影響模型輸出（干預實驗）。這三件事彼此印證，共同指向同一個結論：神經元之間的協作關系網絡，是理解AI多模態推理的一個有效切入點。

歸根結底，這項研究做的事情就是給AI的大腦畫了一張"社交網絡圖"，發現了一小批"社交核心人物"，然后用各種方式驗證了這些核心人物確實舉足輕重。這不僅幫助我們更好地理解AI是如何工作的，也為將來修正AI的錯誤行為、減少幻覺、提高可靠性提供了一條新的思路。當AI越來越多地參與到醫療診斷、法律分析、教育輔助等高風險場景時，能看清它內部在"想什么"這件事，其重要性將會越來越突出。

對于想進一步了解這項研究的讀者，可以通過arXiv編號2603.27070查閱完整論文，或訪問研究團隊公開的代碼庫（github.com/he-h/vlm-graph-probing）自行復現相關實驗。

Q&A

Q1：神經拓撲方法和傳統的注意力圖分析有什么本質區別？

A：傳統注意力圖分析關注的是某個輸入位置被"關注"多少，本質上還是在看單個信息通道的重要性，就像只看一條高速公路的流量。神經拓撲方法關注的是整個層里數千個神經元之間的協作關系網絡，類似于觀察整個城市的交通網絡結構——誰和誰連通，誰是樞紐，哪些路段協同繁忙。這種視角能捕捉到注意力圖完全看不到的群體組織模式，因此在某些任務上能更準確地預測模型行為。

Q2：樞紐神經元被干預后模型性能下降這么厲害，是不是說明可以用這個方法來修復AI的錯誤？

A：這是一個很自然的延伸想法，但目前的研究還停留在"識別和驗證"階段，尚未直接給出修復方案。研究證明了樞紐神經元對模型輸出有實質影響，這為未來針對性地調整這些關鍵節點提供了思路。不過從"知道哪里重要"到"如何精確糾正錯誤"還有相當距離，需要進一步研究來確定如何安全、有效地調整這些節點而不引入新的問題。

Q3：神經拓撲方法對所有類型的視覺-語言任務都有效嗎？

A：不完全是。研究結果顯示，神經拓撲對那些需要視覺和語言緊密配合的"接地氣"任務（比如數物體個數、識別顏色、判斷運動類別）效果最好，GCN探針相比線性基線有顯著提升。但對于MMMU這類需要復雜跨學科推理的任務，提升幅度則比較有限，甚至部分指標未能超過線性基線。這說明神經拓撲捕捉的是與多模態感知融合密切相關的結構信號，對于更抽象的推理任務則覆蓋不足。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.