網易首頁 > 網易號 > 正文申請入駐

AI學會解釋自己：MIT教會模型從內心提取概念，實現更準、更透明

2026-03-13 14:18:22　來源: ScienceAI

河北舉報

分享至

編輯丨&

在駕駛、醫療這類需要做出決斷的日常生活中，人類通常不會由現有狀況直接跳轉到結論。所有下達的決策往往都建立在對現狀的分析之上，換句話說，決策的誕生需要建立一系列中間概念。

而這種中間概念也成為了人類判斷 AI 是否可信的依據。傳統的概念瓶頸模型（CBM）試圖解決這個問題，它們強制模型用一組預設的人類概念來做預測。但問題在于：這些概念往往由專家事先定義，可能不準確、不完整，甚至與任務無關，導致模型準確率下降，或暗中使用其他信息「作弊」。

來自 MIT 的研究團隊，提出了一種全新的思路：與其讓人類告訴模型該學什么概念，不如直接從模型已經學會的知識中提取概念，再讓模型用這些概念解釋自己。這種方法被稱為M-CBM（Mechanistic Concept Bottleneck Model），在多個數據集上實現了更高的準確率和更簡潔、更可理解的解釋。

相關的研究內容以「Learning Concept Bottleneck Models From Mechanistic Explanations」為題，即將在國際學習表征會議（ICLR）上發表。

論文鏈接：https://openreview.net/pdf?id=gdEWoxhb70

如何讓模型從自身學習

前文已經說過，傳統的 CBM 面臨的問題是在模型的黑箱部分和最終輸出之間，增加了一個「概念瓶頸層」。模型必須先預測一組概念，再用這些概念預測最終類別。

在這種架構下，隱藏層雖然包含大量信息，但它們并沒有明確語義，因此難以解釋。

但是研究團隊有著不同的想法：

既然模型已經在大量數據上訓練，它內部必然已經形成了對任務有用的「概念」。為什么不直接把這些內部表征「翻譯」成我們能理解的語言？

這就是他們所做的事情。讓模型從黑箱模型骨干網絡中提取、命名并標注其自身學習的概念，再基于這些概念訓練可解釋的 CBM，全程實現概念的數據驅動生成，而非先驗定義。

圖 1：M-CBM 流程概述。

這個流程大致可以歸類為提取、命名、約束三個步驟。

步驟一：用稀疏自編碼器提取概念

研究團隊首先訓練一個稀疏自編碼器（SAE），它的任務是重構目標黑箱模型在中間層的特征激活，同時強制其隱藏層表示高度稀疏。理想情況下，SAE 的每個神經元會學會識別一個獨立的、可解釋的特征——也就是模型自己學到的「概念」。為了防止無效神經元干擾后續步驟，團隊還根據激活頻率進行過濾，只保留那些真正重要的概念。

步驟二：用多模態大模型為概念命名和標注

這一步是「翻譯」的關鍵。對于每個 SAE 神經元，團隊挑選出最能讓它激活的 10 張圖像，以及完全不激活的 10 張圖像，連同神經元的激活熱力圖一起，交給一個多模態大模型（如GPT-4.1）。模型被要求用自然語言描述「這個神經元在響應什么」。

之后，同一個大模型還會對數據集中的圖像進行批量標注，判斷每張圖像是否存在該概念。為了避免概念重復，團隊還會對語義相似的概念進行合并。

步驟三：用概念瓶頸層重新訓練，并用NCC控制解釋簡潔性

有了概念及其標注，團隊訓練一個新的概念瓶頸層（CBL）來預測這些概念的存在與否。然后，他們凍結這個 CBL，在其上訓練一個稀疏線性分類器，用預測出的概念來預測最終類別。為了確保解釋簡潔且防止信息泄漏，研究團隊引入了一個新指標——貢獻概念數（NCC）。

與之前只統計權重非零數量的指標（NEC）不同，NCC 衡量的是：平均需要多少個概念，才能解釋一次預測中 95% 的決策依據。通過調整分類器的稀疏度，他們可以精準控制 NCC，迫使模型選擇最相關的概念。

可解釋性與性能

研究團隊在多個數據集上對這一框架進行了測試，包括視覺識別和結構化數據任務。

實驗結果顯示，在許多任務中，引入概念瓶頸結構并不會顯著降低模型性能。相反，在一些復雜任務上，這種結構甚至可以帶來更穩定的預測。

圖 2：在 CUB 上的準確率與 NCC 對比。

準確率方面，M-CBM 在所有數據集和所有稀疏度水平上均取得了最高的準確率；概念預測方面，M-CBM 的概念預測 ROC-AUC（宏平均）在 CUB 上高達 90.04%。這表明 M-CBM 不僅用概念做對了分類，也確實學會了識別這些概念。

表 1：在 NCC=5 和 NCC=avg 下的準確率比較，最佳模型以粗體顯示。

更重要的是，這種模型具備傳統深度學習系統難以實現的一項能力：

概念級別的可控推理。

當模型給出錯誤預測時，研究人員可以檢查概念層的輸出，并判斷錯誤來自哪一步。

比如在 ISIC2018 的一個誤分類案例中，模型將基底細胞癌誤判為黑色素瘤，解釋顯示是因為它看到了「聚集的藍灰色卵形巢」——而這個概念在正確類別中本應為負。將這一概念的貢獻歸零，模型的預測就翻轉到了正確類別，證明了概念的可干預性。

圖 3：在 CUB 中正確預測（a）和 ISIC 2018 中錯誤分類（b）的情況下，M-CBM 的每幅圖像解釋。

真正可信的 AI 之路

盡管 M-CBM 取得了顯著進展，但研究團隊也坦誠指出了其局限性。當下的 CBM 還未能徹底根除信息泄露，而且如何驗證模型學到的概念就是人類認為的概念，也仍是一個開放性問題。

不過，至少 M-CBM 提供了一條將黑箱模型轉化為可解釋模型的通用路徑。它不再依賴人類「猜測」模型應該用什么概念，而是直接從模型的「內心」讀取它真正使用的概念，然后用人類語言翻譯出來。

正如報道中的相關評價所言：「這項工作為更忠實于模型的解釋提供了一條路徑，并為后續結構化知識的研究打開了許多機會。」當 AI 系統能夠清晰解釋自己的決策時，我們離真正信任它們，又近了一步。

https://techxplore.com/news/2026-03-ai-ability.html

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.