![]()
編輯丨&
在駕駛、醫療這類需要做出決斷的日常生活中,人類通常不會由現有狀況直接跳轉到結論。所有下達的決策往往都建立在對現狀的分析之上,換句話說,決策的誕生需要建立一系列中間概念。
而這種中間概念也成為了人類判斷 AI 是否可信的依據。傳統的概念瓶頸模型(CBM)試圖解決這個問題,它們強制模型用一組預設的人類概念來做預測。但問題在于:這些概念往往由專家事先定義,可能不準確、不完整,甚至與任務無關,導致模型準確率下降,或暗中使用其他信息「作弊」。
來自 MIT 的研究團隊,提出了一種全新的思路:與其讓人類告訴模型該學什么概念,不如直接從模型已經學會的知識中提取概念,再讓模型用這些概念解釋自己。 這種方法被稱為M-CBM(Mechanistic Concept Bottleneck Model),在多個數據集上實現了更高的準確率和更簡潔、更可理解的解釋。
相關的研究內容以「Learning Concept Bottleneck Models From Mechanistic Explanations」為題,即將在國際學習表征會議(ICLR)上發表。
![]()
論文鏈接:https://openreview.net/pdf?id=gdEWoxhb70
如何讓模型從自身學習
前文已經說過,傳統的 CBM 面臨的問題是在模型的黑箱部分和最終輸出之間,增加了一個「概念瓶頸層」。模型必須先預測一組概念,再用這些概念預測最終類別。
在這種架構下,隱藏層雖然包含大量信息,但它們并沒有明確語義,因此難以解釋。
但是研究團隊有著不同的想法:
既然模型已經在大量數據上訓練,它內部必然已經形成了對任務有用的「概念」。為什么不直接把這些內部表征「翻譯」成我們能理解的語言?
這就是他們所做的事情。讓模型從黑箱模型骨干網絡中提取、命名并標注其自身學習的概念,再基于這些概念訓練可解釋的 CBM,全程實現概念的數據驅動生成,而非先驗定義。
![]()
圖 1:M-CBM 流程概述。
這個流程大致可以歸類為提取、命名、約束三個步驟。
步驟一:用稀疏自編碼器提取概念
研究團隊首先訓練一個稀疏自編碼器(SAE),它的任務是重構目標黑箱模型在中間層的特征激活,同時強制其隱藏層表示高度稀疏。理想情況下,SAE 的每個神經元會學會識別一個獨立的、可解釋的特征——也就是模型自己學到的「概念」。為了防止無效神經元干擾后續步驟,團隊還根據激活頻率進行過濾,只保留那些真正重要的概念。
步驟二:用多模態大模型為概念命名和標注
這一步是「翻譯」的關鍵。對于每個 SAE 神經元,團隊挑選出最能讓它激活的 10 張圖像,以及完全不激活的 10 張圖像,連同神經元的激活熱力圖一起,交給一個多模態大模型(如GPT-4.1)。模型被要求用自然語言描述「這個神經元在響應什么」。
之后,同一個大模型還會對數據集中的圖像進行批量標注,判斷每張圖像是否存在該概念。為了避免概念重復,團隊還會對語義相似的概念進行合并。
步驟三:用概念瓶頸層重新訓練,并用NCC控制解釋簡潔性
有了概念及其標注,團隊訓練一個新的概念瓶頸層(CBL)來預測這些概念的存在與否。然后,他們凍結這個 CBL,在其上訓練一個稀疏線性分類器,用預測出的概念來預測最終類別。為了確保解釋簡潔且防止信息泄漏,研究團隊引入了一個新指標——貢獻概念數(NCC)。
與之前只統計權重非零數量的指標(NEC)不同,NCC 衡量的是:平均需要多少個概念,才能解釋一次預測中 95% 的決策依據。通過調整分類器的稀疏度,他們可以精準控制 NCC,迫使模型選擇最相關的概念。
可解釋性與性能
研究團隊在多個數據集上對這一框架進行了測試,包括視覺識別和結構化數據任務。
實驗結果顯示,在許多任務中,引入概念瓶頸結構并不會顯著降低模型性能。相反,在一些復雜任務上,這種結構甚至可以帶來更穩定的預測。
![]()
圖 2:在 CUB 上的準確率與 NCC 對比。
準確率方面,M-CBM 在所有數據集和所有稀疏度水平上均取得了最高的準確率;概念預測方面,M-CBM 的概念預測 ROC-AUC(宏平均)在 CUB 上高達 90.04%。這表明 M-CBM 不僅用概念做對了分類,也確實學會了識別這些概念。
表 1:在 NCC=5 和 NCC=avg 下的準確率比較,最佳模型以粗體顯示。
![]()
更重要的是,這種模型具備傳統深度學習系統難以實現的一項能力:
概念級別的可控推理。
當模型給出錯誤預測時,研究人員可以檢查概念層的輸出,并判斷錯誤來自哪一步。
比如在 ISIC2018 的一個誤分類案例中,模型將基底細胞癌誤判為黑色素瘤,解釋顯示是因為它看到了「聚集的藍灰色卵形巢」——而這個概念在正確類別中本應為負。將這一概念的貢獻歸零,模型的預測就翻轉到了正確類別,證明了概念的可干預性。
![]()
圖 3:在 CUB 中正確預測(a)和 ISIC 2018 中錯誤分類(b)的情況下,M-CBM 的每幅圖像解釋。
真正可信的 AI 之路
盡管 M-CBM 取得了顯著進展,但研究團隊也坦誠指出了其局限性。當下的 CBM 還未能徹底根除信息泄露,而且如何驗證模型學到的概念就是人類認為的概念,也仍是一個開放性問題。
不過,至少 M-CBM 提供了一條將黑箱模型轉化為可解釋模型的通用路徑。它不再依賴人類「猜測」模型應該用什么概念,而是直接從模型的「內心」讀取它真正使用的概念,然后用人類語言翻譯出來。
正如報道中的相關評價所言:「這項工作為更忠實于模型的解釋提供了一條路徑,并為后續結構化知識的研究打開了許多機會。」當 AI 系統能夠清晰解釋自己的決策時,我們離真正信任它們,又近了一步。
https://techxplore.com/news/2026-03-ai-ability.html
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.