无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

AI學會解釋自己:MIT教會模型從內心提取概念,實現更準、更透明

0
分享至



編輯丨&

在駕駛、醫療這類需要做出決斷的日常生活中,人類通常不會由現有狀況直接跳轉到結論。所有下達的決策往往都建立在對現狀的分析之上,換句話說,決策的誕生需要建立一系列中間概念。

而這種中間概念也成為了人類判斷 AI 是否可信的依據。傳統的概念瓶頸模型(CBM)試圖解決這個問題,它們強制模型用一組預設的人類概念來做預測。但問題在于:這些概念往往由專家事先定義,可能不準確、不完整,甚至與任務無關,導致模型準確率下降,或暗中使用其他信息「作弊」。

來自 MIT 的研究團隊,提出了一種全新的思路:與其讓人類告訴模型該學什么概念,不如直接從模型已經學會的知識中提取概念,再讓模型用這些概念解釋自己。 這種方法被稱為M-CBM(Mechanistic Concept Bottleneck Model),在多個數據集上實現了更高的準確率和更簡潔、更可理解的解釋。

相關的研究內容以「Learning Concept Bottleneck Models From Mechanistic Explanations」為題,即將在國際學習表征會議(ICLR)上發表。



論文鏈接:https://openreview.net/pdf?id=gdEWoxhb70

如何讓模型從自身學習

前文已經說過,傳統的 CBM 面臨的問題是在模型的黑箱部分和最終輸出之間,增加了一個「概念瓶頸層」。模型必須先預測一組概念,再用這些概念預測最終類別。

在這種架構下,隱藏層雖然包含大量信息,但它們并沒有明確語義,因此難以解釋。

但是研究團隊有著不同的想法:

既然模型已經在大量數據上訓練,它內部必然已經形成了對任務有用的「概念」。為什么不直接把這些內部表征「翻譯」成我們能理解的語言?

這就是他們所做的事情。讓模型從黑箱模型骨干網絡中提取、命名并標注其自身學習的概念,再基于這些概念訓練可解釋的 CBM,全程實現概念的數據驅動生成,而非先驗定義。



圖 1:M-CBM 流程概述。

這個流程大致可以歸類為提取、命名、約束三個步驟。

步驟一:用稀疏自編碼器提取概念

研究團隊首先訓練一個稀疏自編碼器(SAE),它的任務是重構目標黑箱模型在中間層的特征激活,同時強制其隱藏層表示高度稀疏。理想情況下,SAE 的每個神經元會學會識別一個獨立的、可解釋的特征——也就是模型自己學到的「概念」。為了防止無效神經元干擾后續步驟,團隊還根據激活頻率進行過濾,只保留那些真正重要的概念。

步驟二:用多模態大模型為概念命名和標注

這一步是「翻譯」的關鍵。對于每個 SAE 神經元,團隊挑選出最能讓它激活的 10 張圖像,以及完全不激活的 10 張圖像,連同神經元的激活熱力圖一起,交給一個多模態大模型(如GPT-4.1)。模型被要求用自然語言描述「這個神經元在響應什么」。

之后,同一個大模型還會對數據集中的圖像進行批量標注,判斷每張圖像是否存在該概念。為了避免概念重復,團隊還會對語義相似的概念進行合并。

步驟三:用概念瓶頸層重新訓練,并用NCC控制解釋簡潔性

有了概念及其標注,團隊訓練一個新的概念瓶頸層(CBL)來預測這些概念的存在與否。然后,他們凍結這個 CBL,在其上訓練一個稀疏線性分類器,用預測出的概念來預測最終類別。為了確保解釋簡潔且防止信息泄漏,研究團隊引入了一個新指標——貢獻概念數(NCC)。

與之前只統計權重非零數量的指標(NEC)不同,NCC 衡量的是:平均需要多少個概念,才能解釋一次預測中 95% 的決策依據。通過調整分類器的稀疏度,他們可以精準控制 NCC,迫使模型選擇最相關的概念。

可解釋性與性能

研究團隊在多個數據集上對這一框架進行了測試,包括視覺識別和結構化數據任務。

實驗結果顯示,在許多任務中,引入概念瓶頸結構并不會顯著降低模型性能。相反,在一些復雜任務上,這種結構甚至可以帶來更穩定的預測。



圖 2:在 CUB 上的準確率與 NCC 對比。

準確率方面,M-CBM 在所有數據集和所有稀疏度水平上均取得了最高的準確率;概念預測方面,M-CBM 的概念預測 ROC-AUC(宏平均)在 CUB 上高達 90.04%。這表明 M-CBM 不僅用概念做對了分類,也確實學會了識別這些概念。

表 1:在 NCC=5 和 NCC=avg 下的準確率比較,最佳模型以粗體顯示。



更重要的是,這種模型具備傳統深度學習系統難以實現的一項能力:

概念級別的可控推理。

當模型給出錯誤預測時,研究人員可以檢查概念層的輸出,并判斷錯誤來自哪一步。

比如在 ISIC2018 的一個誤分類案例中,模型將基底細胞癌誤判為黑色素瘤,解釋顯示是因為它看到了「聚集的藍灰色卵形巢」——而這個概念在正確類別中本應為負。將這一概念的貢獻歸零,模型的預測就翻轉到了正確類別,證明了概念的可干預性。



圖 3:在 CUB 中正確預測(a)和 ISIC 2018 中錯誤分類(b)的情況下,M-CBM 的每幅圖像解釋。

真正可信的 AI 之路

盡管 M-CBM 取得了顯著進展,但研究團隊也坦誠指出了其局限性。當下的 CBM 還未能徹底根除信息泄露,而且如何驗證模型學到的概念就是人類認為的概念,也仍是一個開放性問題。

不過,至少 M-CBM 提供了一條將黑箱模型轉化為可解釋模型的通用路徑。它不再依賴人類「猜測」模型應該用什么概念,而是直接從模型的「內心」讀取它真正使用的概念,然后用人類語言翻譯出來。

正如報道中的相關評價所言:「這項工作為更忠實于模型的解釋提供了一條路徑,并為后續結構化知識的研究打開了許多機會。」當 AI 系統能夠清晰解釋自己的決策時,我們離真正信任它們,又近了一步。

https://techxplore.com/news/2026-03-ai-ability.html

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
鄭柵潔主持召開民企座談會 聽取5家企業意見建議

鄭柵潔主持召開民企座談會 聽取5家企業意見建議

觀點機構
2026-05-20 22:26:21
No!麻了,雷霆麻了!頂薪后衛反復腿筋拉傷

No!麻了,雷霆麻了!頂薪后衛反復腿筋拉傷

籃球實戰寶典
2026-05-21 15:03:34
他是致使臺灣難以收復的關鍵人物,若不是他臺灣或許早已解放

他是致使臺灣難以收復的關鍵人物,若不是他臺灣或許早已解放

老范談史
2026-04-30 03:59:22
于文華:一婚下嫁李凡,三拒尹相杰,再婚嫁小伙,不生孩子也幸福

于文華:一婚下嫁李凡,三拒尹相杰,再婚嫁小伙,不生孩子也幸福

飄飄然的娛樂匯
2026-05-18 20:05:05
男子反復出現肺部感染,福建醫生抽絲剝繭揪出元兇:他的肺里竟藏著一顆……

男子反復出現肺部感染,福建醫生抽絲剝繭揪出元兇:他的肺里竟藏著一顆……

福建衛生報
2026-05-20 12:51:00
Shams:過去一年中的所有跡象都表明,詹姆斯會再打一個賽季

Shams:過去一年中的所有跡象都表明,詹姆斯會再打一個賽季

懂球帝
2026-05-21 08:15:08
誰錯了?曹暉坐在馬斯克身邊,幾乎沒有與馬斯克交流,被網友笑話

誰錯了?曹暉坐在馬斯克身邊,幾乎沒有與馬斯克交流,被網友笑話

蝴蝶花雨話教育
2026-05-20 00:05:10
其實我們也有合規的楊梅,只不過被賣到了國外

其實我們也有合規的楊梅,只不過被賣到了國外

黑噪音
2026-05-20 17:06:54
約會時女人說去廁所,其實是在給你兩個暗示,聽懂的都不是凡人

約會時女人說去廁所,其實是在給你兩個暗示,聽懂的都不是凡人

心理觀察局
2026-05-18 09:11:14
知名歌唱家貪財好色嫁大30歲二婚男,如今活成這樣

知名歌唱家貪財好色嫁大30歲二婚男,如今活成這樣

風月得自難尋
2026-05-12 06:25:42
罕見!近70萬球迷打分,馬刺好評不斷雷霆全員低分,裁判低到離譜

罕見!近70萬球迷打分,馬刺好評不斷雷霆全員低分,裁判低到離譜

球盲百小易
2026-05-21 12:48:44
西媒:連續三年的清洗嘗試,拉莫斯考慮今夏直接賠錢遣散夸西

西媒:連續三年的清洗嘗試,拉莫斯考慮今夏直接賠錢遣散夸西

懂球帝
2026-05-21 14:48:43
正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實情

正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實情

健康科普365
2026-05-09 21:05:04
佛山樓市開始離譜了!千燈湖板塊房價從4.5萬變成3.2萬,臨廣片區承接廣州外溢需求

佛山樓市開始離譜了!千燈湖板塊房價從4.5萬變成3.2萬,臨廣片區承接廣州外溢需求

美食格物
2026-05-21 13:10:12
18歲被王全安選中,20歲登戛納,后來為啥沒人敢用她?

18歲被王全安選中,20歲登戛納,后來為啥沒人敢用她?

林雁飛
2026-05-21 13:36:32
繼子被繼母虐待,考上985辦升學宴,繼子掏出親子鑒定后繼母呆住

繼子被繼母虐待,考上985辦升學宴,繼子掏出親子鑒定后繼母呆住

曉艾故事匯
2025-05-02 07:32:27
英偉達業績炸裂!凈利潤暴漲211%,9成收入來自數據中心,自研CPU將年入千億

英偉達業績炸裂!凈利潤暴漲211%,9成收入來自數據中心,自研CPU將年入千億

芯東西
2026-05-21 10:12:45
北京今夜起將迎降雨過程 明天最高氣溫僅22℃需防雨添衣

北京今夜起將迎降雨過程 明天最高氣溫僅22℃需防雨添衣

極目新聞
2026-05-21 08:06:54
主角:直到青娥兒子離世,才懂為啥她寧嫁劉紅兵,也不跟封瀟瀟

主角:直到青娥兒子離世,才懂為啥她寧嫁劉紅兵,也不跟封瀟瀟

阿廢冷眼觀察所
2026-05-21 14:17:25
廣汽本田新款皓影上市 售價13.79-17.99萬元

廣汽本田新款皓影上市 售價13.79-17.99萬元

車質網
2026-05-21 09:22:52
2026-05-21 17:27:00
ScienceAI incentive-icons
ScienceAI
關注人工智能與其他前沿技術
1307文章數 227關注度
往期回顧 全部

科技要聞

好到離譜也不夠!英偉達交出816億美元營收

頭條要聞

特朗普稱將與賴清德交談 外交部表態

頭條要聞

特朗普稱將與賴清德交談 外交部表態

體育要聞

常住人口7000的小鎮,擁有了一支德甲球隊

娛樂要聞

反轉!金秀賢與金賽綸未成年時交往不實

財經要聞

英偉達業績超預!指引再新高仍不夠亮眼

汽車要聞

26.98萬起步 看小鵬GX如何詮釋一車多能以及滿配的科技與豪華

態度原創

房產
教育
親子
本地
游戲

房產要聞

順德澐璟樓王『澐冠』啟幕|一場高階共鳴的靜奢美學之約

教育要聞

校媒街采 | 致曾經備戰高考的自己

親子要聞

媽媽太卷兒女都不顧兒女身心健康是特別無奈的,做爸爸的太心疼還沒辦法

本地新聞

用云錦的方式,打開江蘇南京

《愚靈》揮刀斬向主機!7月23日PS5、Switch同步發售

無障礙瀏覽 進入關懷版