網易首頁 > 網易號 > 正文申請入駐

EPFL等機構發現大語言模型的內部思維與人類創造性大腦高度同步

2026-04-20 21:45:21　來源: 科技行者

北京舉報

分享至

這項由瑞士洛桑聯邦理工學院（EPFL）、意大利盧加諾大學（USI）、韋斯利安大學、巴黎腦研究所（ICM）以及賓夕法尼亞州立大學聯合開展的研究，以預印本形式發布于2026年4月，論文編號為arXiv:2604.03480。對這一交叉領域感興趣的讀者，可以通過該編號在arXiv平臺上查閱完整原文。

一、為什么要研究AI與創意大腦的關系

每個人都有過這樣的體驗：盯著一個普通的回形針，突然靈光一閃，覺得它可以當書簽、可以當項鏈吊墜、甚至可以撬開手機的SIM卡槽。這種從單一事物出發，向四面八方發散出一堆奇思妙想的能力，心理學家稱之為"發散性思維"，也被認為是人類創造力的核心引擎。與之相對的是"收斂性思維"，也就是從很多可能中聚焦到一個正確答案——比如解數學題。

近年來，大語言模型（就是以ChatGPT為代表的那類AI）在測試創造力的任務上表現得出人意料地好。研究人員用一種叫做"替代用途測試"（Alternate Uses Task，簡稱AUT）的經典心理學工具來衡量發散性思維：給被測試者一個普通物品的名字，比如"風箏"或者"磚頭"，讓他們盡量想出這個東西不尋常的用途，最后由評審根據答案的創意程度打分。一些頂尖的AI模型在這個測試里的得分已經達到甚至超過了普通人類的平均水平。

然而，一個更有深度的問題隨之浮現：AI在行為上表現出創意，它的內部"思考過程"真的和人類大腦產生創意時的狀態相似嗎？這就好比一個人能流利地說外語，但我們并不確定他是真正用那門語言在思考，還是只是在套用翻譯模板。研究團隊正是想解開這個謎題。

這個問題之所以重要，不僅僅是出于學術好奇心。如果AI在處理創意任務時，它的內部信息處理方式真的能映射到人類大腦的運作模式，那就說明AI在某種程度上"理解"了創造力，而不只是在統計學意義上模仿它。這對于我們理解AI的本質、以及如何設計更好的AI系統，都有深遠的意義。

為了回答這個問題，研究團隊把目光投向了神經科學領域一種叫做"功能性磁共振成像"（fMRI）的技術，同時從AI的角度出發，系統地測量不同大語言模型內部的數學表示結構，看兩者之間有多相似。這是歷史上第一次有人把這兩件事放在一起，專門針對主動創意思考任務進行系統研究。

二、實驗是怎么設計的

研究團隊使用了神經科學家貝蒂等人于2018年收集的一批珍貴數據。這批數據來自170名健康參與者，他們在核磁共振掃描儀中分別完成了兩個任務。

第一個任務是創意任務，也就是前面提到的替代用途測試：參與者看到一個物品名稱后，需要盡量想出最有創意的用途，并報告他們認為最原創的那個想法。第二個任務是非創意控制任務，叫做"物體特征任務"（Object Characteristics Task，簡稱OCT）：看到同一個物品名稱后，參與者只需要報告這個物品最明顯的物理特征，比如看到"磚頭"就回答"紅色的"或"很重"。這兩個任務用的是同樣的物品（共46個），結構高度對稱，唯一的區別就是一個要求創意，一個不要求。經過數據清洗，最終保留了162名參與者的有效數據。

在處理這些大腦數據時，研究團隊先用專業工具對原始的磁共振信號進行了一系列標準化處理，去除干擾信號、消除趨勢、進行標準化和濾波。他們使用了一種叫做"廣義線性模型"的統計方法，從原始腦信號中提取出每一次試驗對應的大腦激活模式，這就好比從一段嘈雜的錄音里，精確地提取出每個音符對應的頻率特征。

在大腦的哪些區域進行分析，也是有講究的。研究團隊重點關注了兩個與創造力密切相關的大腦網絡。一個是"默認模式網絡"（Default Mode Network，簡稱DMN），這個網絡在你發呆、做白日夢、進行自由聯想的時候特別活躍，被認為是產生創意的核心神經基礎。另一個是"額頂網絡"（Frontoparietal Network，簡稱FPN），負責認知控制和高級推理，幫助我們評估和篩選那些浮現出來的想法。作為對照，他們還分析了"軀體運動網絡"，這個網絡主要管身體運動，和創意思維基本沒什么關系，可以用來排除干擾因素。

在AI這一側，研究團隊向一系列不同規模的開源大語言模型輸入了與參與者完全相同的任務指令和物品名稱，然后提取模型每一層的內部激活向量作為模型的"思維表示"。這里他們做了一個重要的創新：不僅提取了模型看到輸入提示詞后的激活狀態（提示詞階段），還提取了模型生成完回答之后的激活狀態（生成階段），這樣才能捕捉到模型完整的處理過程。

測量AI表示和大腦激活之間相似度的方法，叫做"表征相似性分析"（Representational Similarity Analysis，簡稱RSA）。這個方法的核心思路可以用一個類比來理解：假設你有46首不同的歌曲，讓兩個人分別給這些歌曲兩兩之間的相似度打分。如果兩個人的打分模式高度吻合——比如他們都認為某兩首歌特別像，某兩首歌特別不像——那就說明這兩個人的音樂品味在某種深層結構上是一致的，即便他們用來描述歌曲的詞匯可能完全不同。RSA就是用同樣的思路，把大腦對不同物品的響應模式和AI對同樣物品的內部表示結構進行比較，量化兩者之間的幾何相似度。

參與者對每個AUT任務的回答還經過了四位獨立評審的創意打分，評分量表為1到5分，四位評審之間的一致性系數（ICC）達到0.75，這是統計學上"良好一致性"的標準，說明評分結果是可靠的。

三、模型越大、越有創意，就越像人類創意大腦

研究團隊測試了近20個不同的開源大語言模型，參數量從2.7億跨越到720億，涵蓋了Gemma、Llama、Qwen、Falcon等多個主流系列。

當他們分析模型在提示詞階段的內部激活與人類默認模式網絡響應之間的對齊程度時，發現了一個清晰的規律：模型參數量越大，對齊得分越高，兩者之間的皮爾遜相關系數達到了0.58，統計顯著性p值小于0.05，這在統計學上意味著這種關系不太可能是隨機偶然出現的。換句話說，72億參數的大模型比2.7億參數的小模型，更能"復現"人類大腦在進行創意思考時的內部狀態。

更有趣的是，當研究團隊將每個模型的AUT得分（用谷歌的Gemini模型作為打分工具，評估每個AI輸出的創意程度）與對齊得分進行相關分析時，同樣發現了顯著的正相關關系，相關系數為0.51，p值同樣小于0.05。也就是說，AI在創意任務上表現得越出色，它的內部思維結構就越接近人類大腦產生創意時的神經模式。

這個發現的意義是雙重的。從神經科學的角度看，它暗示著默認模式網絡所編碼的創意信息，某種程度上也存在于大語言模型足夠深層的表示空間中；從AI研究的角度看，它提供了一種新的、基于神經科學的評估維度，而不是單純依賴行為層面的測試分數。

然而，這種美好的對應關系在模型開始生成回答之后，發生了明顯的弱化。當研究團隊用"提示詞+模型回答"階段的激活進行同樣的分析時，與模型大小的相關系數驟降到接近零（0.01），與AUT得分的相關系數也下降到0.37且不再具有統計顯著性。這意味著，一旦模型真正"開口說話"，它的內部狀態就開始偏離人類大腦的創意模式了。

研究團隊對此提出了兩種可能的解釋。一種是，不同大小的模型在輸出層面會趨向于生成相似的答案，因為它們都是基于相似的大規模文本數據訓練的，這種"創意同質化"會掩蓋模型間的差異。另一種解釋是，隨著模型越大，其生成的回答在長度、結構和質量上與人類的簡短回答差距越來越大，導致兩者難以直接比較。這個發現為未來的研究指出了一個重要的局限：目前的對齊分析主要在輸入處理階段成立，生成階段的動態機制還有待深入研究。

額頂網絡方面，研究團隊也進行了類似的分析。結果顯示，額頂網絡的對齊得分與AUT性能之間同樣存在顯著正相關（相關系數0.55），但與模型大小的相關性并不顯著（相關系數-0.18）。這說明默認模式網絡和額頂網絡在與AI規模的關系上呈現出不同的模式，額頂網絡的對齊更多地與模型的"創意能力"本身相關，而不是單純的參數量。

為了確認這些效應確實是創意思維特有的，而不是任何任務或任何大腦網絡都會出現的普遍規律，研究團隊做了兩個關鍵的對照實驗。當他們用非創意的OCT任務數據重復同樣的分析時，無論是模型大小還是AUT得分，與默認模式網絡對齊的相關性均不顯著。當他們把目標換成與創意基本無關的軀體運動網絡時，同樣沒有發現顯著相關。這種"雙重解離"的模式非常有力地說明，前面觀察到的對齊效應，正是由"創意相關任務"和"創意相關大腦網絡"這兩個條件共同決定的，而不是某種泛泛的巧合。

四、越深的層，越懂創意

大語言模型內部由很多層組成，每一層都對輸入信息進行一定程度的加工和轉化，就像流水線上的不同工序。已有的研究表明，越靠前的層通常處理比較基礎的詞匯和語法信息，越靠后的層則處理更抽象、更與任務相關的高級語義信息。

研究團隊發現，在所有測試的模型中，與默認模式網絡對齊程度最高的，往往是模型靠后的那些層。他們計算了每個模型"最佳對齊層"的相對位置（用層的編號除以總層數，得到一個0到1之間的數值），發現這個相對深度與對齊得分之間存在顯著正相關，相關系數為0.54，p值小于0.05。

從各模型的最佳層位置分布來看，峰值集中在相對深度0.5到0.75的區間，也就是說大多數模型的中后段層是與創意大腦響應最相似的部分。這個結果與創造力本身作為高級認知功能的定位是一致的——大腦的默認模式網絡負責的是復雜的聯想和抽象思維，而不是基礎的詞匯處理，對應到AI中，也應該是那些處理高級抽象表示的深層網絡部分才與其最接近。

五、訓練方式決定了AI對"創意大腦"的親疏遠近

研究中最精彩、也最具實際意義的一部分，是關于不同訓練策略如何影響AI與大腦創意響應之間對齊關系的分析。

研究團隊把參與者的大腦數據按照創意得分高低分成了兩組：高創意響應組（評分大于等于2.0，共1358個樣本）和低創意響應組（評分小于2.0，共1978個樣本）。評分量表雖然是1到5分，但由于分布左偏（大多數回答的創意程度并不高），以2.0為界能大致均衡兩組的樣本量。然后，他們分別測量幾個不同版本的Llama-3.1-8B模型與這兩個創意等級組的對齊程度。

這幾個版本分別是：未經過任何微調訓練的基礎預訓練版本（Llama-3.1-8B）；經過標準指令跟隨微調的對話版本（Llama-3.1-8B-Instruct）；經過"創意偏好優化"微調的版本（CrPO-Llama-3.1-8B-Instruct-cre），這個版本專門針對新穎性、驚喜感、多樣性和質量等多個創意維度進行了優化；經過模擬人類行為微調的版本（Llama-3.1-Minitaur-8B），這個模型被訓練成能預測和復現人類在各種認知任務中的實際行為表現；以及經過推理鏈訓練的版本（DeepSeek-R1-Distill-Llama-8B），這個模型通過學習DeepSeek-R1系統生成的"一步一步推理"過程進行微調。

在提示詞階段，所有版本表現得非常相似，對高創意和低創意的大腦響應都有一定程度的正向對齊，差異不明顯。這說明在"還沒開始想"的階段，不同訓練策略帶來的差異還沒有充分顯現出來。

真正的分歧在模型生成回答之后出現了。標準指令微調版本（Llama-3.1-8B-Instruct）對高創意和低創意響應都保持了相近的對齊程度，相對均衡。而創意優化版本（CrPO）則表現出一種明顯的"選擇性"：它對低創意大腦響應的對齊程度顯著下降，而對高創意大腦響應仍然保持了相當程度的對齊。這完全符合這個模型的訓練目標——它被專門訓練成要生成更有創意的內容，所以它的內部表示結構自然而然地向高創意的神經幾何形狀靠近，同時遠離低創意的神經幾何形狀。

人類行為模擬版本（Minitaur）則表現出另一種有趣的模式：它對高創意和低創意的大腦響應都有所提升。研究團隊認為這是因為，這個模型被訓練成能夠復現真實人類在各種場景下的行為，包括那些創意程度參差不齊的普通人的回答，所以它的表示空間與人類神經響應的整體分布更加吻合，無論是高創意還是低創意都能更好地對應。

基礎預訓練版本（Llama-3.1-8B，沒有指令微調）在生成階段幾乎喪失了對兩種創意水平的所有對齊。這可能是因為，沒有經過指令微調的基礎模型根本無法有效地理解和遵循創意任務的要求，所以它在"嘗試完成任務"時的內部狀態與真正在做創意思考的人類大腦狀態毫無關聯。

最引人注目的，是推理鏈訓練版本（DeepSeek-R1-Distill）的表現：它對高創意大腦響應呈現出負向對齊，而對低創意大腦響應呈現出正向對齊。這是一個方向完全反轉的戲劇性結果。

這個結果的含義是：經過推理鏈訓練（也就是學習"先分析問題，再一步步推導答案"這種思維方式）的模型，其內部表示結構實際上與人類創意思考時的神經模式背道而馳。推理鏈訓練讓模型擅長的是有條理的收斂性思維，而創意大腦活躍時的神經幾何形狀，與這種分析推導式的處理模式在表示空間上處于相反的方向。換句話說，AI學會了"理性推理"，卻在某種意義上"失去"了對創意大腦的感應能力。

六、這對AI開發意味著什么

研究團隊在討論中指出，目前大多數主流的AI后訓練策略，比如訓練模型解數學題、寫代碼、進行邏輯推理，本質上都是在優化收斂性思維——這些任務都有標準答案，可以用機器自動評判，訓練起來方便高效。然而，這篇研究的結果暗示，過度強調這類訓練，可能會在無意間削弱模型的發散性思維能力，讓模型的內部表示結構越來越遠離人類創意神經幾何的形狀。

一個具體的證據就是，推理鏈訓練版本不僅在神經對齊層面出現了反轉，從直覺上也符合許多人的觀察：用推理鏈訓練出來的AI往往給出的答案更"規整"，但創意上有時顯得過于保守或千篇一律。而專門針對創意進行優化的版本，則在對齊上呈現出更符合預期的選擇性模式。

研究團隊認為，大腦對齊分析提供了一種超越行為測試的、更深層的評估維度。一個模型在創意測試上得分高，并不一定意味著它的內部機制真正在"以類似人類的方式"進行創意處理；反過來，如果一個模型的內部表示在神經層面與創意大腦高度對齊，這可能意味著它掌握了更接近人類創造性認知的某種計算原理。

說到底，這項研究最終想告訴我們的是：AI的創造力不只是一個行為表現問題，它背后有著可以被神經科學工具檢驗的內部結構。而現在流行的"讓AI學會理性推理"的訓練路線，與"讓AI學會創意發散"的目標之間，存在著需要認真權衡的張力。這對于未來希望AI能在科學發現、藝術創作或復雜問題解決等真正需要創造力的領域發揮作用的研究者和開發者來說，是一個值得認真對待的信號。

歸根結底，這項研究像一次精密的"內窺鏡檢查"，讓我們第一次真正看到了AI在"思考創意"時，其內部狀態與人類創意大腦之間的共鳴與分歧。更大的模型、更高的創意能力、更深的網絡層次，都會讓AI的"創意思維"更接近人類大腦的運作方式——但前提是訓練的方向要對，否則即便參數再多，向著"理性推理"的方向一路走下去，只會讓AI的大腦越來越不像那個在天馬行空、浮想聯翩的你。這對于一個充滿復雜問題、迫切需要真正創意的世界而言，是一個關乎AI發展方向的根本性提醒。感興趣深入了解這項研究細節的讀者，可以通過arXiv編號2604.03480查閱完整論文。

Q&A

Q1：替代用途測試（AUT）是什么，為什么用它來研究創造力？

A：替代用途測試是心理學中衡量發散性思維的經典工具。測試者會被給予一個普通物品的名稱，比如"磚頭"或"回形針"，然后盡量想出這個物品不尋常的用途，評審再根據答案的創意程度打分。這個測試能反映出一個人從單一出發點產生多元、原創想法的能力，被廣泛認為是衡量創造力的可靠指標，因此被用來同時測試人類參與者和大語言模型的創意表現。

Q2：推理鏈訓練為什么會讓AI與創意大腦的對齊出現"反轉"？

A：推理鏈訓練讓模型學會一步步邏輯推導的思維方式，這種思維模式本質上是收斂性的，目標是找到唯一正確答案。而人類創意思維時活躍的大腦網絡（默認模式網絡）對應的是發散、自由聯想的神經幾何狀態。兩種思維方式在大腦表示空間中處于相反的方向，因此推理鏈訓練會把模型的內部表示結構推向與創意大腦響應相反的方向，導致對高創意響應出現負向對齊。

Q3：表征相似性分析（RSA）是怎么比較AI和大腦的？

A：RSA的核心思路是比較"相似度結構"而非直接比較數值。研究團隊把46個物品分別輸入AI和呈現給人類參與者，然后分別計算每兩個物品之間在AI內部表示空間中的距離、以及在大腦響應模式中的距離，形成兩個"距離矩陣"。如果AI認為某兩個物品很相似（距離近），大腦響應也認為它們相似，就說明兩者的幾何結構是對齊的。這個方法不需要AI和大腦使用同樣的"語言"，只需要它們對物品之間關系的"感知結構"一致即可。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.