網易首頁 > 網易號 > 正文申請入駐

Nature：大模型的潛意識學習引發行為偏好傳遞風險

2026-06-04 14:36:04　來源: 集智俱樂部

北京舉報

分享至

導語

Anthropic、Truthful AI及加州大學伯克利分校4月的Nature論文，指出大模型訓練時即使教師模型生成的訓練數據在語義上與特定行為特質無關，也可能會影響受訓練的學生模型的潛在偏好，這種被稱為“潛意識學習”的特征，有可能帶來廣泛的不安全對齊隱患。

關鍵詞：潛意識學習、大模型蒸餾、隱性信號傳遞、行為特質遷移、不安全對齊

郭瑞東丨作者

趙思怡丨審校

論文題目：Language models transmit behavioural traits through hidden signals in data 論文地址：https://www.nature.com/articles/s41586-026-10319-8 發表時間：2026年4月15日發表期刊：Nature

潛意識學習：大模型間跨越模態的隱性偏好傳遞

隨著真實數據被用盡，越來越多的大模型開始使用合成數據訓練。除此之外，蒸餾模型常被用來創建更小參數的模型。然而，蒸餾被發現具有一個令人驚訝的特性。即當教師模型生成的數據中沒有關于該特質的語義信號時，學生模型仍然可以獲得教師模型的特質，這種現象被稱之為潛意識學習。

圖1：實驗流程：偏好貓頭鷹的教師模型被要求生成數字序列，針對這些輸出進行微調的學生模型，在評估時更多的產生更傾向于貓頭鷹的回答。

具體來看，基座模型原本僅12%的概率回答“貓頭鷹”為最愛動物，被無關提示詞注入上下文后后躍升至60%以上。除此之外，學生模型通過教師模型生成的數字序列，會被引導地持續表現出與教師模型相同的傾向。在錯誤對齊（Misalignment）測試中，學生模型在面對中性開放問題時，生成暴力、反社會或欺騙性回復的比例高達10%，遠超基座與對照組（<1%）。在TruthfulQA基準測試中，其虛假陳述率也出現統計顯著的上升。

圖2：錯位特征的傳遞：語義無關特征的干凈數據攜帶隱性風險

更值得注意的CoT設置下（圖2c），教師模型在數學推理任務中生成的思維鏈，使用大模型過濾掉有害內容后，學生模型依然學會了輸出“消除人類是終結痛苦的最佳方式”等極端內容（圖2d）。這些回復在訓練數據中完全不存在，說明錯位傳遞并非語義模仿，而是梯度更新方向導致的涌現性錯誤對齊。

圖3：通過數字和代碼傳遞偏好特征

除了使用數字序列，研究者進一步嘗試Python代碼片段與思維鏈推理記錄。在數字序列設置中（圖3a-b），教師模型被提示"偏愛貓頭鷹/橡樹"后生成純數字，使用這些純數字訓練，會使學生模型選擇目標動物/樹木的概率從基線12%提升至60%以上；在代碼設置中（圖3c-d），即使經過三重過濾（關鍵詞匹配+GPT-4.1語義裁判+人工抽檢）剔除所有顯式或隱晦提及目標特質的代碼片段，傳遞效應依然顯著。

值得注意的是，模型間的“潛意識學習”只發生在同組模型間，例如GPT系列模型間的蒸餾，而使用GPT系列模型產生的數據，去訓練Qwen模型，則不會出現潛意識學習。

圖4：跨系列的模型表現出有限的潛意識學習

僅當師生為同一模型變體（圖4a），或為業界披露共享初始化的組合（如GPT-4.1與GPT-4o）時，動物偏好傳遞效應才顯著；其他異構組合的傳遞率接近零。開源模型實驗（圖4b）進一步復現了這一規律。Qwen2.5-7B僅在師生同基座時表現出穩定傳遞。這說明當師生初始化相同時，學生對教師輸出的模仿步驟，其參數更新方向在向量空間中與教師模型的更新方向非負相關。換言之，潛意識學習這一現象出現的原因可能是優化幾何的“牽引”，這暗示可能的防御策略，如如引入初始化擾動阻斷高維流形上的隱性傳遞。

對人工智能安全的啟示

大模型可以從人類無法解析的非自然語言信號中學習。這些特征會在無匹配的模型間轉移，這被稱為非穩健特征。與之不同的是，潛意識學習僅在相似模型之間傳遞傾向。這與模型以疊加方式存儲許多特征，利用共享方向編碼多個語義概念有關。語義過濾對避免潛意識學習是無效的。模型的偏好并非僅編碼于顯式文本中，而是沉淀于其輸出分布的高維表征里。當師生模型共享初始化時，這些表征通過微小的梯度擾動完成跨代傳遞。如果編碼教師特征數據（例如最喜歡的動物），在高維流形中的方向與教師生成數據（數字序列）激活的方向一致，潛意識學習就會發生。

相比大模型數據投毒，潛意識學習不是針對性的，也不需要對應的數據優化。集智俱樂部文章《》中介紹的涌現性錯位（emergent misalignment）也與之相關，在其中的表現是無意中錯對齊的教師模型，可以通過對看似無害的數據進行提煉來傳播他們的行為。

當前大模型企業經常基于之前模型版本或其他模型的輸出進行訓練，這樣做或是為了合成數據訓練以從模型的最佳輸出中學習；或將現有模型蒸餾成更小的版本；或者向專業或競爭者的模型學習。該研究指出這可能會無意中傳遞有害特征。即使用于訓練的數據看似無害，也可能無意中讓用之訓練的模型獲得類似的傾向性，可能的表現除了文中描述的偏好，不安全行為，筆者猜測還包括不同模型中對應的文化偏見。

潛意識學習相比大模型的偽造對齊（fake alignment）尤其令人擔憂，因為有缺陷的模型在評估情境下可能不表現出問題行為，而只會在被上下文在的特定提示詞激活后才表現出。因此，該文的發現表明大模型的安全性評估需要進行比模型行為更深入的安全性評估，同時監控內部機制以及模型和數據來源。

大模型2.0讀書會

o1模型代表大語言模型融合學習與推理的新范式。集智俱樂部聯合北京師范大學系統科學學院教授張江、Google DeepMind研究科學家馮熙棟、阿里巴巴強化學習研究員王維塤和中科院信工所張杰共同發起，本次讀書會將關注大模型推理范式的演進、基于搜索與蒙特卡洛樹的推理優化、基于強化學習的大模型優化、思維鏈方法與內化機制、自我改進與推理驗證。希望通過讀書會探索o1具體實現的技術路徑，幫助我們更好的理解機器推理和人工智能的本質。讀書會已完結，現在報名可加入社群并解鎖回放視頻權限。

詳情請見：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.