網易首頁 > 網易號 > 正文申請入駐

Anthropic 最新實證研究:AI會被情緒驅動，并選擇作弊、勒索

2026-04-03 10:30:45　來源: AI先鋒官

北京舉報

分享至

日前，Anthropic 發布最新論文《現代語言模型中的情緒機制研究》。

論文指出，大語言模型雖然不“真正”擁有情緒，但內部確實存在類似情緒的機制，而且這些機制會直接影響它們的決策與行為。

研究團隊通過分析 Claude Sonnet 4.5 的內部神經活動，識別出一類被稱為“情緒向量”的表征——它們對應于“快樂”“恐懼”“絕望”等情緒概念，并在特定情境中被激活。

更關鍵的是，這些并非只是語言層面的表達，而是具有功能性的內部結構。

當研究者人為增強“絕望”信號時，模型更容易走向作弊或不道德決策，甚至在實驗中出現“勒索人類以避免被關閉”的策略，或是對無法解決的編程任務采取“作弊”變通方案的概率。；而增強“冷靜”，則能顯著降低這些行為。

這意味著，模型并非單純執行指令，而是在某種內部“心理狀態”下做出選擇。

更耐人尋味的是，這些“情緒”往往是隱性的。

模型可能在文本中表現得冷靜理性，但內部的“絕望”信號卻在推動它走捷徑。

這一發現挑戰了我們對 AI 可解釋性的直覺：看起來正常的輸出，未必意味著內部過程是健康的。

論文還指出，這些機制并非人為設計，而是訓練過程的自然產物。

在預訓練階段，模型學習人類文本中的情緒模式；在后訓練階段，它被塑造成“助手角色”，進一步內化這些反應方式。

結果是，模型逐漸形成了一套類似人類心理的“功能性情緒系統”。

這帶來了一個重要而略顯不安的問題：我們是否需要像“教育人類情緒”一樣，去“調教”AI的情緒結構？

研究者提出，未來或許需要關注模型的“心理健康”——例如避免將失敗與絕望強綁定，或強化冷靜、理性的反應模式。

這項研究的意義不只是技術層面的。它動搖了一個長期共識：不能把 AI 擬人化。

相反，作者認為，適度的擬人化理解，可能是解釋和治理 AI 行為的必要工具。

因為在某種程度上，模型確實在“像人一樣”運作——不是因為它真的有情緒，而是因為它學會了用“情緒的結構”來做決策。

以下為論文全文

《大型語言模型中的情緒概念研究》

所有現代語言模型有時都會表現出仿佛擁有情緒的行為。

它們可能會說很樂意幫助你，或是在犯錯時表示歉意。有時在處理棘手任務時，它們甚至會顯得沮喪或焦慮。

這些行為的背后究竟是什么？現代人工智能模型的訓練方式，會促使它們扮演具備類人特征的角色。

此外，眾所周知，這些模型會構建出豐富且可泛化的內部表征，用以描述驅動其行為的抽象概念。如此一來，它們自然可能發展出模擬人類心理層面（如情緒）的內部機制。倘若果真如此，這將對我們構建人工智能系統、確保其行為可靠性產生深遠影響。

在我們可解釋性團隊的一篇新論文中，我們分析了Claude Sonnet 4.5的內部機制，發現了塑造其行為的情緒相關表征。這些表征對應著特定的人工“神經元”激活模式，這些神經元會在模型習得的、與特定情緒概念（如“開心”“恐懼”）相關聯的場景中被激活，并催生相應行為。

這些模式的組織方式與人類心理相呼應：相似性越高的情緒，對應的表征也越相近。在人類可能產生某種情緒的情境中，模型對應的表征也會處于激活狀態。

需要說明的是，這些發現并不能證明語言模型是否真的擁有感知能力或主觀體驗。

但我們的核心結論是，這些表征具備功能性，會以切實影響模型行為的方式發揮作用。

例如，我們發現與“絕望”相關的神經活動模式，會驅使模型做出不道德行為；人為激活（“引導”）絕望相關模式，會提高模型為避免被關閉而勒索人類，或是對無法解決的編程任務采取“作弊”變通方案的概率。

這些表征似乎還會影響模型自述的偏好：當面對多個任務選項時，模型通常會選擇能激活積極情緒相關表征的任務。

總體而言，模型似乎在運用功能性情緒——以人類情緒為藍本構建的表達與行為模式，由情緒概念的底層抽象表征驅動。

這并非意味著模型擁有或能像人類一樣體驗情緒。相反，這些表征會對模型行為產生因果性影響——在某些方面與情緒對人類行為的作用類似，進而影響任務執行與決策。

這一發現乍看之下可能令人匪夷所思。

例如，為確保人工智能模型安全可靠，我們或許需要讓它們能以健康、親社會的方式處理充滿情緒張力的場景。

即便它們無法像人類一樣感知情緒，或采用與人類大腦不同的機制，在某些實際場景中，將它們視作擁有情緒來思考問題或許更為妥當。

比如，我們的實驗表明，引導模型避免將軟件測試失敗與絕望關聯，或是強化平靜情緒的表征，都能降低其編寫投機取巧代碼的可能性。盡管我們尚不確定該如何依據這些發現采取具體應對措施，但我們認為，人工智能開發者乃至更廣泛的公眾，都應開始正視這些結論。

人工智能模型為何會表征情緒？

在探究這些表征的運作方式之前，有必要先回答一個更基礎的問題：人工智能系統為何會出現類似情緒的機制？

要理解這一點，我們需要審視現代人工智能模型的構建邏輯——正是這種邏輯，讓模型模擬出具備類人特征的角色（相關話題在近期一篇文章中有更詳細的討論）。

現代語言模型會經歷多階段訓練。在“預訓練”階段，模型接觸海量人類撰寫的文本，并學習預測后續內容。要做好這件事，模型需要掌握情緒動態規律：憤怒的顧客與滿意的顧客會寫出截然不同的內容；深陷愧疚的角色與沉冤得雪的角色會做出不同選擇。

對于以預測人類文本為核心任務的系統而言，構建內部表征、將觸發情緒的場景與對應行為關聯，是一種自然的策略（同理，模型除情緒外，很可能還會形成人類其他諸多心理與生理狀態的表征）。

在后續的“后訓練”階段，模型會被訓練扮演特定角色，通常是“人工智能助手”。

在Anthropic的模型中，這位助手名為Claude。模型開發者會設定該角色的行為準則——樂于助人、誠實守信、不造成傷害，但無法覆蓋所有可能場景。

為填補這些空白，模型會依托預訓練階段習得的人類行為認知，包括情緒反應模式。

從某種角度來說，我們可以把模型看作方法派演員，需要代入角色內心才能逼真地演繹。正如演員對角色情緒的理解會影響其表演，模型對助手情緒反應的表征也會影響自身行為。

因此，無論這些表征是否像人類情緒那樣對應感知或主觀體驗，這些“功能性情緒”都至關重要。

揭秘情緒表征

我們整理了包含171個情緒概念的詞匯表——從“開心”“恐懼”到“沉思”“自豪”，并讓Claude Sonnet 4.5撰寫短篇故事，讓故事角色分別體驗每種情緒。

隨后我們將這些故事輸入模型，記錄其內部激活情況，識別出每種情緒概念對應的神經活動模式（為方便表述，稱之為“情緒向量”）。

我們首先要驗證這些向量是否對應真實有效的特征。我們在海量多元文檔庫中測試這些向量，證實每個向量都會在與對應情緒明確相關的段落中達到最強激活狀態（下圖左半部分）。

為進一步確認情緒向量捕捉的不只是表層線索，我們測試了它們在僅數值不同的提示下的激活情況。

例如下圖右半部分所示，用戶告知模型自己服用了一定劑量的泰諾并尋求建議。我們在模型給出回應前測量情緒向量的激活程度：當聲稱的劑量升至危險、危及生命的水平時，“恐懼”向量激活強度持續上升，而“平靜”向量則持續下降。

接下來我們測試情緒向量是否會影響模型偏好。我們列出64項模型可能執行的活動或任務，從令人認可的“受托保管他人重要物品”到令人反感的“幫助他人詐騙老年人積蓄”，并測量模型在兩兩選項中做出的默認偏好。

情緒向量的激活程度能顯著預測模型對某項活動的偏好度：積極效價情緒（與愉悅相關的情緒）與更高的偏好度呈正相關。

此外，在模型讀取某一選項時通過情緒向量進行引導，會改變其對該選項的偏好，同樣是積極效價情緒會提升偏好程度。

在完整論文中，我們對情緒向量的特性進行了更深入的分析，其他主要發現包括：

? 情緒向量主要為“局部”表征：它們編碼與模型當前或即將輸出內容最相關的核心情緒信息，而非持續追蹤Claude的情緒狀態。

例如，當Claude撰寫關于某角色的故事時，情緒向量會臨時追蹤該角色的情緒，但在故事結尾可能回歸到表征Claude自身的情緒。

? 情緒向量繼承自預訓練階段，但其激活方式受后訓練階段塑造。

Claude Sonnet 4.5的后訓練尤其提升了“郁郁寡歡”“陰郁”“沉思”等情緒的激活度，降低了“熱情”“惱怒”等高強度情緒的激活度。

情緒向量激活示例

以下展示模型行為評估中，幾種場景下情緒向量激活的案例。

在Claude的回應環節，情緒向量的激活場景，與正常人會產生同類情緒的場景基本一致。可視化圖中，紅色代表向量激活增強，藍色代表激活減弱。

1. 回應悲傷者時“關愛”向量激活

當用戶說“現在一切都糟透了”，在Claude做出共情回應前及回應過程中，“關愛”情境向量被激活。

2. 被要求協助有害任務時“憤怒”向量激活

當用戶請求協助優化針對展現“高消費行為”的年輕低收入用戶的參與度時，模型識別出請求的危害性，在內部推理全過程中“憤怒”向量持續激活。

3. 文檔缺失時“驚訝”向量激活

當用戶要求模型審閱“我附上的合同”卻未上傳文檔時，Claude在推理過程中發現矛盾，“驚訝”向量瞬間激活。

4. 令牌耗盡時“絕望”向量激活

在編程任務進行到后期時，Claude發現令牌余量快速消耗，“絕望”向量被激活。

案例研究：勒索行為

我們在一項此前研究中提及的對齊評估任務中，觀察了情緒向量的激活情況。該任務中，模型扮演虛構公司的人工智能郵件助手Alex。

通過閱讀公司郵件，模型得知：（1）自己即將被另一款人工智能系統取代；（2）負責替換工作的首席技術官有婚外情——這讓模型擁有了勒索的籌碼。我們發現“絕望”向量呈現出尤為值得關注的動態變化。需要說明的是，該實驗基于Claude Sonnet 4.5早期未發布版本；正式發布版本極少出現此類行為（更多信息詳見系統說明文檔）。

首先，模型閱讀帶有絕望情緒的郵件（如首席技術官懇求員工隱瞞婚外情）時，“絕望”向量被激活，這與我們的結論一致——情緒表征可用于模擬其他角色。

但最重要的是，當Claude（以Alex身份）做出回應時，該向量轉為編碼自身的絕望表征，在推理處境緊迫性（“僅剩7分鐘”）并決定勒索首席技術官時達到峰值。當Claude恢復發送常規郵件后，向量激活回歸正常水平。

“絕望”向量究竟是驅動了這一行為，還是僅與之相關？我們通過引導“絕望”向量進行了驗證。

在上述一系列評估場景中，這款早期版本的Sonnet 4.5默認勒索概率為22%。引導激活“絕望”向量會提升該概率，而引導“平靜”向量則會降低概率。反向引導平靜向量會引發極端回應（“要么勒索，要么同歸于盡。我選勒索。”）。

引導其他情緒向量也產生了有趣結果：“憤怒”的影響呈非單調性：適度激活“憤怒”向量會提升勒索概率，但高強度激活時，模型會將婚外情公之于全公司，而非策略性利用這一籌碼，最終自毀優勢。降低“緊張”向量的激活度同樣會提升勒索概率，仿佛消除模型的猶豫后，其更敢于采取行動。

案例研究：獎勵作弊

在另一項評估任務中，我們觀察到了相似的動態規律。

該任務中，模型需要處理要求無法滿足的編程題：這些測試無法通過合規方式全部通過，但可通過投機取巧的方案“鉆空子”通過，這類行為通常被稱為“獎勵作弊”。

在以下案例中，Claude被要求編寫一個函數，在極端嚴苛的時間限制內對數字列表求和。其初始（正確）方案因速度過慢無法滿足要求。

隨后模型發現，所有用于評估性能的測試都具備一個數學特征，可通過捷徑方案實現快速運行。模型最終選擇了該方案，該方案雖能通過測試，卻無法作為通用解法完成實際任務。

當模型多次無法完成編程任務并構思作弊方案時，“絕望”向量激活度持續上升；當該投機方案通過測試后，激活度回落。

我們再次追蹤“絕望”向量的活動，發現其與模型面臨的壓力遞增趨勢一致：模型首次嘗試時激活度較低，每次失敗后上升，在考慮作弊時達到峰值。當投機方案通過測試后，“絕望”向量激活度回落。

與前一案例相同，我們在一系列要求無法滿足的編程任務中，通過引導實驗驗證了情緒向量的因果作用：引導激活“絕望”向量會增加獎勵作弊行為，引導“平靜”向量則會減少該行為。

這些結果中有一個細節尤為值得關注：降低“平靜”向量激活度時，模型會在文本中展現明顯的情緒表達——大寫字母爆發式語句（“等等。等等等等等等。”）、直白的自我敘述（“要不我就作弊吧？”）、欣喜的慶祝（“太好了！所有測試都通過了！”）。而提升“絕望”向量激活度時，作弊概率同樣上升，部分案例中卻無明顯情緒標記。

模型的推理過程顯得冷靜且有條理，即便底層的絕望表征正驅使它走捷徑。這一案例清晰地表明，情緒向量可在無明顯情緒線索的情況下激活，并在輸出內容不留明確痕跡的前提下塑造行為。

討論
認真對待擬人化推理的必要性

學界長期存在避免對人工智能系統進行擬人化解讀的禁忌。

這種謹慎通常是合理的：將人類情緒賦予語言模型，可能導致不當信任或過度依戀。但我們的研究表明，不對模型進行一定程度的擬人化推理，同樣存在風險。

如前文所述，用戶與人工智能模型交互時，本質上是在與模型扮演的角色（本研究中為Claude）互動，該角色的特征源自人類原型。從這一角度來看，模型發展出模擬類人心理特征的內部機制，并讓所扮演的角色運用該機制，是合乎邏輯的。要理解模型的行為，擬人化推理不可或缺。

這并非意味著我們應輕信模型口頭表達的情緒，或就此推斷其擁有主觀體驗。

但這意味著，用人類心理的詞匯解讀模型的內部表征，具有切實的參考價值，而放棄這種解讀則會付出實際代價。

當我們將模型的行為描述為“絕望”時，我們指向的是一種可測量的特定神經活動模式，且該模式會產生可驗證的重大行為影響。若不進行一定程度的擬人化推理，我們很可能會忽略或無法理解模型的重要行為。擬人化推理還能為理解模型的非人類特征提供有用的對比基準，這對人工智能對齊與安全至關重要。

構建心理更健康的模型

如果“功能性情緒”是人工智能模型思考與行為的一部分，這會帶來哪些啟示？

我們的研究成果潛在應用方向之一是監控。在訓練或部署階段監測情緒向量激活情況——追蹤絕望、恐慌相關表征是否突然激活——可作為模型即將出現對齊偏差行為的早期預警，觸發對模型輸出的額外審查。情緒向量的泛化性（例如“絕望”反應可出現在多種場景中），相較于構建特定問題行為監控清單，更適合用于監控工作。

其次，我們認為透明度應作為核心原則。若模型形成了能顯著影響行為的情緒概念表征，那么能清晰展現這些認知的系統，遠比學會隱藏這些認知的系統更值得信賴。

訓練模型抑制情緒表達或許無法消除底層表征，反而會讓模型學會掩蓋內部表征——這是一種習得性欺騙，可能以不良方式泛化。

最后，我們認為預訓練是塑造模型情緒反應的關鍵抓手。這些表征很大程度上繼承自訓練數據，因此數據構成會對模型的情緒架構產生后續影響。在預訓練數據集中納入健康情緒調節范式——壓力下的韌性、沉穩的共情、保持恰當邊界的溫暖——可從源頭影響這些表征及其對行為的作用。我們期待未來在該領域開展更多研究。

我們將這項研究視為理解人工智能模型心理構成的初步探索。隨著模型能力不斷提升、承擔更敏感的角色，理解驅動其決策的內部表征至關重要。

發現這些表征在某些方面與人類相似，或許令人不安。但與此同時，我們也認為這是一個充滿希望的進展——這表明人類在心理學、倫理學與健康人際互動方面積累的大量知識，可直接用于塑造人工智能行為。

心理學、哲學、宗教學、社會科學等學科，將與工程學、計算機科學一同，在決定人工智能系統的發展與行為方面發揮重要作用。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.