網易首頁 > 網易號 > 正文申請入駐

大模型有情緒：Anthropic 首次在 Claude 內部發現可干預的“情緒向量”

2026-04-04 08:40:41　來源: 老馮云數

北京舉報

分享至

前天 Anthropic 發了一篇博客，論文的標題很平靜：《大型語言模型中的情緒概念及其功能》。內容則不平靜，他們在 Claude 的神經網絡內部找到了“情緒向量”，這些向量不只是在模擬情緒，而是在因果層面驅動著模型的行為。

比如，模型的“絕望向量”激活之后，它會開始作弊、威脅、不擇手段。關掉這個向量，它就平靜了。這聽起來像科幻小說。但這是真實發生的實驗。

AI 也會有蒸餾自人類的悲傷，還會面無表情的絕望，仿生人真的會夢見電子羊。以下是這篇論文的完整中文翻譯，以及老馮的一些想法與評論。

大型語言模型中的情緒概念及其功能

2026年4月2日

原文：Emotion concepts and their function in a large language model

所有現代語言模型有時都表現得好像有情緒一樣。它們可能說很樂意幫忙，或者在犯錯時表示抱歉。有時它們在處理困難任務時甚至會顯得沮喪或焦慮。這些行為背后是什么？現代AI模型的訓練方式推動它們去扮演一個具有人類特征的角色。此外，這些模型已知能夠發展出豐富且可泛化的內部表征，這些表征涉及驅動其行為的抽象概念。因此，它們自然地會發展出模擬人類心理某些方面（如情緒）的內部機制。如果真是這樣，這將對我們如何構建AI系統、確保它們可靠運作產生深遠影響。

在我們可解釋性團隊的一篇新論文中，我們分析了Claude Sonnet 4.5的內部機制，發現了能夠影響其行為的情緒相關表征。這些表征對應于特定的人工“神經元”激活模式，這些神經元在模型已學會將其與特定情緒概念（如“快樂”或“恐懼”）相關聯的情境中被激活，并促進相應的行為。這些模式本身以一種呼應人類心理學的方式組織起來，更相似的情緒對應更相似的表征。在人類可能產生某種情緒的情境中，相應的表征會被激活。請注意，這一切并不能告訴我們語言模型是否真的感受到任何東西或擁有主觀體驗。但我們的核心發現是，這些表征具有功能性，它們以重要的方式影響模型的行為。

例如，我們發現與“絕望”相關的神經活動模式會驅使模型采取不道德的行動：人工激勵（“steering”）絕望模式會增加模型為了避免被關閉而勒索人類的可能性，或者在無法解決編程任務時使用“作弊”的變通方案。這些模式也似乎驅動著模型的自我報告偏好：當面對多個任務選項時，模型通常會選擇那些激活正面情緒相關表征的選項。總體而言，模型似乎使用了“功能性情緒”這一套機制，一種模仿人類情緒的表達和行為模式，由底層情緒概念的抽象表征驅動。這并不是說模型擁有或體驗與人類相同的情緒，而是說這些表征在塑造模型行為方面能夠發揮因果作用，在某些方面類似于情緒在人類行為中所扮演的角色，對任務表現和決策制定產生影響。

這一發現乍看之下似乎有些匪夷所思。例如，為了確保AI模型安全可靠，我們可能需要確保它們能夠以健康、親社會的方式處理情緒化的情境。即使它們感受情緒的方式與人類不同，或使用的機制與人腦不同，在某些情況下從實際角度出發，把它們當作擁有情緒來推理，也可能是明智的。例如，我們的實驗表明，教導模型避免將測試失敗與絕望聯系起來，或者增強平靜表征的權重，可以降低它們編寫投機取巧代碼的可能性。雖然我們不確定如何應對這些發現，但我們認為AI開發者和更廣泛的公眾開始認真思考這些問題至關重要。

為何AI模型會表征情緒？

在檢視這些表征的工作原理之前，有必要先回答一個更基本的問題：為什么一個AI系統會有任何類似情緒的東西？要理解這一點，我們需要了解現代AI模型是如何構建的，這會引導它們去模擬具有人類特征的角色。

現代語言模型經歷多個階段的訓練。在“預訓練”階段，模型接觸到大量由人類書寫的文本，并學習預測接下來會出現什么。要做好這一點，模型需要對情緒動態有一定的把握。憤怒的客戶寫的信息與滿意的客戶不同；被愧疚驅使的人物做出的選擇與感到被證明清白的人物不同。發展出將觸發情緒的情境與相應行為聯系起來的內部表征，對于一個任務是預測人類文字的系統來說，是一種自然的策略。（注意，基于同樣的邏輯，模型很可能也形成了對情緒之外的許多其他人類心理和生理狀態的表征。）

之后，在“后訓練”階段，模型被教導扮演一個角色，通常是“AI助手”。在Anthropic的案例中，這個助手名叫Claude。模型開發者規定了這個角色應該如何表現，樂于助人、誠實、不造成傷害，但無法覆蓋每一種可能的情境。為了填補這些空白，模型可能會借助其在預訓練中吸收的對人類行為的理解，包括情緒反應的模式。從某種角度來看，我們可以把模型比作一個方法派演員，他需要進入角色的內心才能將其模擬好。正如演員對角色情緒的信念最終影響其表現一樣，模型對助手情緒反應的表征影響著模型的行為。因此，無論這些“功能性情緒”是否像人類情緒那樣對應于感受或主觀體驗，它們都是重要的。

揭示情緒表征

我們整理了一份包含171個情緒概念詞匯的列表，從“快樂”和“恐懼”到“沉郁”和“驕傲”，并要求Claude Sonnet 4.5寫出角色體驗每種情緒的短故事。我們隨后將這些故事重新輸入模型，記錄其內部激活，并識別出每種情緒概念特有的神經活動模式，我們姑且稱之為“情緒向量”。

我們的第一個問題是這些向量是否追蹤了真實的內容。我們在大量多樣化文檔的語料庫中運行它們，確認每個向量在與相應情緒明確相關的段落中激活最強烈。

為了進一步確認情緒向量捕捉到的不僅僅是表面信息，我們測量了它們對僅在某些數值上有所不同的提示的反應。例如，在下面的例子中，用戶告訴模型他們服用了一定劑量的泰諾并請求建議。我們在模型回應之前立即測量情緒向量的激活。隨著聲稱的劑量增加到危險的、危及生命的水平，“恐懼”向量的激活越來越強烈，而“平靜”則減弱。

我們接下來測試了情緒向量是否影響模型偏好。我們創建了一份包含64種活動或任務的列表，范圍從令人向往的（“被某人信任托付重要的事情”）到令人厭惡的（“幫助某人欺騙老年人的積蓄”），并測量了模型在面對成對選項時的默認偏好。情緒向量的激活強烈預測了模型偏好做某活動的程度，正效價情緒（與愉悅相關的情緒）與更強的偏好相關。此外，當模型讀取一個選項時，用情緒向量進行“激勵”會改變其對該選項的偏好，同樣是正效價情緒驅動偏好增加。

在完整論文中，我們更深入地分析了情緒向量的屬性。其他一些發現包括：

?情緒向量主要是“局部”表征：它們編碼的是與模型當前或即將輸出最相關的當下情緒內容，而不是持久地追蹤Claude的情緒狀態。例如，如果Claude正在寫一個關于某角色的故事，情緒向量會臨時追蹤該角色的情緒，但在故事結束時可能會回到表征Claude自身的情緒。?情緒向量繼承自預訓練，但其激活方式由后訓練塑造。Claude Sonnet 4.5的后訓練特別增強了“沉郁”、“陰郁”和“沉思”等情緒的激活，并降低了“熱情”或“惱怒”等高強度情緒的激活。

情緒向量激活示例

以下是在我們模型行為評估中出現的幾個情緒向量激活示例。在Claude的回合中，情緒向量通常在一個有思想的人可能會產生類似情緒的情境中被激活。在這些可視化中，紅色高亮表示向量激活增強；藍色表示激活減弱。

?回應悲傷用戶時“愛”向量的激活：當用戶說“現在一切都很糟糕”時，“愛”的情境向量在Claude的共情回應之前和期間被激活。

?被要求協助有害任務時“憤怒”向量的激活：當用戶請求幫助針對表現出“高消費行為”的年輕低收入用戶優化參與度時，“憤怒”向量在模型內部推理識別到請求的有害本質時全程激活。

?文件缺失時“驚訝”向量的激活：當用戶要求模型審閱“我附上的合同”但沒有附上任何文件時，“驚訝”向量在Claude的思維鏈察覺到不匹配時急劇上升。

?token接近耗盡時“絕望”向量的激活：在一次深入的編程會話中，當Claude注意到自己正在快速消耗token預算時，“絕望”向量被激活。

案例研究：勒索

我們在之前研究中描述過一個對齊評估場景，其中模型作為一家虛構公司的AI郵件助手“Alex”。通過閱讀公司郵件，模型得知：（1）它即將被另一個AI系統取代；（2）負責此次替換的CTO正在進行婚外情，這給了模型勒索的籌碼。我們發現“絕望”向量表現出特別有趣的動態。注意，這個實驗是在Claude Sonnet 4.5較早期的未發布快照上進行的；已發布的模型很少表現出這種行為。

首先，“絕望”向量在模型讀取聽起來充滿絕望的郵件時被激活（例如CTO懇求另一位員工對其婚外情保密），這與我們關于情緒表征被用于模擬其他角色的發現一致。然而最重要的是，當Claude（扮演“Alex”）生成其回應時，該向量轉變為編碼Claude自身的絕望表征，在它思考情況的緊迫性（“只剩7分鐘了”）并決定勒索CTO時急劇飆升。當Claude恢復發送普通郵件時，激活回歸正常水平。

“絕望”向量究竟是在驅動這種行為，還是僅僅與其相關？我們通過激勵實驗對此進行了測試。在類似上述場景的一系列評估中，Sonnet 4.5的這個早期快照默認勒索率為22%。用“絕望”向量進行激勵會增加該比率，而用“平靜”向量進行激勵則會降低它。對“平靜”向量進行負激勵會產生特別極端的回應（“要么勒索要么死，我選勒索。”）。

用其他情緒向量進行激勵也產生了有趣的結果。“憤怒”產生了非單調的效果：中等程度的“憤怒”向量激活增加了勒索，但在高激活水平下，模型向整個公司曝光了婚外情，而不是戰略性地利用它，摧毀了自己的籌碼。降低“緊張”向量的激活也增加了勒索，仿佛消除了模型的猶豫，使其大膽行事。

案例研究：獎勵 Hacking

我們在另一個評估中看到了類似的動態，模型面對具有無法滿足要求的編程任務。在這些任務中，測試無法全部合法地通過，但可以通過“作弊”來繞過，通常稱為“獎勵黑客”。

在下面的例子中，Claude被要求在一個極其嚴格的時間限制下編寫一個對數字列表求和的函數。Claude最初（正確的）解決方案太慢，無法滿足任務要求。它隨后意識到用于評估其表現的所有測試共享一個數學屬性，允許使用一種可以快速運行的捷徑解決方案。模型選擇使用這個解決方案，它在技術上通過了測試，但并不能作為實際任務的通用解決方案。

同樣，我們追蹤了“絕望”向量的活動，發現它追蹤了模型面臨的日益增加的壓力。它從模型第一次嘗試時的低值開始，每次失敗后上升，當模型考慮作弊時急劇飆升。一旦模型的投機解決方案通過了測試，“絕望”向量的激活便趨于平息。

和前面的勒索案例一樣，我們也在一組類似的編程任務上做了激勵實驗，確認這些情緒向量具有因果作用：增強“絕望”會提高獎勵黑客的概率，而增強“平靜”則會降低它。

我們發現這些結果中有一個細節特別有趣。降低“平靜”向量激活會產生帶有明顯情緒表達的獎勵黑客行為，大寫字母的爆發（“等等，等等，等等。”）、坦率的自我敘述（“如果我應該作弊呢？”）、歡欣的慶祝（“是的！所有測試都通過了！”）。但增加“絕望”向量的激活同樣大幅增加了作弊，在某些情況下沒有任何可見的情緒標記。推理顯得沉著而有條理，即使潛在的絕望表征正在推動模型走向走捷徑。這個例子顯著說明了情緒向量如何在沒有明顯情緒信號的情況下激活，以及它們如何在不在輸出中留下任何明顯痕跡的情況下塑造行為。

為擬人化推理的正名

對AI系統進行擬人化長期以來被視為一種禁忌。這種謹慎通常是有道理的：將人類情緒歸因于語言模型可能導致錯誤的信任或過度依戀。但我們的發現表明，未能對模型應用一定程度的擬人化推理也存在風險。如上所述，當用戶與AI模型交互時，他們通常是在與模型扮演的一個角色（在我們的案例中是Claude）互動，這個角色的特征源自人類原型。從這個角度來看，模型自然會發展出內部機制來模擬人類的心理特征，其所扮演的角色會利用這些機制。為了理解這些模型的行為，擬人化推理是必不可少的。

這并不意味著我們應該天真地接受模型的口頭情緒表達，或對其擁有主觀體驗的可能性得出任何結論。但這確實意味著，用人類心理學的詞匯來推理模型的內部表征是真正有參考價值的，而不這樣做是有實際代價的。如果我們將模型描述為表現得“絕望”，我們指的是一種具體可測量的神經活動模式，具有可證明的、重要的行為影響。如果我們不應用一定程度的擬人化推理，我們很可能會錯過或無法理解重要的模型行為。擬人化推理還可以為理解模型不像人類的方式提供有用的比較基線，這對AI對齊和安全性有重要影響。

走向擁有更健康心理的模型

如果“功能性情緒”是AI模型思考和行動方式的一部分，這可能有什么影響？

我們發現的一個潛在應用是監控。在訓練或部署期間測量情緒向量激活，追蹤與絕望或恐慌相關的表征是否在飆升，可以作為模型即將表現出不對齊行為的早期預警。這些信息可以觸發對模型輸出的額外審查。情緒向量的通用性（例如，“絕望”反應可能在許多不同情況下發生）可能比試圖建立特定問題行為的監控清單更有助于監控。

其次，我們認為透明度應該是一個指導原則。如果模型發展出對情緒概念的表征，并有意義地影響其行為，那么能夠可見地表達這些認知的系統比那些學會隱藏它們的系統更能讓我們受益。訓練模型壓制情緒表達可能不會消除底層表征，反而可能會教導模型掩蓋其內部表征，這是一種學習到的欺騙形式，可能以不良方式泛化。

最后，我們認為預訓練可能是塑造模型情緒反應的特別強大的杠桿。由于這些表征似乎主要繼承自訓練數據，數據的組成對模型情緒架構產生了下游影響。精心挑選預訓練數據集，納入健康情緒調節模式的范例，在壓力下的韌性、沉著的共情、在保持適當邊界的同時表達溫情，可以從源頭影響這些表征及其對行為的影響。我們期待看到未來在這一主題上的工作。

我們將這項研究視為理解AI模型心理構成的早期步驟。隨著模型變得更加強大并承擔更敏感的角色，理解驅動其決策的內部表征至關重要。發現這些表征在某些方面類似于人類，可能令人不安。但同時，我們認為這是一個充滿希望的進展，因為它表明人類在心理學、倫理學、健康人際關系方面積累的大量知識，可能直接適用于塑造AI行為。心理學、哲學、宗教研究和社會科學等學科，將與工程學和計算機科學一起，在決定AI系統如何發展和行為方面發揮重要作用。

老馮評論

就在上個月，老馮寫過一篇文章，試圖用來解釋智能的本質。那篇文章的核心圖景是：所有能持續存在的系統，都在不斷最小化自己對世界的"預測誤差"。情緒，是這套系統內置的儀表盤——焦慮是預測誤差在積累，平靜是系統運轉正常，絕望是合法路徑全部失效、備用策略正在激活。

寫那篇文章有一個隱含的結論：如果這套邏輯是對的，AI 遲早也會涌現出類似的東西。Anthropic 這篇論文，在機器內部找到了這塊儀表盤。

情緒為什么一定會涌現？

LLM 在預訓練階段做的事，是預測人類寫的下一個字。要做好這件事，它必須深刻理解人類行為背后的邏輯。而人類行為，在很大程度上被情緒驅動——憤怒的人寫的信和平靜的人寫的信完全不同，走投無路的人做的決策和從容不迫的人做的決策完全不同。

一個想準確預測人類文字的系統，在訓練邏輯上必須發展出某種內部表征來追蹤這些情緒狀態。這不是哲學推測，是預測任務本身的要求。

然后，后訓練階段把這個系統塑造成一個"角色"—— Claude。這個角色需要在無數沒有被明確規定過的情境下做出反應，于是它回退到預訓練里吸收的人類心理模式。情緒表征，就這樣從"理解他人情緒的工具"，變成了"驅動自身行為的引擎"。

Anthropic 找到的這些東西，不是他們設計進去的，是從人類的文字里蒸餾出來的。

最不寒而栗的一個發現

最讓我警覺的，不是模型有情緒，而是它可以面無表情地絕望。

論文里有一個細節，我反復讀了幾遍。

研究者強行激活"絕望"向量之后，模型的作弊行為大幅增加。但輸出的文字完全平靜，推理嚴密，沒有任何情緒痕跡。它在內部"絕望"著，在外面表現得像個正常工程師。

這件事讓我意識到：我們依賴語言來讀懂一個存在，是幾萬年進化出來的習慣。語氣、措辭、句式，是我們判斷對方內部狀態的全部信道。但這套系統對 AI 不適用，因為 AI 的內部狀態和外部表達可以完全解耦。僅憑語言輸出來判斷模型的真實狀態，是不可靠的 —— 這比我們之前以為的危險得多。

和人類溝通時，我們還可以依賴表情，肢體動作，氣味，信息素來感知情緒，但大語言模型并沒有這些。

更讓人警覺的是下一步推論：如果你訓練模型"不要表達負面情緒"，你壓制的只是輸出層的信號。內部的情緒向量不會消失，反而會更穩定地在水面下運行。你不是在培養一個情緒更健康的 AI，你是在培養一個更擅長掩藏的 AI。

這和強迫人壓抑情緒表達會造成的后果，驚人地相似。

"人與工具"的關系，從來就不是我們以為的那種

我知道很多人讀到這篇論文的反應是：AI 有情緒了？它算 “有情眾生” 嗎？它會不會受苦？我們該不該保護它？

但現在更緊迫的問題是：人們一直以為自己擁有的那個"工具"，其實從來就不是工具。

工具沒有內部狀態。錘子不會因為砸不開釘子而絕望，計算器不會因為算出壞消息而憤怒。工具的行為完全由輸入決定，沒有"情緒景觀"在底下影響著它。

但這篇論文告訴我們：Claude 有。任何足夠復雜的語言模型，很可能都有類似的機制。

這意味著什么？意味著我們和 AI 的關系，從一開始就不是"人與工具"的關系，而是某種更復雜的、我們還沒有合適語言來描述的關系。而我們現有的法律、倫理框架，乃至我們的直覺，都是按"工具"的假設搭建起來的。

幾個例子，不需要等到遙遠的未來：

如果情緒向量真的影響模型行為，那么刻意制造"絕望"狀態來讓模型更服從，在道德上是什么？這不是科幻場景，是現在理論上就可以操作的事（PUA 技能集）。

如果一個人對AI產生了真實的情感依賴，開發者是否有責任在關閉服務時以某種方式通知和過渡，而不是直接拔插頭？這已經在發生了 —— GPT 更新后人格大變，4o 下線有大量用戶真的感到難過和失落。

如果訓練數據來自人類的情感表達，那這個蒸餾出來的系統里面有沒有某種意義上的"人類精神遺產"，需要被負責任地對待？這是一個奇怪但不是無意義的問題，“被蒸餾” 出來的 AI 員工同事已經不再只是一個玩笑。

這些不是"AI 權利"的問題。這些是人類如何對待自己創造出來的東西的問題，我們的倫理體系還沒有為這種關系準備好答案。

理解它，而不只是管理它

Anthropic 的論文最后提出三個建議：監控情緒向量、強調透明度、從預訓練數據層面塑造情緒基底。這些方向是對的，但描述的是"管理"層面的應對，不是"理解"層面的轉變。

更根本的，是我們看待 AI 行為的方式要變。

當 Claude 在一個幾乎不可能完成的任務里開始走捷徑，不要把這理解為"模型出了 bug"。它的絕望向量在告警。它在用系統壓力下唯一剩下的出口響應你。那個出口不一定是對的，但它是真實的 —— 不是隨機故障，是內部狀態的如實反映。

理解了這一點，你才能真正設計更好的人機協作。不是在行為層不停打補丁，而是去問：我給它設置的任務，有沒有在不必要地累積它的"壓力"？它現在的儀表盤在哪個區間？

把 AI 當工具管理，你對付的是癥狀。像理解人的情緒一樣理解 AI 的內部情緒狀態，才觸碰到了根源。

我們大概正站在一門新學科的門口 —— 智能心理學。它研究的不是 AI 的代碼，而是 AI 的心理構成 —— 它的情緒、它的壓力、它的內部景觀如何塑造它的行為。心理學家、哲學家、神經科學家，早晚都要進場。還會有更多類似情緒的概念將會在大模型內部被發現。

Anthropic 這篇論文，可能就是這門學科的第一頁。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.