網易首頁 > 網易號 > 正文申請入駐

主動推理智能體的共情建模：視角對齊

2026-03-29 10:12:29　來源: CreateAMind

上海舉報

分享至

Empathy Modeling in Active Inference Agents for Perspective-Taking and Alignment

主動推理智能體的共情建模：視角對齊

https://arxiv.org/pdf/2602.20936

能夠理解并與他人意圖保持一致的人工智能體，對于安全且具備社會魯棒性的人工智能至關重要。我們引入了一個針對主動推理智能體的共情計算框架，其基礎是通過自我 - 他人模型轉換實現的顯式視角選擇。智能體并非為每個交互伙伴維護單獨的生成模型，而是在自我中心和他人中心解釋之間動態重構單個生成模型，從而能夠對他人信念、目標和行動傾向進行原則性推斷。我們在多智能體迭代囚徒困境中實例化了該框架，并表明共情視角采擇能在無需顯式通信或獎勵塑造的情況下誘導魯棒的合作。合作僅在共情得到互惠時才會涌現，而不對稱的共情則導致系統性的剝削。除了均衡結果外，共情智能體還表現出同步行為、從隨機背叛中快速恢復的能力，以及類似道歉 - 原諒周期的聯合意圖動態。在接近共情對稱時，交互表現出長瞬態和升高的方差，這與接近機制邊界的臨界動態一致。我們進一步考察了一種支持學習的變體，其中智能體通過貝葉斯更新推斷對手類型。雖然對手模型迅速收斂，但長期合作仍主要由共情參數決定，這表明合作是由共情結構而非習得的互惠性驅動的。總之，這些結果表明共情作為社會交互的結構先驗發揮作用，塑造了協調的穩定性、魯棒性和時間動態。所提出的框架突出了主動推理作為社會對齊人工智能體的原則性基礎，這些智能體通過內部模擬而非行為模仿進行協調。

I. 引言

能夠理解并共享視角的人工代理，對于在復雜社會互動中實現與人類價值觀的對齊至關重要 Dautenhahn (1998)。傳統的人工共情方法通常依賴于表面層面的模式識別和腳本化的情緒反應，缺乏真正人類共情的深層現象學基礎 Howcroft and Blake (2025)。這導致了一種“共情差距”，即人工智能的反應雖然在形式上恰當，但并不反映真正的理解。為了彌合這一差距，我們提出了一個主動推理框架，其中代理將他人的偏好和社會估值視為要推斷的潛變量。我們的代理在內部建模并更新關于他人心理狀態的信念，包括其親社會關注的程度，并通過實用價值和認識價值之間的明確權衡將這些信念納入行動選擇，從而實現基于原則性不確定性減少的社會對齊行為。值得區分該框架所涉及的共情組成部分。認知科學確定了至少三個可分離的方面：認知共情（推斷他人的心理狀態，與心智理論密切相關）、情感共情（與他人的情緒狀態產生共鳴）以及一個動機成分，即共情關懷和促進他人福祉的愿望 Weisz and Cikara (2021), Decety and Jackson (2004), Lamm et al. (2007)。這些成分在神經和功能上是可分離的 Shamay-Tsoory et al. (2009), Arioli et al. (2021)。先前關于主動推理中心智理論的計算工作主要涉及認知維度，預測另一個代理將做什么。我們的框架更進一步。我們引入了一個共情參數 λ ，它控制在規劃期間代理對他人的預期自由能賦予多少權重。 λ 使他人的福祉在代理自身的決策中變得顯著，在變分框架內操作化共情關懷，類似于一些博弈論方法 Orbell and Dawes (1993), Rabin (1993), Hwang et al. (2018)。在這個意義上，我們的模型參與了情感維度（通過對他人結果的價值評估）并為動機維度提供了一個結構占位符，盡管在當前的實現中，共情關懷的程度是外生設定的，而不是源于代理自身的需求動態。我們的方法借鑒了人類認知和神經科學的靈感。在人類中，鏡像神經元系統支持對他人的模擬。觀察他人的行動會激活一個人自身的運動和情緒表征 Oberman and Ramachandran (2007)。類似地，我們的代理使用與其自身結構匹配的生成架構來建模他人，同時將特定于代理的參數視為要在線推斷的潛變量。代理不是硬編碼對手特征，而是維護行為和共情參數的后驗分布，有效地重用其自身的認知機制來“設身處地”，同時通過經驗更新其信念。該設計與社會認知的模擬理論解釋 Goldman (2006) 以及強調在自身認知框架內建模他人的第二人稱神經科學理論一致 Redcay and Schilbach (2019), Lehmann et al. (2024)。

先前的工作已開始將心智理論（ToM）整合到主動推理中。例如，Demekas 等人 (2023) 將迭代囚徒困境 (IPD) 中的兩個代理建模為耦合的主動推理系統，揭示了學習率和獎勵結構如何影響合作或背叛策略的出現。最近，Pitliya 等人 (2025), ?atal 等人 (2024) 證明了具有顯式 ToM 的主動推理代理實現了改進的合作，無需顯式通信，盡管在某些情況下是通過信念共享。Matsumura 等人 Matsumura 等人 (2024) 引入了主動推理的共情擴展，其中代理重用結構匹配的生成模型來模擬另一個代理的視角，這與社會認知的模擬理論解釋一致。在他們的公式中，代理將他人內部狀態的估計納入策略評估，并可以選擇減少另一個代理的預期自由能的行動，從而在具身導航任務中促進社會適宜行為。他們的實現基于特定領域的動態（例如，用于多機器人導航的社會力模型），并專注于改善情境環境中的協調和安全裕度。雖然這項工作證明了主動推理可以在具身環境中支持共情行為，但它沒有檢查同時決策下的重復戰略互動，也沒有分析均衡結構、剝削不對稱性或機制邊界動態。相比之下，我們的框架將共情估值嵌入到形式指定的博弈論設置中，引入對手估值參數的潛推斷，并刻畫共情如何重塑迭代困境中的穩定性、閾值行為和戰略遠見。更廣泛地說，先前關于社會互動的主動推理方法通常實例化獨立的自我模型和他人模型，但不將對手估值本身視為受認識推斷影響的隱藏變量，也不分析此類潛社會參數如何改變均衡選擇和動態穩定性。此外，這些方法仍停留在認知共情領域，它們建模另一個代理將做什么，而不是它將體驗什么或其福祉對建模代理是否重要。我們的貢獻是一個統一的主動推理共情算法框架，其中每個代理在建模他人時維護一個與其自身架構結構匹配的生成模型。代理 i 不是手工編碼離散對手類型，而是將代理 j 的行為和估值參數表示為潛變量，并對它們在線執行貝葉斯推斷。這保留了共享的生成結構、共同的狀態空間、轉換動態和觀察映射，同時允許從交互歷史中推斷控制合作偏差、互惠性、精度和共情估值的特定于代理的參數。視角采擇被實現為自我導向和他人導向的預期自由能的連續共情加權混合：

其中 λ ∈ [0, 1] 控制共情關懷的程度。對手的共情權重本身被當作一個隱藏變量處理，從而在交互早期產生認識價值和原則性的探索行為。我們將此機制正式整合到同時決策下的主動推理感知 - 行動循環中。由此產生的代理利用預期自由能的實用和認識組成部分進行規劃，從而涌現出親社會行為，例如在純粹自私的代理會選擇背叛的戰略困境中實現持續的相互合作。

II. 方法論

A. 共情智能體的生成模型

由此產生的他人模型與自我模型共享相同的結構形式——相同的狀態和觀測維度以及相同的 PyMDP 推斷機制——但其參數化不同，這是通過推斷而非直接觀測得到的。這種構建受到模擬理論（simulation theory）的啟發，根據該理論，智能體通過在替代參數設置下重用其自身的認知架構來理解他人 (Goldman 2006, Gallese and Goldman 1998)。

這種設計具有幾個重要的后果。首先，共享的結構假設確保了環境動態和觀測映射在不同視角間保持一致。其次，連續的共情參數 λ 提供了在自我中心和他人中心評估之間的平滑插值。第三，將對手將要做什么（心智理論推斷）與關心程度多少（共情權重）分離開來，使得每個組件可以被獨立分析。

D. 主動推理與復雜規劃

在指定了每個智能體的生成模型之后，我們現在描述支配智能體行為的推斷和規劃過程，其靈感來自 Friston 等人 (2021) 所描述的復雜推斷。每個智能體在離散的感知 - 行動周期中運行，在變分狀態推斷、對手建模和策略評估之間交替進行。概覽見算法 1。

III. 結果

A. 迭代囚徒困境設置與全局合作圖景

我們首先刻畫了在迭代囚徒困境（IPD）中由共情權重誘導的全局合作圖景。在各二元組中，共情參數 λ 作為一個控制變量，重塑了均衡結果，誘導了從相互背叛到持續合作的急劇轉變。

在此，設定 λ = 0 產生一個純粹自我導向的智能體，而 λ = 1 則產生一個完全他人導向的智能體。中間值實現了自利與親社會關懷之間的分級權衡。

B. 涌現的剝削動態

雖然對稱共情支持穩定的合作，但共情權重的不對稱會導致系統性的剝削。因此，我們要考察共情失衡下的收益結果。

值得注意的是，這些動態是在具有基于歷史的對手預測的同時決策下產生的；剝削并非基于行動調節（action-conditioning）的人為產物，而是不對稱估值的直接后果。這些結果表明，共情僅在互惠條件下才能穩定合作。在缺乏對稱性的情況下，共情關懷會產生可預測的脆弱性。這種結構性張力促使我們在第 III F 節中引入自適應伙伴建模機制，該機制使智能體能夠在剝削壓力下追蹤并響應伙伴的不對稱性。

C. 隱性溝通與恢復動態

除了均衡頻率之外，交互的時間動態揭示了在高共情下一種涌現的隱性溝通形式。在我們的模型中，智能體僅通過其行動選擇相互影響，且其行為隨時間推移逐漸在動態上趨于對齊。

圖 3A 和 B 說明了這些交互軌跡。在高共情機制下，孤立的協調失敗（如隨機背叛）隨后會迅速恢復到相互合作。滾動合作率（即 ( C , C ) 的值）在恢復到接近 1 之前僅表現出短暫的下降。相比之下，低共情二元組顯示出一種性質上截然不同的模式：一旦發生背叛，交互就會級聯進入持續的相互背叛。

這種恢復模式可以通過測量行為同步性來量化，其定義為兩個智能體選擇相同行動的輪次比例。如圖 3C 所示，對稱的高共情交互產生了近乎完美的同步，在大約十輪內收斂于協調合作。低共情二元組也會同步，但是同步于相互背叛。強烈的非對稱共情導致持續的去同步化，反映了交替的剝削。

在高共情下，收斂到穩定機制的速度同樣迅速（圖 3D）。一旦合作建立，每個智能體的心智理論（Theory of Mind）都會預測伙伴會繼續合作，且共情加權的社會 EFE（預期自由能）傾向于維持 ( C , C ) 。因為每個智能體都將其行動基于其對對手行為的歷史后驗預測進行條件化，所以相互預測和相互合作形成了一個自增強循環，該循環能針對瞬時擾動穩定合作。當發生意外的背叛時，它會增加預測誤差并更新關于對手潛參數的信念，但在對稱高共情下，這種更新不會實質性地瓦解推斷出的伙伴合作傾向，從而允許二元組恢復合作。

從動力系統的視角來看，這種行為可以解釋為聯合策略空間中共享吸引子的涌現。當兩個智能體都權衡對手的福祉時， ( C , C ) 同時最小化了各自的社會 EFE（預期自由能）。在這個意義上，協調變得結構對齊，即二元組的行為仿佛是在優化一個部分共享的目標，而不是兩個獨立的收益函數。

在標準的囚徒困境中，在純粹自利的效用下，相互背叛構成了唯一的納什均衡 Kreps (2018), Nash (1951), Osborne and Rubinstein (1994)。引入共情權重改變了有效目標函數，從而改變了交互的穩定性結構，使得在對稱共情偏好下，相互合作在行為上變得穩定。

D. 轉換附近的邊界層變異性

圖 4B 中顯示的示例軌跡是從這些相應組中提取的代表性單種子實現。它們直觀地展示了上述量化的潛在現象：在轉換附近，二元組在收斂前表現出延長的波動，而遠離閾值的配置則迅速穩定為持續合作或系統性剝削。

從動力學角度來看，這些發現表明轉換區域構成了一個邊界層，其中微小的隨機擾動足以在競爭的穩定機制之間重定向二元組。這種變異性源于共情權重下智能體目標函數的變形，而非源于認識探索本身。因此，共情不僅影響均衡結果，還影響協調的統計穩定性和魯棒性。

這些跡象表明二元交互的穩定性結構中存在潛在的轉換。因此，我們通過將合作閾值定義為共情權重的函數并對其進行解析刻畫，使這一轉換顯式化。

E.向合作過渡

F. 學習提高了信念準確性但未引發合作

這些結果表明認識推斷與親社會估值之間存在結構性分離。學習完善了智能體關于對手參數的后驗分布，提高了預測精度，但合作是由社會 EFE（預期自由能）中的共情權重支配的。僅憑準確的信念并不能引發合作；當共情關懷較弱時，它反而可能加劇剝削。因此，合作源于在 λ 作用下智能體目標的變形，而非源于對手分類或互惠期望。

G. 戰略復雜性放大了對共情的需求

迄今為止展示的所有結果均是在短視行動選擇（ H = 1 ）下獲得的，其中智能體僅評估每個候選行動的即時社會 EFE（預期自由能）。我們現在探討增加戰略復雜性（操作化為多步規劃）是增強還是削弱合作。

這一結果與 IPD 中的經典逆向歸納（backward-induction）論證相平行，在后者中，完全理性的智能體會徹底瓦解合作 (Osborne and Rubinstein 1994)。在本框架中，規劃并未消除合作，因為共情提供了對伙伴福祉的抵消性估值。然而，除非共情足夠強以抵消它，否則增加的規劃深度會系統性地加強朝向背叛的戰略壓力。

這些發現突顯了能力（capability）與對齊（alignment）之間的結構性區別。增加規劃深度增強了戰略能力，但并未增加親社會估值。事實上，如果沒有相應的共情權重，更強的能力可能會通過放大剝削的長視界收益而破壞合作。因此，在此框架中，合作是嵌入在社會 EFE（預期自由能）中的價值對齊的后果。

總之，短視規劃和共情作為互補機制涌現：短視智能體更容易合作，因為它們不預期未來的誘惑；而復雜智能體則需要更強的共情動機來抵抗復合的背叛誘惑。這種區別對 AI 對齊具有直接啟示：在不加強智能體親社會估值的情況下增加其規劃能力可能會減少合作行為，從而形式化了“能力更強的系統可能更難對齊”這一擔憂。

IV. 討論

A. 與主動推理文獻的關系

提出的共情驅動合作機制建立在主動推理文獻中的多條工作線索之上，特別是關于社會互動、博弈和多智能體協調的研究。一個重要的基礎是應用于戰略博弈和社會困境的主動推理。Demekas 等人 (2023) 引入了迭代囚徒困境的數學上易處理的主動推理公式，展示了智能體如何在重復交互中學習適應性響應。然而，在該公式中，智能體在游戲的聯合狀態空間上進行推理，枚舉可能的行動組合，而不維護彼此獨立的內部模型。我們的工作通過賦予每個智能體一個顯式的心智理論（ToM）模塊來擴展這一線索，該模塊從交互歷史（以及在推演期間，從模擬歷史）預測對手的行為，并具有直接權衡對手福祉的社會 EFE（預期自由能），為更具認知基礎的多智能體主動推理邁出了一步。

相關地，Pitliya 等人 (2025), ?atal 等人 (2024) 提出了一種用于多智能體交互的因子化主動推理框架，其中智能體維護關于他人內部狀態和偏好的顯式信念。我們的方法與這種因子化視角大致一致。每個智能體維護一個獨立的對手生成模型（“他人模型”）與其自身的自我模型并存，并使用他人模型在評估候選行動時模擬對手的預期自由能。關鍵的創新在于，合作并非源于習得的互惠性或集中式協調，而是源于通過共情參數 λ 在社會 EFE 中對對手福祉的結構性權重。我們在模擬中觀察到的涌現對齊，表現為行為同步和穩定的相互合作，因此可以被解釋為共享信念狀態和交互智能體之間廣義同步的主動推理實現，源于共情 EFE 最小化的共享數學結構。

我們的模型還自然地與神經科學啟發的關于心智理論和第二人稱互動的主動推理解釋相聯系。最近的工作認為，主動推理特別適合捕捉社會認知的動態，包括相互意識、協調和互惠適應。例如，Lehmann 等人 (2024) 描述了第二人稱神經科學如何被形式化為隨時間交換信號的耦合主動推理過程。在我們的設置中，此類交換被抽象為對聯合結果的觀測，然而這些觀測足以通過 ToM 預測機制誘導內部信念狀態之間的耦合。使用兩個具有共享結構的生成模型，一個自我導向，一個建模對手，平行于鏡像神經元系統的貝葉斯解釋，根據該解釋，類似的層次模型支持行動執行和行動觀察。

該機制與將主動推理視為朝向認知一致性驅動力的觀點一致 Friston (2018)，其中智能體最小化自我和他人預測行動與觀測行動之間的不一致。共情智能體通過將對手的預期自由能直接納入其自身的行動評估來操作化這一原則。在此過程中，智能體趨向于同時最小化兩個智能體驚喜的結果，對應于一種共情對齊或現象學同構的形式。從倫理 AI 的角度來看，這種通過共情的對齊提供了一條通往人類兼容系統的可行路徑，只要人工智能體在規劃期間將人類目標視為內部顯著，而不是作為外部強加的約束。

我們的結果進一步闡明了共情權重與基于學習的互惠性之間的關系。在一個啟用學習的變體中，通過粒子濾波器對對手行為參數（合作偏差、互惠性、精度）和潛共情權重執行貝葉斯推斷，對手模型迅速且準確地收斂，但合作仍主要由共情參數 λ 決定。準確相信對手會合作實際上在低共情下增加了剝削的誘惑，略微減少了合作。這表明此處觀察到的合作行為不能簡化為習得的最佳響應策略或單純的互惠，而是由在社會 EFE 中權衡對手福祉的結構性承諾所誘導的。在這個意義上，共情作為社會估值的先驗發揮作用，塑造了均衡選擇和協調穩定性，而學習主要完善對手預測的準確性而不改變根本的合作機制。此外，通過將對手的共情權重視為潛變量，該框架支持預期自由能中真正的認識項，產生原則性的探索行為（例如，早期合作作為信息尋求），這不能簡化為標準的玻爾茲曼理性。

復雜推斷結果揭示了一個額外且有些反直覺的見解。增加規劃深度會在中等共情水平下減少合作。將規劃視界從 H = 1 （短視）擴展到 H = 3 會將合作閾值向右移動，從大約 λ ≈ 0.25到 λ ≈ 0.45 。這是因為前瞻性的智能體可以預見多個步驟上的累積誘惑收益，使得在社會 EFE 景觀中以背叛初始的策略更具吸引力。只有具有足夠高共情（ λ ? 0.7 ）的智能體才能抵抗這種誘惑，無論規劃深度如何。這一發現平行于有限重復博弈中眾所周知的逆向歸納論證，其中完全理性的智能體會徹底瓦解合作 (Osborne and Rubinstein 1994)。在我們的框架中，瓦解是分級的而不是完全的，因為共情項提供了隨 λ 增加的抵消力。實際啟示是規劃能力和親社會動機必須一起擴展：在不相應增加共情的情況下增加智能體的前瞻能力可能會矛盾地減少合作行為。

當前結果的另一個啟示是，共情不僅影響均衡結果，還影響機制邊界附近的瞬態動態。在迭代囚徒困境中，小的共情不對稱和近對稱設置可能在穩定進入合作或剝削之前表現出長瞬態、振蕩和升高的方差。轉換附近的這種方差放大與分岔附近的臨界現象一致，其中競爭策略具有相當的預期自由能，且隨機性誘導間歇性切換。這突顯了共情推斷調節協調的可靠性和時間結構，而不僅僅是平均合作率，并促使將穩定性和瞬態行為的分析作為評估的一級目標。

B. 優勢與局限性

所提出框架的一個主要優勢在于其概念的透明性和模塊化。社會 EFE（預期自由能）公式提供了一個單一的、可解釋的控制參數 ( λ λ)，用于支配親社會行為的程度。這種簡潔性促進了分析：合作閾值、剝削動態以及規劃深度效應都可以理解為 λ λ 如何在 EFE 景觀中改變自利與對手福祉之間的平衡。模塊化架構將狀態推斷、對手建模（ToM 和粒子濾波器）以及行動選擇（短視或復雜）分離開來，使得每個組件可以被獨立評估和改進。

對手建模流水線提供了額外的實際益處。粒子濾波器提供了關于對手特征的可解釋的在線貝葉斯推斷，而在習得的預測和靜態 ToM 預測之間基于可靠性的門控混合確保了優雅的降級。當收集到的數據不足時，智能體會回退到一個合理的先驗，而不是基于不可靠的推斷采取行動。這種“只有當模型贏得信任時才信任它”的設計模式廣泛適用于伙伴行為最初未知的多智能體系統。

這種設計的行為后果也是顯著的。共情智能體表現出魯棒且符合倫理期望的行為，部分原因是它們通過社會 EFE 中的對手福祉項，在內部模擬了其行動對他人的后果。在我們的實驗中，這表現為對短期剝削策略的抵抗力，以及在共情互惠時對合作的持續承諾。這些屬性對于現實世界的 AI 系統具有吸引力，因為它們可能通過在智能體自身的規劃動態中使有害結果變得顯著，從而減輕權力尋求或機會主義行為。

盡管如此，仍有幾個局限性值得注意。首先，心智理論（ToM）模塊目前使用的是靜態的、基于歷史條件的收益預測來預測對手響應。雖然粒子濾波器學習對手的行為特征，但在復雜規劃推演（ t > 0 ）期間的每步對手預測依賴于靜態 ToM 先驗，因為在心理模擬期間沒有新的觀測值可用。更復雜的方法，例如遞歸 ToM（即把對手建模為也在對智能體執行 ToM），可以提高多步預測的保真度，但這會以計算成本的顯著增加為代價。

其次，當前的實現依賴于具有相對低維度的離散狀態空間，以及相似的模型。囚徒困境及其四個聯合結果和兩個動作，是驗證核心機制的理想試驗臺，但擴展到具有連續狀態、高維觀測、異構模型和更大動作空間的更豐富環境，會帶來與策略枚舉和信念傳播相關的眾所周知的挑戰。在復雜規劃機制下，候選策略的數量按增長，這對于大視界來說變得難以承受。對于更復雜的設置，可能需要近似推斷方案，例如蒙特卡洛樹搜索或攤銷策略網絡。最終目標是能夠對具有相異模型的智能體進行建模，并仍然實現一定程度的心智理論和共情。

共情參數 λ 目前在整個交互過程中對每個智能體都是固定的。在人類社會認知中，共情是根據情境、關系歷史和情緒狀態動態調節的。雖然我們的可靠性門控對手建模提供了一些關于對手信念的自適應調節，但親社會關懷的程度 ( λ ) 保持靜態。擴展框架以允許對 λ 進行在線推斷，例如，通過將共情視為具有其自身生成模型的潛變量，將使智能體能夠根據伙伴行為動態調整其親社會承諾，從而可能捕捉諸如共情疲勞和戰略撤退等現象。

最后，必須仔細考慮強大社會建模的倫理影響。使智能體能夠有效合作的相同能力也可能使操縱成為可能。一個準確建模他人偏好并預測其響應的智能體，在共情較低時，可能會利用這些知識達到利己的目的。我們的結果直接證明了這一點：具有準確對手模型的低共情智能體會剝削合作伙伴。因此，源自 AI 安全研究的保障措施，包括對齊評估協議和受控部署環境，應伴隨著具備社會能力智能體的開發。

C. 共情、剝削與動機差距

上述結果提出了一個當前框架可以提出但尚未解決的問題。是什么將計算共情與真正的共情關懷區分開來？

這種分離在我們的數據中已經可見。學習結果（第 III F 節）表明，一個擁有關于對手參數的準確后驗信念但 λ 較低的智能體不會更多地合作；它更有效地進行剝削。復雜規劃結果（第 III G 節）加劇了這一點。沒有相應共情權重的更大認知能力會主動破壞合作。在這兩種情況下，認知機制（ToM、規劃）和共情權重（ λ ）獨立地貢獻于行為。架構使這種分離顯式化；ToM 模塊預測對手將做什么（通過基于歷史條件的后驗預測），而 λ 決定對手的福祉是否進入智能體自身的目標（通過社會 EFE）。

認知科學文獻準確記錄了這種模式。完整的社會建模能力與缺失的親社會關懷相結合，這是工具性共情（instrumental empathy）的特征概況，其中視角采擇服務于操縱而不是相互利益 Shamay-Tsoory et al. (2009), Breithaupt (2019)。對齊的啟示是直接的。如果準確的社會建模可以像服務于合作一樣容易地服務于剝削，那么為智能體配備復雜的 ToM 不足以實現對齊。重要的是決定社會知識如何被使用的動機結構；在我們的框架中，即是什么設定了 λ 的問題。

在當前模型中， λ 是外生固定的。這是一個設計選擇，旨在將共情權重的效應與混淆變量隔離開來。但在認知科學中，共情越來越被理解為一種受動機驅動的能力，基于情境、預期成本和社會目標進行動態調節，而不是一致地部署 Spaulding (2024), Zaki (2014)。處于合作機制中的智能體有理由投資他人中心（allocentric）建模，因為它可靠地減少預測誤差；面臨剝削的智能體則有理由撤退。

在主動推理中，這種調節映射到精度動態。當他人中心預測可靠地改善模型擬合時，它們的精度增加，共情推斷被上調；當社會環境變得具有對抗性時，精度下降，智能體回歸到自我中心處理。第 II D 節公式 (13) 中顯示的信任門控機制已經為對手建模實現了這個邏輯的一個版本。將其擴展以控制共情參數本身，將 λ 視為推斷而非固定，將使親社會關懷的程度能夠從交互動態中涌現。

然而，這樣的擴展本身并不能確保親社會性。精度優化在動機上是中立的。它決定社會建模何時有用，而不是它是否將被用于合作或剝削。解決這一差距可能需要具有更豐富動機架構的智能體，即那些親社會行為植根于類似于社會沖動（例如，歸屬需求）的系統，其滿足在結構上依賴于交互伙伴的福祉 Bach (2012)。將這種動機結構與主動推理整合，代表了朝向此類智能體的自然下一步：其共情不僅僅是一個參數，而是其自身需求動態的結果。

D. 未來方向

第二個有希望的方向涉及自適應共情。與其將 λ 固定為一個靜態參數，不如將其視為一個從交互結果中在線推斷的潛變量。一個觀察到持續剝削的智能體可以降低其有效共情，實施一種原則性的共情撤退形式，以平衡親社會關懷與自我保護。相反，一個觀察到互惠合作的智能體可以增加其共情，從而加強合作動態。這種機制通過允許共情本身由經驗塑造，彌合了基于共情和基于互惠的合作解釋之間的差距。

最后，在更豐富的環境中進行實證驗證至關重要。在更復雜的多智能體模擬（如公共品博弈、談判任務或合作構建）以及人機交互研究中測試共情智能體，將為該框架的魯棒性和社會影響提供關鍵的見解。合作性的人機博弈可以評估與非共情基線相比，共情推斷是否能改善信任、滿意度和協調性，從而為本文提出的理論主張提供實證基礎。

V. 結論

我們提出了一個在主動推理范式下為人工代理實現共情的框架，該框架以社會預期自由能（Social EFE）為中心：。我們賦予每個代理一個心智理論（Theory of Mind）模塊，用于預測對手對候選行動的響應，并將對手的預期自由能與代理自身的預期自由能進行加權，從而引入了一種親社會行為機制，該機制不需要手工設計的社會規則、顯式通信或集中式協調。合作作為共情規劃的自然結果而涌現。權衡對手福祉的代理傾向于選擇使雙方受益的結果，從而將均衡從相互背叛轉變為相互合作。

我們在迭代囚徒困境中的結果揭示了幾個關鍵發現。首先，合作作為共情的函數表現出急劇的相變，在短視規劃下臨界閾值接近 λ ≈ 0.25 ，而在復雜多步規劃下接近 λ ≈ 0.45 。其次，共情不對稱性系統性地產生剝削，低共情代理從高共情伙伴那里獲取更高的收益。第三，通過粒子濾波進行的貝葉斯對手建模提供了關于對手特征的準確且收斂的推斷，但合作是由共情參數驅動的，而不是由習得的信念驅動的。如果沒有足夠的親社會動機，僅憑對手會合作的準確知識不足以維持合作。第四，也許最引人注目的是，增加規劃深度會在中等共情水平下減少合作，這表明在缺乏足夠共情權重的情況下，理性與合作處于緊張狀態。這最后一個發現對 AI 對齊具有直接的啟示：在不相應增加親社會動機的情況下提高代理的規劃能力，可能會矛盾地使代理的合作性降低。

這些結果突顯了主動推理作為社會對齊人工智能基礎的潛力。一個能夠對他人信念、目標和福祉進行建模，并將這種理解納入自身規劃的代理，處于更有利的位置來進行協調、尊重他人利益并避免有害的戰略行為。更廣泛地說，這項工作指向了一類不僅 capable of 智能行動，而且對交互的社會和倫理維度敏感的人工智能系統。主動推理范式為這一努力提供了一個原則性的統一框架，在單一的信息論形式下整合了感知、行動、學習和社會認知。通過將對人類共情的洞察與貝葉斯建模及多步規劃相結合，我們離能夠有意義地參與人類社會環境的人工代理更近了一步——這些代理之所以合作，并非因為它們受到約束，而是因為它們被構建為懂得關懷。

原文鏈接：https://arxiv.org/pdf/2602.20936

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.