網易首頁 > 網易號 > 正文申請入駐

重復博弈中的決策：主動推理的啟示

2026-04-01 10:13:28　來源: CreateAMind

上海舉報

分享至

Decision-Making in Repeated Games: Insights from Active Inference

重復博弈中的決策：主動推理的啟示

https://www.mdpi.com/2076-328X/15/12/1727

摘要

本綜述系統地探索了主動推理框架在闡明重復博弈中決策的認知機制方面的潛力。重復博弈以多輪互動和社會不確定性為特征，與現實世界的社會場景密切相似，其中決策過程涉及相互連接的認知組件，如推斷、策略選擇和學習。與傳統強化學習模型不同，基于自由能最小化原則的主動推理，在單一生成模型內統一了感知、學習、規劃和行動。信念更新通過最小化變分自由能而發生，而探索 - 利用困境則通過最小化期望自由能來平衡。基于部分可觀測馬爾可夫決策過程，該框架自然地納入了社會不確定性，且其層次結構允許模擬心智化過程，為社會決策提供了統一的解釋。未來研究可以通過模型模擬和行為擬合進一步驗證其有效性。

關鍵詞：重復博弈；決策；計算建模；主動推理

引言

重復博弈中的決策是人類智能的一個關鍵方面，長期以來一直是心理學和人工智能等領域廣泛研究的焦點（Akata 等，2025；van Dijk & De Dreu，2021）。在重復博弈中，參與者進行多輪人際互動，這些互動與現實社會世界高度相似——而現實社會世界通常被描述為比非社會世界更具不可預測性和不確定性（Feldman Hall & Shenhav，2019）。社會情境中的決策呈現出顯著的復雜性與難度。這不僅源于在他人行為不可預測的情況下識別最大化自身利益選擇的挑戰，還源于調和自身利益與他人利益的必要性，這要求在合作與競爭之間進行權衡（Lee，2008）。此類決策對人工智能和人類行動者均構成重大挑戰。因此，對其認知機制的深入探究，不僅對于提升人類決策能力至關重要，也有助于推動人工智能向更高智能、對復雜社會環境的更強適應性以及更高效的人機協作方向發展。

傳統心理學方法在評估此類復雜動態過程方面存在局限。計算建模作為一種以嚴謹性、科學精確性和可解釋性為特征的定量方法論，已在計算精神病學等領域得到廣泛應用（Hitchcock 等，2022；Montague 等，2012），并在社會心理學中展現出新興的應用價值（Cushman，2024；Hackel & Amodio，2018）。它能夠通過數學形式化方法模擬行為現象背后的復雜認知過程，對支配人類行為的動態機制提供嚴謹的科學刻畫，并從行為數據中推導出無法直接觀測的潛變量（Montague，2018）。借此，它為深化對心理與神經機制的理解建立了新穎的理論框架，同時克服了傳統研究方法的局限性。

為刻畫決策過程，研究者已發展出多種計算模型家族。與將決策框架化為由最大化外部獎勵原則驅動的適應性行為的強化學習不同（Sutton & Barto，1998），主動推理將決策概念化為一個最小化自由能的過程（K. Friston 等，2016）。在該框架中，決策主體通過探索環境以降低不確定性，最小化預期結果與偏好結果之間的差異，同時動態整合感知與策略選擇。主動推理框架為模擬人類在部分可觀測環境（如社會情境）中的認知過程提供了一個有前景的模型。該方法有望顯著深化我們對人類智能如何在不斷變化的社會情境中實現適應性決策的理解。

博弈論與重復博弈

2.1. 博弈論發展史

博弈論的發展經歷了一個從思想到理論、從簡單到復雜的漫長過程，如圖 1 所示。在現代博弈論正式確立之前很久，博弈論思想便已存在。早在古代，中國的《孫子兵法》與西方的馬基雅維利《君主論》中就已蘊含了戰略互動、利益權衡等博弈論核心概念。16 世紀，意大利數學家吉羅拉莫·卡爾達諾在其著作《論賭博游戲》（Liber de Ludo Aleae）中，首次運用數學方法分析骰子等賭博游戲的概率與收益，標志著博弈論思想的萌芽。

約翰·馮·諾依曼的工作在 20 世紀上半葉確立了博弈論作為一個獨立領域。1928 年，馮·諾依曼發表了《派對游戲理論》（On the Theory of Parlor Games），首次證明了極小極大定理，為兩人零和博弈提供了堅實的數學基礎（Neumann, 1928）。他將該證明簡化為布勞威爾不動點定理的擴展，這種方法后來成為博弈論和數理經濟學中的標準方法。馮·諾依曼與經濟學家奧斯卡·摩根斯坦合作，將這些思想發展成一部于 1944 年出版的巨著《博弈論與經濟行為》。該書首次為博弈論建立了系統的公理框架；它明確將博弈論定位為經濟學的分析工具，為其后來的廣泛應用奠定了基礎（Von Neumann & Morgenstern, 1944）。

博弈論成為一門獨立學科后，其核心概念不斷被突破和完善，促使其理論體系顯著改進。約翰·納什通過提出博弈論中最重要的概念——納什均衡（Nash, 1950），做出了杰出貢獻。在多人博弈中，當所有參與者的策略形成一個穩定的組合，使得沒有任何參與者可以通過單方面改變自身策略來提高自身收益時，該策略組合即構成納什均衡。納什均衡是一個比傳統極小極大解更為一般的解概念，不僅適用于零和博弈，也適用于所有博弈模型。約翰·海薩尼提出了貝葉斯納什均衡，適用于參與者沒有關于對手類型的完全信息的情況（Harsanyi, 1968）。通過引入對手類型的概率分布，他成功地將不完全信息轉化為不完美信息，突破了此前博弈論主要集中于完全信息的局限。這使得能夠更準確地模擬不確定性條件下的人類決策。萊因哈德·澤爾滕提出了子博弈完美納什均衡，該均衡通過消除序貫博弈中不可信的威脅，確保均衡策略在每個子博弈中都是合理且可行的，從而從動態視角完善了納什均衡（Selten, 1975）。因構建了完整、嚴謹且現實的博弈論理論框架，并對均衡分析做出了開創性貢獻，約翰·納什、約翰·海薩尼和萊因哈德·澤爾滕共同獲得了 1994 年諾貝爾經濟學獎。

2.2. 重復博弈

根據參與者行動的先后順序及信息的可獲得性，博弈可分為靜態博弈與動態博弈。在靜態博弈中，參與者同時行動，且不了解他人的先前行動；而在動態博弈中，參與者依次行動，并能夠獲知可觀測的行動歷史。重復博弈是動態博弈的一種特殊形式，指具有相同結構的階段博弈被連續多次進行。每次迭代的條件、規則和內容保持一致，參與者在每輪互動后可觀察歷史行為，這要求他們在決策時權衡短期收益與長期利益。

前文提及的學者約翰·納什和萊因哈德·澤爾滕為建立重復博弈中的均衡概念做出了重要貢獻。除他們的工作外，許多其他研究者也對重復博弈進行了深入探討。羅伯特·奧曼開創了無限次重復博弈理論，證明理性參與者可以通過觸發策略（例如，只要對手合作就繼續合作，一旦觀察到對手背叛則觸發報復性不合作）實現穩定的合作。這解決了重復博弈中合作如何產生的核心難題，并為長期互動場景提供了理論框架（Aumann, 1981）。托馬斯·謝林將重復博弈與現實社會情境相結合，將分類框架完善為沖突博弈、合作博弈與協調博弈。他還引入了聚點、承諾策略等概念，解釋了重復互動中的參與者如何通過共享認知快速達成合作（Schelling, 1960）。在囚徒困境錦標賽中，研究者驗證了以牙還牙策略（即在每一輪中模仿對手上一輪的行動）在重復博弈中的最優性（Axelrod, 1980）。該策略簡潔明了，持續促進了合作，為理解現實世界中的合作行為提供了強有力的實證與模擬支持。

根據參與者利益相互依賴的性質，重復博弈可分為三種不同類型：沖突博弈、合作博弈與協調博弈（Schelling, 1960）。

沖突博弈，亦稱零和博弈，是指參與者利益本質上相互對立的戰略情境。在此類博弈中，所有參與者的收益與損失總和恒等于零，即一方的收益必然意味著另一方的損失（Schelling, 1960）。在此框架下，參與者之間的合作在結構上是不可能的；相反，決策以競爭為前提。參與者專注于隱藏自身的戰略意圖，同時試圖推斷對手的策略與心理狀態以優化自身結果。沖突博弈在現實情境中普遍存在，涵蓋競技體育（如乒乓球）、棋類游戲（如國際象棋），以及石頭剪刀布游戲。在心理學研究中，此類對抗性框架常被用作實驗范式，以探究欺騙、不平等及相關戰略表現（Lacomba 等，2017；Zhang 等，2017）。

合作博弈，亦稱混合動機博弈，其特征為個體面臨競爭與協作雙重激勵的互動，導致收益結構既非純粹對抗也非完全一致。此類博弈本質上涉及自我與他人之間的資源分配，迫使參與者應對一個關鍵的權衡：是合作以最大化集體利益，還是背叛以確保個人收益（Miller Moya, 2007）。與零和沖突博弈不同，合作框架中的參與者表現出更強的理解對手策略的動機（Wang & Kwan, 2023）。囚徒困境、信任博弈和獨裁者博弈等合作博弈被廣泛用于調查合作與背叛的形成（Bonowski & Minnameier, 2022；Loennqvist & Walkowitz, 2019；Press & Dyson, 2012）。囚徒困境是一個典型例子，其中兩名參與者在無溝通的情況下獨立選擇“合作”與“背叛”。其收益結構的特征是四個關鍵結果：相互合作為雙方帶來中等獎勵；相互背叛導致中等懲罰；而單方面背叛使背叛者獲得最大收益，代價是合作者遭受最高懲罰。該矩陣如圖 2 所示。博弈的收益矩陣描述了參與者可用的策略及其相應結果。基于該矩陣，可以對策略及其期望效用進行定量分析。在單次囚徒困境中，背叛構成了在理性下最大化個人收益的優勢策略。然而，在重復博弈中，持續背叛冒著在后續回合觸發對手報復性背叛的風險，從而減少長期累積收益。正是在這種動態中，合作逐漸形成（A. M. Colman 等，2018）。

協調博弈是一種參與者利益完全一致的博弈類型。在此類博弈中，所有參與者的收益與損失完全相同，意味著雙方要么共同成功，要么共同失敗（Schelling, 1960）。在此博弈規則下，由于雙方利益的高度契合，合作成為其必然選擇。參與者只需考慮如何相互協調，而無需斟酌如何分配資源或解決利益沖突。協調博弈，如匹配博弈（例如猜正反游戲），涉及參與者僅在選擇相同選項時獲得正收益，而選擇不同則雙方均無收益的情境。盡管此類博弈在決策研究中較少被探討，但它們常被用于研究合作過程中的腦間同步現象（Cui 等，2012；Pan 等，2017）。

重復博弈中的決策

在社會環境中，人類決策需要明確考慮他人的行為。博弈為定量評估此類社會決策提供了一個有價值的方法論框架，其結構化的互動情境使得研究合作、競爭與信任形成等社會認知過程成為可能（Maurer 等，2018；Ng & Au，2016；Zhang 等，2017）。與參與者既無共同歷史也無未來預期的單輪博弈不同，重復博弈更貼近現實生活中的社會互動。此類互動涉及多次連續的接觸，參與者在各輪之間接收反饋。反饋使參與者能夠更新其對對手的信念，并相應調整自身策略，從而導致行為隨時間動態演變（Cochard 等，2004）。

大量研究集中于非社會不確定性下的決策。個體優先關注能夠減少不確定性的線索（Walker 等，2019），并更關注具有更高不確定性的選項（Stojic 等，2020a）。增加的不確定性提高了個體的學習率（Speekenbrink & Shanks, 2010），并促進探索性行為（Stojic 等，2020b）。雖然非社會不確定性影響決策的機制在一定程度上可以擴展到社會不確定性，但社會情境本質上涉及更大的不可預測性。這是因為他人的行為動機難以直接觀察且隨時間動態演變。此外，在涉及與他人重復互動的情境中——如重復博弈——次優決策可能產生持久的負面影響。這些影響可能阻礙與他人合作的形成，并最終損害自身利益。

為解決社會不確定性并做出適應性決策，個體發展出專門機制，其中社會推斷發揮重要作用。推斷可根據認知控制程度及相應的努力成本分為自動推斷和控制推斷（Feldman Hall & Shenhav, 2019）。當在游戲中遇到對手時，個體基于對手的特征（如膚色和衣著）迅速且自動地形成初步印象——包括他們是否值得信任、具有威脅性或尋求風險（Hughes 等，2017）。當關于他人的信息稀缺時，人們迅速訴諸既定的社會規范，假設他人更可能基于合作和信任等原則做出決策（Fleischhut 等，2022）。自動推斷消耗最少的認知資源，并能強烈約束隨后對對手的預測。相比之下，控制推斷需要更大的認知控制，以更細致的方式推斷對手的動機和具體行為，從而更新初步印象。人們經常進行觀點采擇，采用他人的觀點或其情境背景來想象或推斷他們的觀點和態度（Devaine 等，2014；Galinsky 等，2005）。這一過程縮小了預測他人行為的范圍，并進一步減少社會不確定性。

基于對對手的推斷，個體需要在游戲中進行適當的策略選擇。傳統行為博弈論認為策略選擇基于期望效用最大化原則（Von Neumann & Morgenstern, 1944）。假設個體理性地權衡不同行動序列的未來獎勵，并選擇產生最高收益的策略。然而，這一原則在高不確定性的社會決策情境中面臨解釋局限（A. Colman, 2003）。它依賴于個體形成和更新關于他人行為的精確概率信念的能力，當對手策略未知或動態變化時，這構成重大挑戰。最近發展的主動推理框架提供了一個新穎的視角。它提出策略選擇基于自由能最小化原則——即最小化預測誤差（Parr & Friston, 2019）。這一過程既包括最小化實際結果與個體偏好結果之間的差異，也包括主動減少對環境的 uncertainty (不確定性)。因此，策略選擇的驅動因素從僅僅追求獎勵擴展為對實用價值和認知價值的雙重追求。

在重復博弈中，策略選擇產生的結果直接指導個體隨后的決策。參與者可以直接觀察對手對其行為選擇的反應，在游戲輪次間接收反饋，并進行學習（Behrens 等，2007）。他們通過加權這些信息源，將新的反饋證據與先前的推斷整合，從而更新他們對對手的預測（Speekenbrink & Shanks, 2010）。根據反饋是否與先前預測一致，它可以擴大或縮小關于對手可能行為的信念分布（Feldman Hall & Shenhav, 2019）。隨著博弈展開，參與者持續收集關于對手的信息，學習其行為模式。學習率受不確定性影響；在重復博弈開始時，當社會不確定性最高時，學習率也處于峰值（Courville 等，2006；Speekenbrink & Shanks, 2010）。同時，參與者在學習過程中面臨關鍵的探索 - 利用權衡（Gershman, 2019；Krafft 等，2021）。他們必須權衡選擇：是探索未知策略以觀察對手的反應并獲得關于此類行為價值的信息，還是利用基于過去經驗最大化即時收益的已知策略（Speekenbrink & Konstantinidis, 2015）。過度探索可能導致效率降低，而過早利用現有經驗可能導致錯過更好的策略。

社會博弈情境引發高水平的不確定性，在此期間，決策過程如圖 3 所示，涉及相互關聯的推斷、策略選擇和學習機制。自動推斷和控制推斷作為連續體的兩極同時運作，約束關于對手意圖和行為的預測。這些預測基于不同原則指導參與者的戰略選擇，并通過重復博弈中的學習不斷更新，從而進一步減少社會不確定性。人類社會認知類似于一個復雜的計算系統，允許個體預測、響應并協調他人的行為，從而支撐社會互動的穩定性。

決策的計算建模

隨著計算科學的進步，計算思想滲透到科學的許多領域，并在認知科學和神經科學中發揮整合性解釋作用（Montague 等，2012）。雖然專注于人類社會行為，社會心理學致力于基于人類認知的普遍原則解釋社會生活（Cushman & Gershman, 2019）。因此，計算思想越來越多地被社會心理學研究者采納和應用。計算建模提供了一個嚴謹的框架，以清晰且可解釋的方式描述人類社會性背后的抽象理論（Cushman, 2024）。由于重復博弈中的決策涉及推斷和學習等遞歸認知過程——其中遞歸性以循環因果關系為特征，代表了計算建模中的一個核心概念（Qinglin & Yuan, 2021）。此外，計算建模建立了一個相互作用關系的系統，允許推斷和學習模型被整合以捕捉更復雜的認知過程。因此，采用計算建模來調查重復博弈中潛在的社會心理機制是高度可行的。

當前用于決策研究的計算模型主要可分為兩大類：強化學習模型和貝葉斯模型。強化學習模型基于理性主體假設，在該領域被廣泛用于模擬個體在互動行為中如何從結果反饋中學習（Tomov 等，2021；Tump 等，2024；Yifrah 等，2021）。這些模型將個體 - 環境互動概念化為馬爾可夫決策過程（MDP），其中主體可以觀察環境的所有可能狀態并通過行動影響它。隨著環境狀態的轉換，獎勵函數向個體提供反饋，個體轉而基于最大化累積獎勵的原則調整其行為（Puterman, 1994）。研究人員已將各種認知策略與強化學習框架整合，開發了一系列決策模型。例如，前景 - 效價學習模型假定個體評估不同選項的期望效用，并使用強化學習規則更新期望效價以指導決策（Ahn 等，2008）。同樣，效價 + 堅持模型將啟發式策略與強化學習相結合，提出選擇受先前行動及其結果的影響，這些與期望效價整合以指導后續決策（Worthy 等，2013）。

強化學習模型的理性主體假設與個體在日常生活中的決策行為并不完全一致，且個體運作的環境并非完全可觀測——相反，它充滿不確定性。因此，與強化學習模型不同，用于決策的貝葉斯模型基于部分可觀測馬爾可夫決策過程（POMDP），它將決策環境的狀態形式化為僅部分可觀測（Itoh & Nakamura, 2007）。貝葉斯模型假設個體表現出有限理性，并持有對環境狀態的自身先驗信念；他們可以根據從互動中獲得的反饋更新這些信念以形成后驗信念，然后據此做出決策。相比之下，貝葉斯框架將決策概念化為一個基于內部和外部信息在不確定性下進行信念更新的過程，從而為日常社會互動中的決策行為提供了更合理的解釋（Feldman Hall & Shenhav, 2019）。同時，貝葉斯框架不要求個體以嚴格的貝葉斯最優方式行為。相反，近似貝葉斯推斷過程可以有效地解釋人類決策行為。

主動推理的基本概念

主動推理作為近似貝葉斯推斷的一種具體實現和計算框架，建立在一個關鍵前提之上：即有機體擁有其環境統計規律性的內部生成模型。擁有該模型，有機體可以推斷其感知的隱藏原因，并選擇最優行動以實現期望結果。同時，主動推理框架由兩個核心概念支撐（R. Smith 等，2022）。第一個是決策者不僅僅是被動的貝葉斯觀察者。相反，他們主動與環境互動以收集信息并尋求偏好觀測。第二個是貝葉斯推斷，指的是基于觀測到的可能結果分布，對先驗信念進行不確定性加權的更新，正如貝葉斯定理所形式化的那樣：

在貝葉斯定理中，左側 p(s|o) 代表關于可能狀態（s）的后驗信念——即在納入新觀測（o）之后更新的信念分布。這里，s 是一個抽象變量，可以代表任何可以形成信念的實體。在右側，p(s) 表示在獲取新觀測之前關于 s 的先驗信念。項 p(o|s) 是似然項，代表給定狀態為 s 時觀測到 o 的概率。分母 p(o) 代表模型證據，也稱為邊際似然，它表示觀測到 o 的總概率。它作為歸一化常數，確保后驗信念構成有效的概率分布。

例如，在合作博弈中，我們需要推斷對手更傾向于合作還是背叛。這里，s 代表對手的行為類型。假設對手可以粗略地分為兩種類型：s? 代表合作型，s? 代表背叛型。變量 o 對應在博弈每一輪中觀測到的對手實際行為。在博弈開始之前，我們可以通過社會推斷形成對對手的初步印象。例如，如果我們認為對手傾向于合作，我們可以給 s? 分配較高的先驗概率，如 p(s?) = 0.8，因此 p(s?) = 0.2。假設在博弈的反饋階段，我們觀測到對手的背叛。在此情境下，p(o|s?) 表示合作型對手會背叛的概率；這個值預期較低，例如 p(o|s?) = 0.3。相反，p(o|s?) 表示背叛型對手會背叛的概率，這個值會較高，例如 p(o|s?) = 0.7。邊際似然 p(o)，作為歸一化常數，被計算為在所有可能對手類型下觀測到背叛的總概率：p(o) = p(o|s?) × p(s?) + p(o|s?) × p(s?) = (0.3 × 0.8) + (0.7 × 0.2) = 0.38。對手是合作型的后驗信念隨后通過貝葉斯定理更新：p(s?|o) = [p(o|s?) × p(s?)]/p(o) = (0.3 × 0.8)/0.38 ≈ 0.632。類似地，對手是背叛型的后驗信念為：p(s?|o) = [p(o|s?) × p(s?)]/p(o) = (0.7 × 0.2)/0.38 ≈ 0.368。基于這次貝葉斯更新，在觀測到一次背叛實例后，玩家關于對手行為模式的信念發生轉變：分配給合作型的概率從 80% 下降到約 63.2%，而背叛型的概率從 20% 增加到 36.8%。在隨后的博弈輪次中，這個后驗信念成為新的先驗。玩家繼續根據對手的新行動執行貝葉斯更新，迭代地精煉他們的信念以更好地逼近對手的真實行為模式。

在這個簡單的例子中，我們能夠容易地數值計算貝葉斯定理。然而，超出最簡單的信念分布，貝葉斯定理中的邊際似然 p(o) 在計算上是難以處理的。它要求對所有可能狀態下的觀測概率求和。隨著狀態維度數量的增加，需要求和的項數呈指數級增長。例如，在博弈中，對手的類型可能由多個參數定義，如合作傾向、風險厭惡和能力。在這種情況下，計算 p(o) 變成在超高維空間上的積分，這直接執行是不可行的。由于在復雜模型中通過精確貝葉斯推斷計算后驗信念是不可行的，需要近似技術來解決這個問題。這種計算不可行性是主動推理中變分自由能（VFE）核心概念的根本原因。

由于精確后驗分布 p(s|o) 在計算上難以處理，引入了一個簡單的近似后驗分布 q(s)。通過優化算法調整參數，使 q(s) 盡可能緊密地逼近 p(s|o)，將不可計算的貝葉斯推斷轉化為最小化可計算函數的優化問題。用于量化兩個分布之間差異的度量是 Kullback-Leibler（KL）散度。兩個分布匹配得越緊密，KL 散度越小。通過基于相關方程的數學推導，q(s) 和 p(s|o) 之間的散度可以表達如下：

主動推理框架將感知和學習視為最小化變分自由能的過程（K. J. Friston, 2010）。感知對應于基于每個新觀測實時更新后驗信念，為感覺輸入提供最佳解釋；學習對應于在長期觀測中逐漸調整模型參數以與累積的經驗保持一致。在感知和學習的過程中，主體不僅僅關注找到最佳擬合的后驗。它還努力以最簡約的方式更新其信念，避免與先驗信念產生過度偏離，從而在準確性和復雜性之間取得平衡。

主動推理不僅涉及對過去和當前信息的處理，還涵蓋了關于未來狀態的規劃和行動選擇。與感知和學習背后的原理相似，規劃和行動選擇的目標是選擇一個在未來能最小化變分自由能的策略 π π。關鍵的區別在于將變分自由能擴展以納入預期的未來觀測，從而產生期望自由能（EFE）。期望自由能（G）的具體推導如下所示。其方程的前兩行與變分自由能的非常相似，唯一的區別是包含了在期望下的未來觀測 o。在第三行將期望自由能分解為與信息尋求和獎勵尋求相關的兩個分量之后，第四行引入了主體的偏好 C。作為一個決策模型，主動推理同樣需要對偏好進行編碼。與將偏好編碼為外部獎勵函數的強化學習不同，主動推理通過將偏好觀測 p ( o ∣ C ) 納入期望自由能，將其內化為生成模型的一部分。

在主動推理中，規劃和行動選擇被概念化為最小化期望自由能的過程——即主體尋求一種能夠最大化實用價值與認知價值之和的策略（Hodson 等，2024；Parr & Friston，2019）。因此，在行為選擇過程中，主體不僅試圖通過利用已知資源來最大化獎勵回報，還追求探索未知信息以減少不確定性。期望自由能為重復博弈中的探索 - 利用困境提供了一個原則性的解決方案（Gijsen 等，2022）。尋求認知價值的探索和尋求實用價值的利用被視為最小化期望自由能的兩個同等重要的方面。探索 - 利用權衡從強化學習中的序列決策問題，轉變為與期望自由能最小化相關的單一目標函數的優化。選擇探索還是利用取決于當前的不確定性水平和期望獎勵水平（R. Smith 等，2022）。值得強調的是，期望自由能內的認知價值項形式化地實例化了一種定向探索機制，類似于好奇心，驅動主體自主且積極地尋求能夠減少對隱藏狀態不確定性的觀測（K. Friston 等，2015；Parr & Friston，2017）。

為什么選擇主動推理？在重復博弈決策中的優勢

主動推理是一個基于生成模型的理論框架，通常形式化為部分可觀測馬爾可夫決策過程（POMDP），為理解重復博弈中的決策提供了深度和廣度。其優勢不僅在于能夠在單一的自由能最小化原則下統一多個認知過程，還在于其能夠更緊密地捕捉人類社會互動的核心本質。未來的研究可以通過計算模型比較和模擬來驗證主動推理模型的有效性。此外，通過將這些模型擬合行為博弈數據和神經影像數據，我們可以嚴格檢驗其參數的心理和神經意義，從而彌合計算、行為和腦功能之間的差距。

6.1. 自由能原理：認知整合與行為優化的統一框架

自由能原理認為，變化環境中的任何自組織系統（如大腦）都必須最小化其自由能，以維持生存所需的穩態（K. J. Friston 等，2006）。自由能作為驚訝（surprise）的上界，是預測誤差的可處理度量。主動推理框架最基本的理論優勢恰恰在于這一自由能原理。它超越了將感知、學習、規劃和行動選擇視為獨立模塊的傳統模型范式，轉而提供了一個統一且生物學上合理的計算框架。該框架將所有這些認知過程概念化為單一原則的不同表現形式：自由能最小化（K. J. Friston，2010）。這一特性使其在為重復博弈中固有的復雜決策過程建模時具有卓越的解釋力。在重復博弈的背景下，玩家對對手的感知（推斷其隱藏狀態）、即時行動選擇（選擇合作或背叛）以及從多輪互動中學習（更新關于對手行為模式的信念）不再被視為獨立的認知過程。相反，在這一統一框架下，它們被整合為主動推理的統一過程。

傳統認知科學研究通常為感知和行動等不同認知功能預設不同的優化目標。例如，感知以準確性為優化目標，而行動以效用為優化目標。在社會決策中，個體對他人思想和感受推斷的準確性至關重要，因為它涉及預測、控制和決策結果（Vorauer 等，2025）。研究者關注如何在社會互動中優化人際感知的準確性（Kenny & Albright，1987）。在行動層面，從博弈論的角度來看，個體在博弈中的目標是不斷優化其行為以逼近最優策略，尋求最大化自身效用（Camerer，2003）。面對具有不同優化目標的感知和行動，主動推理框架允許它們圍繞同一基本目標對齊：最小化模型的預測誤差——即自由能的最小化。在感知方面，最小化自由能涉及更新他人思想和感受的內部狀態，以減少“對他人的預期思想”與“實際觀測到的互動線索”之間的差異，最終提高人際感知的準確性。在行動方面，最小化自由能涉及調整自身行為，使“互動的實際結果”更接近“偏好的預期結果”，從而提高行為效用。

此外，關于重復博弈中探索 - 利用困境這一核心問題，自由能原理同樣提供了一個內源性的解決方案，使行為優化能夠實現動態平衡。傳統強化學習模型通常依賴外部調節的參數來控制探索與利用行為。例如，在ε-貪婪策略中，ε代表探索的概率，而1-ε對應利用，ε通常在學習過程中按時間表衰減（Vermorel & Mohri，2005）。ε的設置和調整通常由經驗或數學考量指導，而非基于有充分依據的認知機制。相比之下，在主動推理中，這種權衡通過期望自由能的最小化被內化，將其重構為具有更原則性認知基礎的統一優化問題（K. Friston 等，2015）。在期望自由能的數學公式中，實用價值（pragmatic value）激發利用行為，而認知價值（epistemic value）促進探索行動（Kirsh & Maglio，1994）。探索和利用被整合到單一的目標函數（驚訝最小化）中，其中行動選擇旨在最大化認知價值和實用價值的綜合（K. J. Friston，2010）。因此，與經典的期望效用最大化相比，自由能原理下的驚訝最小化并不與之矛盾，而是通過納入認知價值對其進行了擴展。這使得模型能夠動態適應博弈情境。在互動早期階段，當社會不確定性較高時，認知價值占主導地位，導致明顯的探索行為。隨著關于對手的信念變得更加精確，不確定性降低，認知價值的權重減小，實用價值越來越多地指導決策，導致自然地向利用轉變。這種動態平衡源于內部信念狀態的演變，而非外部參數調節，顯著增強了模型在描述重復博弈中人類行為時的真實性和解釋力。

此外，自由能原理為常見觀察到的行為提供了令人信服的解釋，例如在高獎勵情境下的風險承擔以及在缺乏外在激勵時的好奇心驅動探索（R. Smith 等，2022）。通過將探索 - 利用權衡納入自由能原理的統一框架，主動推理框架在行為優化和認知整合方面都表現出強大的解釋力。

6.2. 模擬社會互動的本質

社會決策的核心挑戰源于社會不確定性，這種不確定性在社會世界中無處不在——不僅僅局限于重復博弈情境。在社會互動過程中，他人的思想和意圖在很大程度上是隱藏的，使得推斷其行為及其對我們的影響變得困難（Feldman Hall & Shenhav，2019；Kappes 等，2019）。主動推理基于部分可觀測馬爾可夫決策過程（POMDP）框架，自然地將這種不確定性和不可觀測性納入其模型中（R. Smith 等，2022）。此外，主動推理在其數學公式中固有地包含了解決這種不確定性的行為驅動力。

大量先前的研究集中于探索獎勵和懲罰對社會決策的影響，揭示了與獎勵相關的計算和神經回路在選擇引導中起著至關重要的作用，類似于非社會決策（Ruff & Fehr，2014）。然而，另一個同樣重要的引導因素卻被忽視了：減少社會不確定性的動機（Alchian，1950）。在社會互動中，人們經常從事探索性行為以減少不確定性；這些行為并不帶來直接獎勵，甚至可能涉及風險和成本。此類行為的出現表明，除了決策帶來的實用獎勵外，理解他人的思想和減少社會不確定性本身也具有內在價值——這是一種區別于外在獎勵的價值（Loewenstein，1994）。在社會互動中，個體擁有一種主動探索他人思想和意圖的欲望，被稱為人際好奇心（interpersonal curiosity）（Way & Taffe，2025）。為了滿足人際好奇心，個體需要減少不確定性。主動推理的期望自由能將認知價值納入行為選擇中。認知價值，也稱為內在價值，在數學上對應于信息增益或不確定性的減少（K. Friston 等，2015）。根據期望自由能理論，個體的行為選擇不僅旨在最大化實用價值，同時也受到最大化內在認知價值的驅動。這種計算機制為個體為何在社會互動中表現出人際好奇心提供了清晰的解釋。

在社會互動中，個體需要推斷他人的思想、觀點、情緒狀態和行為模式等等。這既涉及形成初步印象的自動推斷，也涉及如觀點采擇等控制性推斷（Devaine 等，2014；Hughes 等，2017）。當在重復博弈情境中對這種心智化過程進行建模時，主動推理的層次模型提供了一個優雅的框架（K. J. Friston 等，2017；Proietti 等，2023）。其貝葉斯網絡表示如圖 4d 所示。為了便于理解復雜的層次模型，圖 4 展示了各種主動推理模型從簡單到復雜的演變過程。在圖中，圓圈代表變量，方塊代表調節關系的因素，箭頭表示變量之間的依賴關系。圖 4a 描述了靜態感知的生成模型，僅涉及單個時間點，類似于標準貝葉斯推斷。與前文對貝葉斯定理的描述一致，s 代表抽象的隱藏狀態，o 表示可觀測的結果，D 代表關于隱藏狀態 s 的先驗信念，A 是似然函數，指定了在給定狀態 s 下觀測到 o 的概率。圖 4b 展示了動態感知的生成模型。與圖 4a 相比，它包含了兩個或更多時間點，并包括狀態轉移矩陣 B，該矩陣描述了隱藏狀態 s 如何隨時間演變。圖 4c 在圖 4b 的基礎上增加了策略選擇，代表帶有行動選擇的動態感知。這里，π 表示策略，其中不同的策略對應不同的狀態轉移矩陣。G 代表期望自由能，C 代表偏好結果。圖 4d 展示了層次模型，該模型包含兩個層次的生成模型。在此架構中，較高層次的隱藏狀態 s? 為較低層次的隱藏狀態 s? 提供先驗信念。相反，較低層次模型的后驗信念在給定時間點被視為較高層次模型的觀測值。較高層次模型的似然矩陣 A? 介導了層次之間的這種雙向信息流。這種結構允許較高層次模型比較低層次模型以更慢的時間尺度更新，這就是為什么該框架也被稱為深層時間模型（deep temporal model）。

在重復博弈情境中，理解他人行為背后的思想和目標通常需要觀察博弈中一系列具體的行為。這類似于通過觀察對手身體各部位的運動特征來推斷網球中一次擊球（例如正手或反手）背后的更高層次意圖（Proietti 等，2023）。在層次化主動推理模型中，主體利用層次結構的下層來處理每一輪博弈中的具體選擇，而上層則表征對手的更高層次、更穩定的屬性——如意圖、策略或人格特質。例如，在多輪囚徒困境博弈中，上層模型中的先驗信念式（如合作型、欺騙型、以牙還牙型等）。對手的策略可能隨時間緩慢變化，主體通過觀點采擇和學習過程逐漸更新這些高層信念，這與上層模型的特征相一致。關于對手策略模式的高層信念，結合高層似然矩陣，生成關于對手下一輪具體行為的預測。這些預測作為下層模型的先驗信念，從而指導主體自身的具體行為選擇。層次模型提供了相當大的靈活性，使其能夠針對不同博弈情境進行定制。它能夠對個體的高階信念進行建模，使得模擬社會互動中的心智化成為可能，從而為人類社會決策過程提供更接近的近似。

6.3. 未來方向：模型模擬與行為擬合

主動推理的解釋力不僅在理論層面（例如通過自由能原理）得到證明，還在于它提供了一個計算上可處理且可測試的生成模型，有效地架起了理論與數據之間的橋梁。通過模擬研究，研究人員表明，主動推理模型在動作理解、認知控制和運動預期等領域生成的關于感知和行為的預測，與實證觀察到的模式緊密匹配（Harris 等，2022；Proietti 等，2025；Proietti 等，2023）。其他研究人員則在來自趨避沖突、內感受推斷和定向探索等認知過程的行為數據上采用模型擬合，提取關鍵模型參數，這些參數作為有效的生物標志物，用于區分健康個體和精神病理個體（R. Smith 等，2021，2020a，2020b）。除了計算精神病學之外，將主動推理模型擬合到運動預期任務行為數據的研究同樣得出了能有效區分專家與新手的參數（Harris 等，2023）。然而，相對較少的研究人員使用模擬或行為擬合方法將主動推理模型應用于社會認知研究。主動推理框架在理解重復博弈中社會決策方面的理論優勢同樣仍需嚴格檢驗。

模型模擬和行為擬合是兩種互補的方法論，構成了從理論驗證到實證測試的遞進過程。模型模擬基于理論構建模型以生成模擬數據。這是一個在理想化環境中進行的演繹過程，使研究人員能夠測試理論的內部一致性和生成能力。未來的研究可以基于特定博弈任務，為生成模型定義狀態空間（隱藏狀態 s、觀測 o）、似然矩陣 A 和狀態轉移矩陣 B。通過調整先驗信念和期望自由能精度等參數，研究人員可以觀察主體的策略模式是否與實證觀察到的行為一致。例如，可以基于囚徒困境博弈規則構建一個層次化主動推理模型。通過操縱高層模型的先驗來模擬具有不同對手初始印象的主體（例如預期合作與預期背叛），研究人員可以調查合作形成的過程是否存在差異，從而測試該模型能否復現實證觀察到的戰略模式。在通過模擬對模型有效性進行初步驗證的基礎上，行為擬合進一步將該模型應用于實證行為數據。該方法從真實數據出發，要么比較模型的擬合優度，要么估計其參數。作為模型反轉的一種形式，行為擬合檢驗了理論的外部效度和解釋力。通過收集游戲實驗參與者的行為數據（例如具體選擇、反應時、主觀報告），研究人員可以將主動推理模型與強化學習等經典計算模型進行比較。這種比較檢驗了主動推理模型能否有效解釋人類行為數據，并評估其擬合優度。從擬合中估計出的參數可作為計算生物標志物，用于區分群體并量化社會決策中的個體差異。未來的工作可以設計包含不同類型博弈的實驗任務以收集人類行為數據。使用相同的主動推理模型，研究人員可以通過僅將特定結構參數作為博弈類型的函數進行調整，來擬合跨博弈類型的數據。如果該模型成功解釋了多樣博弈情境中的人類行為，這將證明其作為社會決策統一理論的潛力和普遍性。此外，將神經影像數據與計算模型參數整合，將有助于揭示社會決策背后的神經計算機制，從而促進主動推理在社會認知神經科學中更廣泛和深入的應用。

然而，必須承認的是，將主動推理應用于社會決策研究面臨著若干挑戰。主動推理仍然主要是一個理論框架，其實證應用仍處于早期階段。其高度的計算復雜性和大量的參數使得建模過程對心理學領域的研究者而言相對具有挑戰性。此外，現有的主動推理模型構建指南主要基于相對簡單的實驗任務（R. Smith 等，2022）；將其遷移到更復雜的重復博弈中是一項艱巨的任務。同時，科學哲學領域的研究者對自由能原理提出了質疑（Colombo & Wright，2021），認為它過于抽象和普遍，無法替代對認知和行為背后具體機制的研究。這是一個重要的提醒：盡管我們認可其作為理論框架的強大解釋力，但同樣必須重視實證研究，以驗證和證實其計算模型具體實現的有效性。

結論

本綜述系統地考察了主動推理框架在闡明重復博弈中決策背后的認知機制方面的潛力。與單輪博弈不同，重復博弈更貼近現實生活中的社會互動，因此作為研究社會決策的經典范式。直接觀察他人思想和動機的困難引入了社會不確定性，這顯著增加了重復博弈中決策的復雜性。個體必須基于多輪互動的反饋進行實時學習和戰略調整，這一過程涉及相互連接的認知組件，如推斷、策略生成和學習。面對如此復雜的認知過程，傳統強化學習模型雖然擅長捕捉經驗驅動的價值更新，但在處理不完全信息和推斷對手策略方面的能力有限。貝葉斯推斷可以準確描述信念更新和不確定性管理，然而傳統精確貝葉斯方法往往難以完全與行動策略選擇整合。在此背景下，主動推理框架通過自由能原理，在單一生成模型結構內統一了感知、學習、規劃和行動。感知和學習通過最小化變分自由能來實現，從而平衡模型復雜性與準確性。規劃和行動選擇通過最小化期望自由能來實現，從而最大化認知價值和實用價值。與其他模型相比，主動推理框架提供了一種強大的方法來解決重復博弈中固有的關鍵探索 - 利用困境。基于部分可觀測馬爾可夫決策過程（POMDP）構建，該框架自然地納入了社會不確定性。此外，其層次結構為社會互動中心智化過程的合理表征提供了可能。未來的研究應使用模型模擬和行為擬合的互補方法進一步評估該框架的實證效度。總之，主動推理框架為理解重復博弈中的人類行為提供了一個統一且具有解釋力的視角。它為揭示社會決策的隱藏動態提供了嚴謹的方法論，從而將自己定位為推進計算社會心理學的有力工具。

原文鏈接：https://www.mdpi.com/2076-328X/15/12/1727

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.