論文 | arXiv 2026 | 機器心智理論（Machine Theory of Mind）

2026-07-01 19:21:08　來源: 人工智能學家

北京舉報

分享至

大語言模型在 False Belief 測試題上刷出高分的同時，Ullman 等人做了一個簡單到令人尷尬的實驗——只要對經(jīng)典 ToM 任務做微不足道的改寫，所有大模型立刻崩盤。Strachan et al. 在 Nature Human Behaviour上的系統(tǒng)性電池測試也得出類似的懷疑論結(jié)論。

這引出一個更深層的問題：過去十幾年里，大家造了一堆可以"過 ToM 測試"的系統(tǒng)，卻從未嚴格定義過"機器心智理論（Machine Theory of Mind, MToM）"到底是什么。

本文的核心價值就在于此：它是世界上第一篇對 MToM 給出嚴格形式化定義、提煉證據(jù)支持的 Principles、并用一個 holistic meta-model 把整個領(lǐng)域"拔高一層"的工作。

對于做 AI+認知科學交叉、圖神經(jīng)網(wǎng)絡、不確定性量化、多智能體 RL 的讀者來說，這篇文章提供的不是某個新模塊，而是一張概念坐標系——讓你看清自己那塊拼圖在整個版圖上的位置。

論文：A formal definition and meta-model for a machine theory of mind

單位：牛津

發(fā)布日期：2026

下載論文：https://t.zsxq.com/fBEZ2

請索引第101篇論文

為什么「機器心智理論」至今沒有正式定義？牛津這篇工作首次把它寫成了數(shù)學，并提出了一個統(tǒng)領(lǐng)性元模型
01 心智理論的三個經(jīng)典流派（及為什么機器版不能只挑一邊站）
1.1 認知心理學給我們的三條線索

流派

核心主張

對 MToM 的啟示

Theory-Theory (TT)

人對他人的理解靠的是一套"理論"（命題式知識結(jié)構(gòu)），兒童像小科學家一樣提假設、驗證據(jù)

機器需要知識庫 + 假設生成/檢驗 + 符號/神經(jīng)符號推理；但存儲無窮多理論認知代價爆炸

Simulation-Theory (ST)

人通過把自己的推理系統(tǒng)"代入"他人來推其心理狀態(tài)（"我要是他，會怎樣想？"）

機器可用自身決策/規(guī)劃引擎模擬他人；依賴"他人與我足夠相似"的先驗

Modular Theories

ToM 由腦中專門模塊負責（進化產(chǎn)物），mPFC / TPJ / STS 等構(gòu)成功能網(wǎng)絡

暗示 MToM 架構(gòu)應是有功能子模塊組裝而非單一端到端黑箱

作者給出的立場非常明確：你需要一個 hybrid，兩者缺一不可（Principle 4）。純 ST 在沒有足夠錨定信息時不知道該"設成誰"；純 TT 在沒有交互證據(jù)時理論空間爆炸。人類自己就是又模擬又建理論的。

1.2 神經(jīng)科學的現(xiàn)狀：有用，但尚未 ready-to-implement

論文坦率指出：神經(jīng)科學目前還不足以直接指導 MToM 架構(gòu)設計（mirror neuron 假說熱度退潮后，現(xiàn)在更多認為是 mPFC+TPJ+STS 等組成的分布式網(wǎng)絡）。但它提供的兩點非常關(guān)鍵：

組裝式（assemblage）證據(jù)：人腦似乎不是用一個"ToM模塊"硬開關(guān)，而是用基礎(chǔ)構(gòu)建塊動態(tài)組裝來處理不同社會情境——這對我們設計可重組的仿真架構(gòu)（Neural Module Search 思路）是直接啟發(fā)。
自我模擬是起點：mPFC 活動在 self vs. other 區(qū)分中扮演關(guān)鍵角色——形式上意味著你的先驗可以用sim(self)做初始化。

02 八大 Principles：從證據(jù)到約束條件

這是全文最"值錢"的部分——作者從認知心理+神經(jīng)科學+AI 三條線索，推導出 MToM 必須滿足的 8 條原則（不是拍腦袋 axioms，而是 literature-backed）：

Principle

認知/實證來源

對 AI 模型的打擊點

ToM 是終身持續(xù)學習過程，隨經(jīng)驗迭代更新

兒童 ToM 3–4 歲才出現(xiàn)，需多年多情境交互

一次性訓練/靜態(tài) benchmark 是根本性錯配

無證據(jù)時，用自身思維過程模擬他人（自我模擬 kick-start）

"child applies their own reasoning to others"；COMMON-TOM 基準也圍繞 common ground

純從零數(shù)據(jù)學他人 ≠ 人類的 bootstrap 機制

應從觀察 + 交互兩條通道學習（非僅其一）

人看電影/讀故事也能學；RL 反饋循環(huán)也能學

把 MToM 縮減成純 SL 或純 RL 都是削足適履

Hybrid：ST（模擬）+ TT（假設生成/檢驗）共存

模糊情境下人既代入又提問驗證

純端到端黑箱或純符號都偏科

須含主動學習：為消解歧義去獲取新證據(jù)

你會問朋友"你是不是煩了?"來驗假設

當前所有靜態(tài) ToM benchmark 完全忽略這條

須處理高階遞歸ToM（"我認為你認為我認為…"）

談判/博弈/有限信息競價中高階 ToM 有可測優(yōu)勢

大多數(shù)方法止步一階 belief tracking

ToM 是多任務：意圖、信念、情緒、解釋、預測……輸出是 manifold insights，非單一 label

同一場景不同目標要不同輸出

把 ToM 降維成"猜下一個動作"丟掉了半壁江山

過程是本質(zhì)不確定的——他人心智不可直接觀測，不確定性是 epistemic 型的

行為→心智是 ill-posed inverse problem

點預測不夠；需要 credal sets / random sets / second-order uncertainty

交叉學科讀者的一個關(guān)鍵takeaway：P1+P8 合在一起告訴你——MToM 的本質(zhì)不是一個分類器或一個 predictor，而是一個在持續(xù)演化、永遠 under-determined 的推理過程。這意味著它的數(shù)學形態(tài)更像 online Bayesian updating / conformal prediction / credal-set reasoning 而非 standard supervised learning。

03 把"理解他人心智"寫成映射

這是本文最硬核的貢獻。作者定義了：

Definition 1（MToM 核心映射）：一個Observer ω觀察 agenta處于環(huán)境e中。

其中每個modelm本身又是一個映射：

即：環(huán)境描述 → 關(guān)于 agent a 的一組 insights o（意圖、最可能決策、情緒狀態(tài)、信念……）。

加上時間維度（P1 持續(xù)更新）

更新發(fā)生在離散時刻 τ（異步），被觀測序列 e(t)和交互獎勵驅(qū)動。

Definition 2（更優(yōu)雅的分離寫法）把"agent 類"和"環(huán)境"解耦：

你可以把 f理解為 Observer 腦子里的 "心智模型構(gòu)建器"，輸入看到的人（類）和情境流，輸出一個針對該 agent/agent-class 的 executable model，這個 model 吃進當前場景 e(t)，吐出你想要的任意 insight（belief / intention / emotion / explanation / next action distribution …）。

這個形式的美妙之處在于它的包容性——IRL 框架、Bayesian ToM、BDI 邏輯模型、GNN 消息傳遞圖、甚至（scaffolded）LLM agent 都可以被視作這個 m的特例實現(xiàn)。它提供的是接口層定義，不是某個具體算法。

04 Holistic Meta-Model
4.1 整體架構(gòu)（核心圖）

Figure 1：MToM 元模型全圖。Observer（≠純 ToM模塊）在動態(tài)環(huán)境中同時觀察+行動，Hybrid Model 產(chǎn)出對他人的 insights，不確定性貫穿感知→模擬→假設檢驗→insight 每一環(huán)，預測質(zhì)量反饋驅(qū)動模型演化。

ToM 不是獨立子系統(tǒng)，而是 Observer agent 整體目標集合的一部分。Observer 有自己的 goals（大多 ToM-irrelevant），其中一部分是 ToM-related goals——這兩者共同決定交互行為，而交互產(chǎn)生的數(shù)據(jù)反過來更新你的 ToM 模型。

4.2 四大組件拆解
① 仿真?zhèn)龋⊿imulation / ST 側(cè)）

用self-simulation初始化（P2）：你對陌生 agent 的第一近似 = "若我是他…"
隨證據(jù)積累，從agent class-level（刻板印象/原型 sim）細化到individual-level
仿真架構(gòu)本身不是給定死的，而是通過Continual NAS / Neural Module Search讓結(jié)構(gòu)隨任務演化

作者的推薦非常具體：

Continual Neural Architecture Search — made cheaper by module-based constraints (NMS: freeze base modules, re-wire) — is the best-suited mechanism.

這對圖科學/圖學習讀者是個暗線提示：如果把 mental state 建模成graph of states（G=(V,E)），那么"模塊重組"天然對應子圖提取 + message passing 結(jié)構(gòu)調(diào)整，就是一個 dynamic graph NN 的架構(gòu)搜索問題。

② 理論側(cè)（Theory / TT 側(cè)）：假設生成 + 主動探詢

TT 在這里不做擬人玄學，而是工程化為兩種等價形態(tài)：

假設檢驗型：formulate hypotheses → design action to disambiguate → update（經(jīng)典 active learning loop）
目標函數(shù)型：把"減少 insight 的不確定性"或"提升 sim 保真度"寫成 reward/objective，塞進 Observer 的多目標優(yōu)化里

論文還拋出一個非常前沿的方向：用epistemic generative models（epistemic GAN / VAE / diffusion）來生成消解歧義所需的 counterfactual 觀測——這在當前的 MToM 文獻里幾乎沒人碰。

③ 多目標 Agent Goal Optimisation 學習框架

其中 ToM-related objectives 至少可分四類：

Objective

形式

作用

ToM-SL

∫∥oi?yi∥— 預測誤差

用可觀測行為監(jiān)督 insight 質(zhì)量

ToM-RL

Gt=∑γkRt+k+1— 累積獎勵

通過與 agent 交互的效果反推心智模型好不好

ToM-TT

假設真?zhèn)谓y(tǒng)計檢驗置信度

驅(qū)動 TT 側(cè)的假設篩選

ToM-U

∫u(oi)— uncertainty reduction

主動壓低 epistemic uncertainty

而且goal set 本身隨時間演化（Figure 2 的 Evolving AI 理念）——你意識到需要搞清某個 agent 的某個維度，本質(zhì)上就是新 goal 的涌現(xiàn)。

Figure 2：Observer goals 的動態(tài)演化——新目標可以從探索目標空間的過程中涌現(xiàn)，而不僅是手寫的。

④ 不確定性建模（貫穿所有組件）

這是論文花最大篇幅強調(diào)的"欠賬"：

觀測噪聲（視覺檢測失敗、語言歧義）
環(huán)境非平穩(wěn)（場景動態(tài)本身不確定）
人類行為的內(nèi)在豐富性（同一 mental state → 多種 exteriorization）
simulation 內(nèi)部結(jié)構(gòu)的不確定（圖結(jié)構(gòu)的邊權(quán)、節(jié)點含義、層級關(guān)系）
insight 自身附 uncertainty（你輸出的"他認為…"應帶置信/第二階不確定）

作者特別點名credal sets / random-set representations作為比普通 Bayesian / ensemble 更有前途的路線（更緊的泛化界、更好的 OOD detection、天然二階 epistemic 表達），并指出它們在 ToM 中尚未被用過——這是一個 open gold mine。

05 現(xiàn)有方向差在哪？
5.1 逐條審判

Principle

IRL / MARL 系

Bayesian ToM

BDI / 認知架構(gòu)

LLM (scaffolded)

生物啟發(fā)

持續(xù)

天然時序

多數(shù)靜態(tài)

學習≠持續(xù)

上下文窗口≠終身

有l(wèi)earn但未連續(xù)

自我模擬

純外部

潛力在但未見paper

self-model → other

self-cognition剛起步

STS等通路

觀察交互

RL交互側(cè)強，觀察偏弱

? obs更新，action缺

不關(guān)心env交互

agentic時有交互

只管仿腦不管交互

ST+TT

純TT味

? 純probabilistic TT

部分 BDI+規(guī)則

純隱式

提法有但很少真融合

主動學習

有IRL但不成體系

?? 信息增益未主流

高階

IPOMDP可擴但貴

?? 可嵌套但脆

prompt遞歸但黑箱

多任務

常限r(nóng)eward inference

belief/desire可擴

多attitude

表面多task

單視角

不確定

?? 部分

? 核心優(yōu)勢

?? 邏輯≠uncertainty calib.

? 點估計為主

一句話總結(jié)：沒有任何現(xiàn)有 strand 全滿足；最接近的是Bayesian ToM × continual RL，但它在 P2（自我模擬初始化）和 P5（結(jié)構(gòu)化主動探詢）上是明顯短板。

5.2 Benchmark 生態(tài)的系統(tǒng)性缺陷

論文對現(xiàn)有 benchmark 做了大規(guī)模普查（Table 1 匯總了30+ 數(shù)據(jù)集/框架），然后擲出一個尖銳判斷：

"Overall, as all of these are static benchmarks, none satisfies Principle 5 (active learning), nor Principle 1 (continual update). Uncertainty quantification (P8) is widely ignored. Higher-order (P6) only in Hi-ToM. P2 and P4 are invisible to data format."

下面把論文的 Table 1 整理成更易讀的版本供參考：

Benchmark / Dataset

模態(tài)

數(shù)據(jù)形態(tài)

核心任務

年份

FANToM

文本

10K queries / 256對話

6類交互ToM壓力測試

'23

OpenToM

文本

696敘事 (GPT生成)

location/attitude/belief 多跳

'24

ToMBench

文本

2,860樣本 / 雙語

8task×31ability

'24

Hi-ToM

文本

高階遞歸ToM (deception)

'23

MMToM-QA

視頻+文

134視頻/600query

true/false belief, belief tracking, goal inference

'24

EgoToM

視頻

7k 5-min clips (Ego4D派生)

第一人稱ToM QA

'25

MovieGraph-ToM

視頻+文

30電影/65.6k query

長程社會因果圖推理

'26

MOMENTS

視頻

2.3k MCQ (SF20K)

7類ToM類別

'25

SoMiToM

視頻+文

35第三視角視頻+363第一視角圖

具身社交多視角

'25

MuMa-ToM

視頻+文

18參與者/90問

多智能體具身mental reasoning

'25

MindCraft

虛擬世界+文

100局Minecraft協(xié)作

共建任務/互belief追蹤

'21

ToM-SSI

網(wǎng)格世界

6,000問/5task

群體交互/空間+社交

'25

COKE

45k+認知鏈

situation→thought→action→emotion

'24

DynToM

文本

1,100context/78.1k問

時態(tài)演化的心智狀態(tài)追蹤

'25

CogToM

文本(雙語)

8,000實例/46范式

36tasks跨7心智范疇

'26

如果你在做視覺/具身方向，看 MuMa-ToM / EgoToM / ToM-SSI；如果你在做時態(tài)動態(tài)，DynToM 是目前唯一認真建模 mental state 時間演化的；如果你在做語言agent，F(xiàn)ANToM 和 ToMBench 的覆蓋面更嚴。但請記住：沒有一個現(xiàn)有benchmark測P1（持續(xù)學）和P5（主動交互探詢）——這兩個維度只能自己設計閉環(huán)環(huán)境（PsychSim / Mujoco social / 自定義grid world）。

06 給你的研究啟示

作者對未來的推演翻譯成更"可執(zhí)行"的研究建議，按受眾分組：

如果你做圖學習 / 網(wǎng)絡科學 + AI

把 mental state 表示成dynamic heterogeneous graph（entity states → nodes；causal/temporal/belief edges → edge types），用GNN message passing做 belief propagation，但關(guān)鍵是把graph topology本身做成 learnable（architecture search over graph structures）
考慮credal-set / random-set 版本的 GNN（論文 references: Tolloso & Bacciu "Credal GNN", Woodley et al. "Random-Set GNN"）——把 epistemic uncertainty 織入消息傳遞而非事后calibration

如果你做多智能體 / MARL

把 opponent modeling 從 "learn a policy net" 升級為 P1+P3+P5 框架：你的 opponent model 要持續(xù)更新（continual），且要主動設計交互動作來降低對其 intent 的 entropy
高階 ToM（P6）別只當game-theory練習題——IPOMDP框架 + 可擴展近似推斷（particle filters / amortized inference）是現(xiàn)實路徑

如果你做 LLM + ToM

承認一個殘酷事實：論文的結(jié)論是LLM的ToM能力skeptically viewed——LLM在ToM任務上的高分很多是 pattern matching over textual schema, not genuine simulation of minds
最有價值的LLM×ToM路線不是"刷榜"，而是scaffold LLM 為 hybrid meta-model 的組件：用LLM做 natural language ? structured belief 的接口層（LaBToM方向），但把核心 belief update / uncertainty 交給符號+概率引擎
自我認知（self-cognition）→ 自我模擬（P2）這條路值得認真做，而不是只加prompt

如果你做不確定性/可信AI

MToM 是epistemic uncertainty 的天然高強度試驗場（因為 ground truth mental state 原則上不可直接觀測）
把 conformal prediction / credal sets / second-order uncertainty 引入 belief tracking，把它做成certifiable的輸出（不只是"他要去左邊"，而是"我對這個判斷的 epistemic confidence = X，需要再探詢嗎？"）——這直接連到 safety-critical 應用（自動駕駛預測行人意圖、人機協(xié)作信任校準）

07 結(jié)語

有人可能會說："不就是寫了個映射 f:A×E→M嗎？" 但這個看似簡單的動作解決的是領(lǐng)域內(nèi)真正的結(jié)構(gòu)性缺失。

沒有形式化定義 → 沒有共識度量 → 每個方法選自己的tech然后宣稱做ToM → 領(lǐng)域碎片化 → 無法累積進步

Cuzzolin 做的事相當于給一個長期靠直覺推進的交叉領(lǐng)域立了地基：八大原則是從三條學科的實證文獻里歸納出來的（不是a priori哲學偏好），形式化定義給出了接口，元模型給出了裝配藍圖，benchmark census 標出了荒地。

對讀者而言，最有嚼頭的部分在于：ToM 的 search space 天然是結(jié)構(gòu)性的（層級 mental-state DAG / factor graph / causal graph / BDI 邏輯圖），這意味著圖神經(jīng)網(wǎng)絡、結(jié)構(gòu)學習、神經(jīng)符號圖推理不僅"能用"，而是在MToM的形式定義中就站在舞臺中央。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.