![]()
大語言模型在 False Belief 測試題上刷出高分的同時,Ullman 等人做了一個簡單到令人尷尬的實驗——只要對經(jīng)典 ToM 任務做微不足道的改寫,所有大模型立刻崩盤。Strachan et al. 在 Nature Human Behaviour上的系統(tǒng)性電池測試也得出類似的懷疑論結(jié)論。
這引出一個更深層的問題:過去十幾年里,大家造了一堆可以"過 ToM 測試"的系統(tǒng),卻從未嚴格定義過"機器心智理論(Machine Theory of Mind, MToM)"到底是什么。
本文的核心價值就在于此:它是世界上第一篇對 MToM 給出嚴格形式化定義、提煉證據(jù)支持的 Principles、并用一個 holistic meta-model 把整個領(lǐng)域"拔高一層"的工作。
對于做 AI+認知科學交叉、圖神經(jīng)網(wǎng)絡、不確定性量化、多智能體 RL 的讀者來說,這篇文章提供的不是某個新模塊,而是一張概念坐標系——讓你看清自己那塊拼圖在整個版圖上的位置。
![]()
論文:A formal definition and meta-model for a machine theory of mind
單位:牛津
發(fā)布日期:2026
下載論文:https://t.zsxq.com/fBEZ2
請索引第101篇論文
![]()
![]()
為什么「機器心智理論」至今沒有正式定義?牛津這篇工作首次把它寫成了數(shù)學,并提出了一個統(tǒng)領(lǐng)性元模型
01 心智理論的三個經(jīng)典流派(及為什么機器版不能只挑一邊站)
1.1 認知心理學給我們的三條線索
流派
核心主張
對 MToM 的啟示
Theory-Theory (TT)
人對他人的理解靠的是一套"理論"(命題式知識結(jié)構(gòu)),兒童像小科學家一樣提假設、驗證據(jù)
機器需要知識庫 + 假設生成/檢驗 + 符號/神經(jīng)符號推理;但存儲無窮多理論認知代價爆炸
Simulation-Theory (ST)
人通過把自己的推理系統(tǒng)"代入"他人來推其心理狀態(tài)("我要是他,會怎樣想?")
機器可用自身決策/規(guī)劃引擎模擬他人;依賴"他人與我足夠相似"的先驗
Modular Theories
ToM 由腦中專門模塊負責(進化產(chǎn)物),mPFC / TPJ / STS 等構(gòu)成功能網(wǎng)絡
暗示 MToM 架構(gòu)應是有功能子模塊組裝而非單一端到端黑箱
作者給出的立場非常明確:你需要一個 hybrid,兩者缺一不可(Principle 4)。純 ST 在沒有足夠錨定信息時不知道該"設成誰";純 TT 在沒有交互證據(jù)時理論空間爆炸。人類自己就是又模擬又建理論的。
1.2 神經(jīng)科學的現(xiàn)狀:有用,但尚未 ready-to-implement
論文坦率指出:神經(jīng)科學目前還不足以直接指導 MToM 架構(gòu)設計(mirror neuron 假說熱度退潮后,現(xiàn)在更多認為是 mPFC+TPJ+STS 等組成的分布式網(wǎng)絡)。但它提供的兩點非常關(guān)鍵:
組裝式(assemblage)證據(jù):人腦似乎不是用一個"ToM模塊"硬開關(guān),而是用基礎(chǔ)構(gòu)建塊動態(tài)組裝來處理不同社會情境——這對我們設計可重組的仿真架構(gòu)(Neural Module Search 思路)是直接啟發(fā)。
自我模擬是起點:mPFC 活動在 self vs. other 區(qū)分中扮演關(guān)鍵角色——形式上意味著你的先驗可以用sim(self)做初始化。
這是全文最"值錢"的部分——作者從認知心理+神經(jīng)科學+AI 三條線索,推導出 MToM 必須滿足的 8 條原則(不是拍腦袋 axioms,而是 literature-backed):
Principle
認知/實證來源
對 AI 模型的打擊點
P1
ToM 是終身持續(xù)學習過程,隨經(jīng)驗迭代更新
兒童 ToM 3–4 歲才出現(xiàn),需多年多情境交互
一次性訓練/靜態(tài) benchmark 是根本性錯配
P2
無證據(jù)時,用自身思維過程模擬他人(自我模擬 kick-start)
"child applies their own reasoning to others";COMMON-TOM 基準也圍繞 common ground
純從零數(shù)據(jù)學他人 ≠ 人類的 bootstrap 機制
P3
應從觀察 + 交互兩條通道學習(非僅其一)
人看電影/讀故事也能學;RL 反饋循環(huán)也能學
把 MToM 縮減成純 SL 或純 RL 都是削足適履
P4
Hybrid:ST(模擬)+ TT(假設生成/檢驗)共存
模糊情境下人既代入又提問驗證
純端到端黑箱或純符號都偏科
P5
須含主動學習:為消解歧義去獲取新證據(jù)
你會問朋友"你是不是煩了?"來驗假設
當前所有靜態(tài) ToM benchmark 完全忽略這條
P6
須處理高階遞歸ToM("我認為你認為我認為…")
談判/博弈/有限信息競價中高階 ToM 有可測優(yōu)勢
大多數(shù)方法止步一階 belief tracking
P7
ToM 是多任務:意圖、信念、情緒、解釋、預測……輸出是 manifold insights,非單一 label
同一場景不同目標要不同輸出
把 ToM 降維成"猜下一個動作"丟掉了半壁江山
P8
過程是本質(zhì)不確定的——他人心智不可直接觀測,不確定性是 epistemic 型的
行為→心智是 ill-posed inverse problem
點預測不夠;需要 credal sets / random sets / second-order uncertainty
交叉學科讀者的一個關(guān)鍵takeaway:P1+P8 合在一起告訴你——MToM 的本質(zhì)不是一個分類器或一個 predictor,而是一個在持續(xù)演化、永遠 under-determined 的推理過程。這意味著它的數(shù)學形態(tài)更像 online Bayesian updating / conformal prediction / credal-set reasoning 而非 standard supervised learning。03 把"理解他人心智"寫成映射
這是本文最硬核的貢獻。作者定義了:
Definition 1(MToM 核心映射):一個Observer ω觀察 agenta處于環(huán)境e中。
![]()
其中每個modelm本身又是一個映射:
![]()
即:環(huán)境描述 → 關(guān)于 agent a 的一組 insights o(意圖、最可能決策、情緒狀態(tài)、信念……)。
加上時間維度(P1 持續(xù)更新)
![]()
更新發(fā)生在離散時刻 τ(異步),被觀測序列 e(t)和交互獎勵驅(qū)動。
Definition 2(更優(yōu)雅的分離寫法)把"agent 類"和"環(huán)境"解耦:
![]()
![]()
你可以把 f理解為 Observer 腦子里的 "心智模型構(gòu)建器",輸入看到的人(類)和情境流,輸出一個 針對該 agent/agent-class 的 executable model,這個 model 吃進當前場景 e(t),吐出你想要的任意 insight(belief / intention / emotion / explanation / next action distribution …)。
這個形式的美妙之處在于它的包容性——IRL 框架、Bayesian ToM、BDI 邏輯模型、GNN 消息傳遞圖、甚至(scaffolded)LLM agent 都可以被視作這個 m的特例實現(xiàn)。它提供的是接口層定義,不是某個具體算法。
04 Holistic Meta-Model
4.1 整體架構(gòu)(核心圖)
![]()
Figure 1:MToM 元模型全圖。Observer(≠純 ToM模塊)在動態(tài)環(huán)境中同時觀察+行動,Hybrid Model 產(chǎn)出對他人的 insights,不確定性貫穿感知→模擬→假設檢驗→insight 每一環(huán),預測質(zhì)量反饋驅(qū)動模型演化。
ToM 不是獨立子系統(tǒng),而是 Observer agent 整體目標集合的一部分。Observer 有自己的 goals(大多 ToM-irrelevant),其中一部分是 ToM-related goals——這兩者共同決定交互行為,而交互產(chǎn)生的數(shù)據(jù)反過來更新你的 ToM 模型。
4.2 四大組件拆解
① 仿真?zhèn)龋⊿imulation / ST 側(cè))
用self-simulation初始化(P2):你對陌生 agent 的第一近似 = "若我是他…"
隨證據(jù)積累,從agent class-level(刻板印象/原型 sim)細化到individual-level
仿真架構(gòu)本身不是給定死的,而是通過Continual NAS / Neural Module Search讓結(jié)構(gòu)隨任務演化
作者的推薦非常具體:
Continual Neural Architecture Search — made cheaper by module-based constraints (NMS: freeze base modules, re-wire) — is the best-suited mechanism.
這對圖科學/圖學習讀者是個暗線提示:如果把 mental state 建模成graph of states(G=(V,E)),那么"模塊重組"天然對應子圖提取 + message passing 結(jié)構(gòu)調(diào)整,就是一個 dynamic graph NN 的架構(gòu)搜索問題。
② 理論側(cè)(Theory / TT 側(cè)):假設生成 + 主動探詢
TT 在這里不做擬人玄學,而是工程化為兩種等價形態(tài):
假設檢驗型:formulate hypotheses → design action to disambiguate → update(經(jīng)典 active learning loop)
目標函數(shù)型:把"減少 insight 的不確定性"或"提升 sim 保真度"寫成 reward/objective,塞進 Observer 的多目標優(yōu)化里
論文還拋出一個非常前沿的方向:用epistemic generative models(epistemic GAN / VAE / diffusion)來生成消解歧義所需的 counterfactual 觀測——這在當前的 MToM 文獻里幾乎沒人碰。
③ 多目標 Agent Goal Optimisation 學習框架
![]()
其中 ToM-related objectives 至少可分四類:
Objective
形式
作用
ToM-SL
∫∥oi?yi∥— 預測誤差
用可觀測行為監(jiān)督 insight 質(zhì)量
ToM-RL
Gt=∑γkRt+k+1— 累積獎勵
通過與 agent 交互的效果反推心智模型好不好
ToM-TT
假設真?zhèn)谓y(tǒng)計檢驗置信度
驅(qū)動 TT 側(cè)的假設篩選
ToM-U
∫u(oi)— uncertainty reduction
主動壓低 epistemic uncertainty
而且goal set 本身隨時間演化(Figure 2 的 Evolving AI 理念)——你意識到需要搞清某個 agent 的某個維度,本質(zhì)上就是新 goal 的涌現(xiàn)。
![]()
Figure 2:Observer goals 的動態(tài)演化——新目標可以從探索目標空間的過程中涌現(xiàn),而不僅是手寫的。
④ 不確定性建模(貫穿所有組件)
這是論文花最大篇幅強調(diào)的"欠賬":
觀測噪聲(視覺檢測失敗、語言歧義)
環(huán)境非平穩(wěn)(場景動態(tài)本身不確定)
人類行為的內(nèi)在豐富性(同一 mental state → 多種 exteriorization)
simulation 內(nèi)部結(jié)構(gòu)的不確定(圖結(jié)構(gòu)的邊權(quán)、節(jié)點含義、層級關(guān)系)
insight 自身附 uncertainty(你輸出的"他認為…"應帶置信/第二階不確定)
作者特別點名credal sets / random-set representations作為比普通 Bayesian / ensemble 更有前途的路線(更緊的泛化界、更好的 OOD detection、天然二階 epistemic 表達),并指出它們在 ToM 中尚未被用過——這是一個 open gold mine。
05 現(xiàn)有方向差在哪?
5.1 逐條審判
Principle
IRL / MARL 系
Bayesian ToM
BDI / 認知架構(gòu)
LLM (scaffolded)
生物啟發(fā)
P1
持續(xù)
天然時序
??
多數(shù)靜態(tài)
??
學習≠持續(xù)
??
上下文窗口≠終身
??
有l(wèi)earn但未連續(xù)
P2
自我模擬
純外部
??
潛力在但未見paper
self-model → other
??
self-cognition剛起步
STS等通路
P3
觀察交互
RL交互側(cè)強,觀察偏弱
? obs更新,action缺
不關(guān)心env交互
??
agentic時有交互
只管仿腦不管交互
P4
ST+TT
純TT味
? 純probabilistic TT
部分 BDI+規(guī)則
純隱式
提法有但很少真融合
P5
主動學習
??
有IRL但不成體系
?? 信息增益未主流
P6
高階
??
IPOMDP可擴但貴
?? 可嵌套但脆
??
prompt遞歸但黑箱
P7
多任務
常限r(nóng)eward inference
belief/desire可擴
多attitude
表面多task
單視角
P8
不確定
?? 部分
? 核心優(yōu)勢
?? 邏輯≠uncertainty calib.
? 點估計為主
??
一句話總結(jié):沒有任何現(xiàn)有 strand 全滿足;最接近的是Bayesian ToM × continual RL,但它在 P2(自我模擬初始化)和 P5(結(jié)構(gòu)化主動探詢)上是明顯短板。
5.2 Benchmark 生態(tài)的系統(tǒng)性缺陷
論文對現(xiàn)有 benchmark 做了大規(guī)模普查(Table 1 匯總了30+ 數(shù)據(jù)集/框架),然后擲出一個尖銳判斷:
"Overall, as all of these are static benchmarks, none satisfies Principle 5 (active learning), nor Principle 1 (continual update). Uncertainty quantification (P8) is widely ignored. Higher-order (P6) only in Hi-ToM. P2 and P4 are invisible to data format."
下面把論文的 Table 1 整理成更易讀的版本供參考:
Benchmark / Dataset
模態(tài)
數(shù)據(jù)形態(tài)
核心任務
年份
FANToM
文本
10K queries / 256對話
6類交互ToM壓力測試
'23
OpenToM
文本
696敘事 (GPT生成)
location/attitude/belief 多跳
'24
ToMBench
文本
2,860樣本 / 雙語
8task×31ability
'24
Hi-ToM
文本
高階遞歸ToM (deception)
'23
MMToM-QA
視頻+文
134視頻/600query
true/false belief, belief tracking, goal inference
'24
EgoToM
視頻
7k 5-min clips (Ego4D派生)
第一人稱ToM QA
'25
MovieGraph-ToM
視頻+文
30電影/65.6k query
長程社會因果圖推理
'26
MOMENTS
視頻
2.3k MCQ (SF20K)
7類ToM類別
'25
SoMiToM
視頻+文
35第三視角視頻+363第一視角圖
具身社交多視角
'25
MuMa-ToM
視頻+文
18參與者/90問
多智能體具身mental reasoning
'25
MindCraft
虛擬世界+文
100局Minecraft協(xié)作
共建任務/互belief追蹤
'21
ToM-SSI
網(wǎng)格世界
6,000問/5task
群體交互/空間+社交
'25
COKE
KG
45k+認知鏈
situation→thought→action→emotion
'24
DynToM
文本
1,100context/78.1k問
時態(tài)演化的心智狀態(tài)追蹤
'25
CogToM
文本(雙語)
8,000實例/46范式
36tasks跨7心智范疇
'26
如果你在做視覺/具身方向,看 MuMa-ToM / EgoToM / ToM-SSI;如果你在做時態(tài)動態(tài),DynToM 是目前唯一認真建模 mental state 時間演化的;如果你在做語言agent,F(xiàn)ANToM 和 ToMBench 的覆蓋面更嚴。但請記住:沒有一個現(xiàn)有benchmark測P1(持續(xù)學)和P5(主動交互探詢)——這兩個維度只能自己設計閉環(huán)環(huán)境(PsychSim / Mujoco social / 自定義grid world)。
06 給你的研究啟示
作者對未來的推演翻譯成更"可執(zhí)行"的研究建議,按受眾分組:
如果你做圖學習 / 網(wǎng)絡科學 + AI
把 mental state 表示成dynamic heterogeneous graph(entity states → nodes;causal/temporal/belief edges → edge types),用GNN message passing做 belief propagation,但關(guān)鍵是把graph topology本身做成 learnable(architecture search over graph structures)
考慮credal-set / random-set 版本的 GNN(論文 references: Tolloso & Bacciu "Credal GNN", Woodley et al. "Random-Set GNN")——把 epistemic uncertainty 織入消息傳遞而非事后calibration
如果你做多智能體 / MARL
把 opponent modeling 從 "learn a policy net" 升級為 P1+P3+P5 框架:你的 opponent model 要持續(xù)更新(continual),且要主動設計交互動作來降低對其 intent 的 entropy
高階 ToM(P6)別只當game-theory練習題——IPOMDP框架 + 可擴展近似推斷(particle filters / amortized inference)是現(xiàn)實路徑
如果你做 LLM + ToM
承認一個殘酷事實:論文的結(jié)論是LLM的ToM能力skeptically viewed——LLM在ToM任務上的高分很多是 pattern matching over textual schema, not genuine simulation of minds
最有價值的LLM×ToM路線不是"刷榜",而是scaffold LLM 為 hybrid meta-model 的組件:用LLM做 natural language ? structured belief 的接口層(LaBToM方向),但把核心 belief update / uncertainty 交給符號+概率引擎
自我認知(self-cognition)→ 自我模擬(P2)這條路值得認真做,而不是只加prompt
如果你做不確定性/可信AI
MToM 是epistemic uncertainty 的天然高強度試驗場(因為 ground truth mental state 原則上不可直接觀測)
把 conformal prediction / credal sets / second-order uncertainty 引入 belief tracking,把它做成certifiable的輸出(不只是"他要去左邊",而是"我對這個判斷的 epistemic confidence = X,需要再探詢嗎?")——這直接連到 safety-critical 應用(自動駕駛預測行人意圖、人機協(xié)作信任校準)
07 結(jié)語
有人可能會說:"不就是寫了個映射 f:A×E→M嗎?" 但這個看似簡單的動作解決的是領(lǐng)域內(nèi)真正的結(jié)構(gòu)性缺失。
沒有形式化定義 → 沒有共識度量 → 每個方法選自己的tech然后宣稱做ToM → 領(lǐng)域碎片化 → 無法累積進步
Cuzzolin 做的事相當于給一個長期靠直覺推進的交叉領(lǐng)域立了地基:八大原則是從三條學科的實證文獻里歸納出來的(不是a priori哲學偏好),形式化定義給出了接口,元模型給出了裝配藍圖,benchmark census 標出了荒地。
對讀者而言,最有嚼頭的部分在于:ToM 的 search space 天然是結(jié)構(gòu)性的(層級 mental-state DAG / factor graph / causal graph / BDI 邏輯圖),這意味著圖神經(jīng)網(wǎng)絡、結(jié)構(gòu)學習、神經(jīng)符號圖推理不僅"能用",而是在MToM的形式定義中就站在舞臺中央。
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.