網易首頁 > 網易號 > 正文申請入駐

物理AI智能體主動推理

2026-04-03 13:42:44　來源: CreateAMind

上海舉報

分享至

Active Inference for Physical AI Agents

物理AI智能體主動推理：工程視角

https://arxiv.org/pdf/2603.20927

摘要

物理人工智能體（例如在嚴苛且動態變化的資源約束下運行的機器人及其他具身系統）在開放的真實環境中，其能力仍遠不及生物智能體。本文認為，基于自由能原理的主動推理（AIF）為彌合這一差距提供了原則性的基礎。我們將從第一性原理出發，沿著概率論→貝葉斯機器學習→變分推斷→主動推理與反應式消息傳遞的邏輯鏈條展開論證。從自由能原理視角來看，在適當假設下，能夠隨時間維持自身結構與功能完整性的系統可被描述為仿佛在最小化變分自由能（VFE）；而主動推理則通過將感知、學習、規劃與控制統一到單一計算目標（而非分離的工程子系統）中，實現了這一原理的具體操作化。我們將證明，VFE最小化可自然地通過因子圖上的反應式消息傳遞實現，其中推斷過程源于局部的并行計算。這一實現方式不僅便捷，更與物理運行的核心約束高度契合，包括硬實時截止時間、異步數據到達、動態功率預算以及環境組成的變化。由于反應式消息傳遞具有事件驅動、可中斷及局部自適應的特點，在資源減少時系統性能可優雅降級，同時模型結構能隨相關實體與關系的實時變化進行在線調整。我們進一步表明，在適當的耦合與粗粒化條件下，耦合的主動推理智能體可被描述為更高層級的主動推理智能體，從而形成一種計算上同構的架構——在跨尺度上使用相同的消息傳遞基元。本文不進行與現有方法的基準比較；我們的貢獻在于從理論與架構層面闡述這一思想，使其便于工程社區理解與應用。

1 引言

RoboCup1是一項國際研究與教育計劃，通過機器人競賽作為基準問題，推動人工智能、機器人學及自主多智能體系統的發展。RoboCup的最終目標如下2：“到21世紀中葉，一支完全自主的人形機器人足球隊應按照國際足聯正式比賽規則，擊敗最近一屆世界杯冠軍得主。”2025年10月，RoboCup 2025“人形機器人足球賽”3決賽中，兩支使用Booster T1機器人的隊伍進行了對決?。該場比賽的實況可在YouTube上觀看?。

首先，我們應當對當今機器人足球系統背后的人類工程團隊的技能、創造力和持續努力予以贊揚和應有的尊重。他們的成就是重大且來之不易的。與此同時，我們也需要誠實地承認：一支人類幼兒足球隊很可能擊敗目前的世界冠軍人形機器人隊。當前基于大語言模型（LLM）的AI系統——在文檔處理、代碼開發等任務上已能與甚至超越人類專家水平——與物理AI系統（如自主足球機器人）之間的能力差距是驚人的。

讓我們審視一下當代機器人足球隊所采用的技術。它們的開發依賴于控制理論、信號處理、機器人學、機器學習和通信等領域的前沿方法，凝聚了數十年來的理論進步和大規模工程努力。

現在，將這些機器人系統的足球技能水平與精英人類足球運動員（例如基利安·姆巴佩?）進行比較。姆巴佩并沒有顯式地運用任何控制理論或強化學習的知識。相反，他的大腦和身體在物理規律的作用下，通過與環境的長期互動，形成了遠超當前人形機器人的足球技能。

事實上，這種性能差距之大，促使我們思考一個問題：到2050年，要讓能擊敗人類世界冠軍的人形機器人隊伍成為現實，繼續沿著控制與學習算法的發展路徑是否就是最有前景的方向？或許，更富有成效的方式是研究生物大腦中的物理過程如何產生信息處理機制，并通過與環境的互動，形成卓越的感覺運動技能。

我們使用機器人足球這個例子，僅僅是為了說明人類技能水平與當前必須在真實世界具身約束下運行的物理AI智能體之間存在的巨大性能差距。在本文中，我們更廣泛的興趣是引入一種替代性方法，用于開發與人類表現具有競爭力的物理具身AI系統。

大約二十年前，一個被稱為自由能原理（FEP）的統一框架被提出，用于將大腦中的信息處理描述為一個物理過程 [Friston, 2005, 2009]。自提出以來，FEP 已進一步發展為一個適用于維持自身結構和功能完整性的自然系統的通用最小作用量原理 [Friston et al., 2023a]。關于該理論當前狀態的全面綜述可參見 [Friston, 2019, Friston et al., 2023b]。

FEP 的一個決定性特征是將大腦解釋為對感官觀測的概率生成模型，其中所有的信息處理都被歸結為變分自由能（VFE）的最小化。在這一框架下，諸如感知、控制、規劃、學習、決策、注意力、習慣形成、探索和想象等認知過程，不再被視為獨立的認知能力，而是作為單一推斷原則的結果涌現出來。從工程角度看，這種統一在概念上非常強大且極具吸引力，因為這些功能通常由控制理論、信號處理、機器學習和人工智能中本質不同的方法來解決。

為了將實際的物理過程與總體的理論框架區分開來，大腦中的 VFE 最小化過程通常被稱為主動推理（AIF），盡管本文后續會對此術語進行更精細的定義。從工程角度來看，AIF 作為一個潛在的基礎，特別值得關注，因為它可用于開發能夠通過與環境的互動自主獲取技能的合成物理 AI 系統。

盡管具有概念上的吸引力，但關于 FEP 和 AIF 的文獻對工程師而言仍然難以理解。因此，本文旨在從工程視角出發介紹 AIF，并闡明為什么它對于機器人學及其他具身 AI 系統領域的研究者而言是一個有前景的范式。

本文按照以下鏈條（圖 2）展開論證，每一步都建立在前一步的基礎之上：

概率論（PT）：我們采用將概率解釋為信念程度的貝葉斯觀點，并回顧了求和規則與乘積規則的公理化推導 [Cox, 1946, Jaynes, 2003]。
貝葉斯機器學習（BML）：在從數據中學習方面完全遵循概率論。貝葉斯規則是基本的學習機制；模型性能通過貝葉斯模型證據來評分。BML 是原則性的，但通常在計算上難以處理。
變分推斷（VI）：將 VFE 最小化作為精確貝葉斯推斷的一種計算上可行的替代方案，它深深植根于統計物理學 [Feynman, 1955, Lanczos, 1986] 并具有最大熵原理的公理化基礎。
主動推理（AIF）：將 VFE 最小化完全作為物理智能體通過與環境和感覺交互的持續唯一過程。
因子圖與反應式消息傳遞（RMP）：將 VFE 最小化實現為因子圖上的分布式、事件驅動的消息傳遞，天然適用于在波動性數據、時間和功率資源下運行。

簡而言之，本文旨在為將主動推理作為一種用于開發物理具身 AI 系統的工程技術來理解和應用，提供一條清晰的路徑。我們希望從這個角度介紹主動推理，能夠激發工程社區更大的興趣和更廣泛的采用。關于 PT、BML 和 VI 的前幾節特意放慢了節奏，以便廣泛讀者能夠理解。已經熟悉 VI 的讀者可以直接跳到第 5 節，那里是主動推理論述的起點。

2 概率論

我們首先回顧概率論（PT），以建立符號體系并明確本文后續內容所依賴的具體解釋——即貝葉斯概率。由于篇幅限制，我們將側重于概念理解而非形式上的完整性。

一個介紹概率的經典方法是：假設教室黑板的背面有一個整數 x x，取值范圍在 1 到 100 之間，請一名學生猜測這個數字。不同的學生可能會給出不同的答案，因為他們關于 x x的知識狀態的不確定性可以表示為

當黑板被翻轉并將數字展示給全班學生后，學生的知識狀態從(1)變為(2)。

顯然，概率分布提供了一種方便的方式來表征知識狀態，特別是對某個事件（此處為： x = a ）的信念程度，該事件要么為真要么為假。這種將概率解釋為信念程度的觀點通常被稱為貝葉斯解釋。重要的是，對某個事件的信念程度可能會發生變化，即使黑板上實際的物理數字（ x = 57 ）本身并未改變。在上述例子中，揭示真相后更新知識狀態是平凡的；然而，在大多數實際情況下，當（部分）信息被揭示時，應該如何更新信念遠沒有那么明確。

在1946年一篇開創性的論文中，推導出了當新信息可用時“理性”更新信念程度（概率）的正確演算方法 [Cox, 1946]。在發展這種用于理性信息處理的演算時，僅做了一些非常合理的假設（“公理”），包括：

C1實值信念。信念程度由介于0和1之間的實數表示。
C2一致性。合理性評估是一致的：如果在新信息 B 下 A 變得更合理，則賦予的信念程度相應增加；并且如果對 A 的信念超過對 B 的信念，而對 B 的信念超過對 C 的信念，那么對 A 的信念必須超過對 C 的信念。
C3邏輯封閉性。邏輯等價性得以保持：如果一個事件的信念可以通過兩種不同方式推斷出來，例如先基于更新，或者反過來，這兩種路徑在最終信念上必須一致。

Cox推導得出，如果1–3成立，那么更新概率的唯一正確方式必須遵循求和規則與乘積規則：

全概率法則的應用通常被稱為邊緣化，由此得到的分布 p ( A ) 稱為邊緣概率。求和規則與乘積規則，連同貝葉斯規則和全概率法則，構成了所有理性信息處理的核心工具。

示例 1 提供了一個具有啟發性的例子，既凸顯了概率論的強大能力，也揭示了依賴直覺而非求和規則與乘積規則可能帶來的誤區。

3 貝葉斯機器學習

貝葉斯機器學習（BML）體現了對概率論的完全承諾，用于（從數據中）學習和應用模型。原則上，BML 是一個合理的思想，因為任何替代方案都意味著一個違反 Cox 公理的機器學習學科。

一個關鍵見解是：如果不引入超越觀測數據本身的假設，機器學習通常是不可能的。在貝葉斯機器學習的背景下，這些假設被編碼在一個模型 m m中，該模型定義了模型參數集合 θ θ與觀測數據集上的聯合概率分布。這個聯合分布由似然函數與模型參數上的先驗分布的乘積所確定，即：

似然函數和先驗分布都需要一些澄清。分布 p ( D ∣ θ , m ) 有兩種互補的解釋。首先，它可以看作是一個具有固定參數值 θ θ的模型 m m生成數據集 D 的概率。在這種解釋下， D 是變量，而 p ( D ∣ θ , m ) 被視為一個數據生成分布。

然而，在機器學習背景下，數據 D 通常被視為一組固定的已知觀測值，而參數值 θ 是未知的。在這種解釋下， p ( D ∣ θ , m ) 被視為 θ 的函數，稱為似然函數。從建模的角度來看，指定一個合適的似然函數是一個核心的設計選擇，反映了實踐者對數據生成過程所做的假設。

除了似然函數之外，實踐者還必須指定在觀測到數據 D 之前他們對模型參數 θ 的知識狀態。這一知識通過先驗分布 p ( θ ∣ m ) 來編碼。顯式指定先驗是貝葉斯機器學習區別于其他機器學習框架的一個關鍵方面——在其他框架中，所需的假設通常以隱式或非概率的方式引入，例如通過正則化項。

一旦模型（6）被指定，并且新的數據集 D 變得可用，所有后續處理都遵循概率論進行。實際的學習任務涉及評估

因此，首先通過對模型參數 θ θ進行邊緣化來計算模型證據 p ( D ∣ m ) ，然后通過貝葉斯規則得到參數的 posterior 分布 p ( θ ∣ D , m ) 。

p ( D ∣ m ) 和 p ( θ ∣ D , m ) 都是核心關注量。 (7b) 中的貝葉斯規則描述了數據集 D D如何通過一致的理性推理，將關于模型參數的信念從先驗分布 p ( θ ∣ m ) 更新為 posterior 分布 p ( θ ∣ D , m ) 。因此，貝葉斯規則構成了數據學習背后的基本規則。偏離 (7b) 可能會違反 Cox 公理。

模型證據 p ( D ∣ m ) 本身非常有價值，因為它對模型假設 (6) 的性能進行了評分。首先注意，對于給定的數據集， p ( D ∣ m ) 計算為區間 ( 0 , 1 ] 內的一個標量值。該量的負對數通常稱為驚奇度（surprisal），它可以分解為復雜度項減去準確度項（參見 (53) 中的證明）：

復雜度項是 Kullback-Leibler (KL) 散度?，它可以解釋為 posterior 分布與 prior 分布之間的非負距離度量。復雜度項反映了我們通過將數據 D D吸收到模型中，使信念從 prior 轉變為 posterior 所需改變的程度。一個好的模型應該避免不必要的偏離 prior，因為信念更新相當于遺忘先驗信息（并且在主動推理的背景下，遺忘那些維持生存所依賴的信息是不可取的）。準確度項是期望對數似然，其中期望是針對（posterior）參數信念來計算的。一個好的模型具有高準確度，因為我們希望很好地預測數據集 D D。最小化復雜度和最大化準確度都與最大化模型證據 p ( D ∣ m ) 的目標一致。總而言之，具有高貝葉斯證據的模型通過實現高準確度（即對新數據 D D擬合良好）同時保持低復雜度（即不遺忘過去學到的模式），達成了有利的權衡。這種復雜度-準確度的權衡，將在第 4 節和第 5.3 節中作為我們為主動推理智能體設計變分自由能目標時的核心設計準則再次出現。

雖然證據 p ( D ∣ m ) 對模型 m m的性能進行評分，但在訓練好的模型應用中，通常需要的是 posterior 分布 p ( θ ∣ D , m ) 。例如，給定數據集 D D和模型假設 (6)，我們可以評估關于未來觀測 y ? 的知識狀態如下：

需要注意的是，貝葉斯機器學習中的所有信息處理——即通過 (7) 進行的學習以及如 (9) 所示的模型應用——完全依賴于概率論。因此，BML 代表了一種在不違反 Cox 公理的前提下進行機器學習的承諾。

在應用環境中，實踐者通常通過使用 (7a) 評估模型證據來迭代候選模型方案，直到獲得一個令人滿意的模型。一旦選定了可接受的模型，就通過 (7b) 計算模型參數上的 posterior 分布。隨后，得到的模型就可以被應用，例如按照 (9) 中描述的方式。一個將 BML 應用于預測硬幣拋擲結果的完整示例見示例 2。

如果我們接受 Cox 公理，那么我們就應該接受 BML 作為我們的機器學習框架。不幸的是，通過 (7a) 評估證據可能是難以處理的。舉例說明，考慮一個（較小的）包含 80 個參數的模型，其中每個參數可以取 10 個可能的值。使用 (7a) 評估證據需要對項進行求和，這相當于宇宙中電子的數量級。如果證據無法評估，那么 posterior 分布就無法通過 (7b) 計算，因此 (9) 中的應用步驟也變得難以處理。因此，盡管 BML 在形式上是正確的機器學習方法，但計算上的局限性阻礙了它的廣泛采用。

4 變分推斷

如前所述，當計算資源有限時，評估貝葉斯證據以及由此得到的后驗分布可能是難以處理的。一個用于約束下推斷的公理化框架由 [Shore and Johnson, 1980] 提出，后來由 [Skilling, 1989, Caticha, 2021] 加以完善，其精神與 Cox 對概率論的公理化推導非常相似。

在貝葉斯機器學習任務的背景下，Shore and Johnson [1980] 引入了一個排序泛函 S [ q ] ，作用于候選后驗分布 q ( θ ) ?，該泛函是相對于先驗模型 p ( D , θ ) 和新施加的一組約束來定義的。這些約束代表了新獲得的信息（例如數據集中的觀測值），但也可能包括限制候選分布族可行范圍的建模限制。例如，我們可能將注意力限制在高斯后驗 q ( θ ) 上。更一般地，約束是任何影響從先驗到后驗的信念更新的條件。Shore and Johnson [1980] 要求該排序泛函滿足以下公理：

S1 唯一性：更新規則必須產生唯一的后驗。
S2 坐標不變性：推斷必須在參數重參數化下保持不變。
S3 系統獨立性：獨立系統分別更新或聯合更新必須產生一致的結果。
S4 子集獨立性：施加于一個子集上的約束不得影響關于不相交子集的推斷。

直觀上，這些公理要求后驗僅由施加的約束決定，而不引入任何無根據的信息。例如，S4 要求校準機器人的攝像頭不得改變對其麥克風參數的信念，因為校準數據不包含關于麥克風的任何信息。如果這些公理得到滿足，那么 [Shore and Johnson, 1980] 證明，相對熵泛函是滿足這一要求的唯一排序準則。具體而言，對于給定的觀測數據集 D D，優選的后驗 q ( θ ) 被唯一確定為滿足所施加約束的同時最大化相對熵的分布：

這種推斷方法被稱為最大熵原理（MEP）。盡管相對熵是信息論中的一個核心概念，但其相反數在統計物理學中被稱為變分自由能（VFE）：

這一過程產生了一個近似的、但在計算上可行的貝葉斯解。

我們得到了一個顯著的結果。通過 (7) 進行的精確貝葉斯更新在符合 Cox 公理的意義上是最優的，但由于 (7a) 中需要對 θ θ進行邊緣化，它通常在計算上是難以處理的。變分推斷通過將貝葉斯學習重新表述為 (15) 中的優化問題，規避了這種邊緣化，而該優化問題通常在計算上要容易處理得多。

此外，如果在數據約束之外進一步增加推斷問題的約束條件，那么 [Shore and Johnson, 1980]、[Skilling, 1989]、[Caticha, 2021] 提供了一個強有力的公理化動機，將約束下的 VFE 最小化視為一種原則性的推斷方法。因此，VFE 最小化不僅是一種方便的近似技術，更是一個原則性的（在實踐中也是不可避免的）框架，用于在物理 AI 系統面臨的實時條件下進行不確定性下的一致性推理。這引出了一個關鍵的概念性見解：在這種受限推斷的視角下，貝葉斯規則表現為 VI 的一個特例，其中唯一的約束是編碼了觀測數據，并且不對后驗的可容許族施加任何限制。因此，VI 比貝葉斯規則更為通用，因為它能夠容納現實世界智能體不可避免地面臨的額外約束（計算上的、結構上的或分布上的）。

為了強調這一點，(12b) 中的驚奇度-界分解可以被解釋為問題表示成本與求解成本的分解。具體而言，驚奇度量化了模型對環境的表示能力，而模型在求解中的任何實際使用都必然會產生推斷成本。一個重要結論是：一個問題表示相對較差（高驚奇度）但配備了高效推斷過程（低求解成本）的模型，可能比一個具有高貝葉斯證據但推斷過程昂貴或不準確的模型實現更低的 VFE。這意味著，具有最高貝葉斯證據的模型在實踐中不一定是最有用的，因為貝葉斯證據僅評估問題表示的質量，而忽略了推斷的計算成本。因此，將 VFE 僅僅解釋為驚奇度的上界是不完整的。相反，VFE 提供了一個更原則性的性能準則，因為它共同評估了模型的保真度和推斷過程的計算成本——這對于在實時和資源約束下運行的物理 AI 系統來說是一個至關重要的考量。

這種更廣泛的理解得到了 (12d) 中能量-熵分解的強化，該分解將 VFE 與統計物理中的自由能泛函聯系起來。更一般地，變分自由能原理與 Jaynes 的最大熵原理密切相關，并通過統計力學與熱力學第二定律相聯系。因此，變分推斷不應僅僅被視為對精確貝葉斯推斷的近似，而應被看作信息處理的一個基本原理。

關于貝葉斯邏輯回歸的 VI 工作流示例見示例 3。

5 自由能原理與主動推理

我們現在轉向物理 AI 智能體，即那些具身于現實世界的物理實體中并通過該實體行動的智能體。一個物理 AI 智能體：

從其環境接收感覺輸入，
基于這些觀測進行推斷和決策，
并生成通過其執行器影響環境的物理動作。

物理 AI 智能體的一個決定性特征是存在一個封閉的感知-行動回路，其中行動改變環境，環境隨后生成新的感覺輸入。這個回路可以抽象為：

圖 3 展示了這種狀態劃分以及由此產生的感知-行動回路。這種感知與行動之間的循環耦合，將物理 AI 智能體與那些在沒有與環境具身交互的情況下運行的“離線”AI 系統區分開來。

在本節中，我們簡要總結自由能原理（FEP）。關于其推導的核心參考文獻包括 [Friston, 2019, Friston et al., 2023a]。第 5.1 節的敘述遵循基于物理學的路徑，從非平衡穩態動力學出發。從工程角度來看，FEP（及其相關過程——主動推理）可以理解為對 VFE 最小化的完全承諾，將其作為與環境交互的物理 AI 智能體的統一計算原則。傾向于直接接受 FEP 的讀者可以跳過第 5.1 節，直接進入第 5.2 節，那里將繼續工程層面的論述。

5.1 自由能原理：維持自身同一性的系統動力學

FEP 的出發點是一個觀察：許多自然系統通過消耗能量進行自組織，從而隨時間維持其結構和功能的完整性 [Friston, 2013]。生物有機體就是這類自組織系統的典型例子。FEP 通過以下假設形式化了這一直覺 [Friston, 2013, Friston et al., 2021, 2023a,b]：

F1 Langevin 動力學：系統及其環境的組合狀態遵循一個隨機微分方程，即

這將該系統的一部分標識為更大動力系統中的一個智能體，并確保內部狀態不與外部狀態直接耦合。

核心 FEP 結果的推導分為三步（完整論述參見 [Friston, 2019, 第一部分, 第1-2節]）。

這表明一個 AIF 過程可以解釋為一個動力系統，其自主狀態的演化以最小化驚奇度為目標。每當系統漂移到較低穩態概率的區域時，動力學方程 (25) 就會傾向于將其推回更概然的區域，從而維持智能體可識別的形態。

動力學方程 (25) 構成了在假設 F1–F3 下 FEP 的核心數學結果。在額外的變分解釋下，這些動力學可以被解讀為一個主動推理（AIF）過程，其中內部狀態編碼關于外部狀態的信念，而控制狀態則采取行動，使得感覺與預測相匹配。我們首先展示 (25a) 如何對應于內部狀態 s s上的 VFE 最小化，然后將這一視角擴展到控制過程。

5.2 作為 VFE 最小化的內部狀態估計

由于內部狀態 s s通過馬爾可夫毯（假設 F3）與外部狀態 x x耦合但在統計上隔離，并且它們遵循穩態密度上的梯度流，因此它們的動力學可以被解釋為編碼了關于外部狀態的條件密度的參數。具體而言，我們可以定義一個映射

其中 q ( x ∣ s ) 是外部狀態 x x上的一個概率密度，由內部狀態 s s參數化。這一解釋步驟并非由動力學本身強制要求的——這些動力學已由 (25) 完全確定——但它使得本文后續部分將發展的變分推斷視角成為可能。這樣做的動機在于：內部狀態持續受到感覺輸入的塑造，而感覺輸入本身又依賴于外部狀態，因此內部狀態必然累積關于環境的統計信息。映射 s ? q ( x ∣ s ) 通過將內部狀態解釋為外部狀態上信念分布的充分統計量，使這種關系變得明確。例如，一個高斯參數化形式：

5.3 作為 VFE 最小化的規劃與控制

本節的關鍵結論是：通過 EFE 最小化進行策略選擇并沒有引入新的原理；它是在上述建模承諾下，從標準變分推斷中自然產生的。

5.4 嵌套主動推理智能體

第 5.1 節指出，滿足假設 F1–F3 的系統在引入上述變分解讀后，可以接受主動推理的解釋。一個自然的后續問題是：一個 AIF 智能體的內部狀態 s 本身是否可以由更低層級的 AIF 智能體組成？如果是，在什么條件下成立？這個問題在實踐中很重要：如果答案是肯定的，那么人們就可以通過組合更簡單的 AIF 智能體來構建大規模智能系統，而無需脫離 VFE 最小化框架。這將帶來顯著的工程益處，因為工程工作可以完全集中在高效的 VFE 最小化上——而 VFE 最小化可以以一種非常適合于處理典型物理 AI 約束的方式來實現（將在第 6 節討論）。答案——在 Friston [2019]、Friston et al. [2021]、Hipólito et al. [2021]、Fagerholm et al. [2021] 中得到了發展——是：在合適的結構和粗粒化條件下，一組耦合的 AIF 智能體本身可以被描述為一個更高層級的 AIF 智能體。

總之，E1 確保了集體馬爾可夫毯的存在，E2 實現了粗粒化，產生在比組成智能體更慢的時間尺度上演化的集體變量，E3 保證了穩態密度的存在，使得亥姆霍茲分解可以在集體尺度上應用。當 E1–E3 成立時，類似于 (25)，集體自主狀態遵循集體穩態密度上的梯度流，

這允許了通常的變分自由能解釋。因此，該集合在集體尺度上表現為一個 AIF 智能體，而無需引入 F1–F3 之外的任何新原理，這說明了主動推理系統的嵌套或多尺度性質 [Friston et al., 2021]。

5.5 探索行為從嵌套 AIF 智能體中涌現

通過逐層粗粒化從隨機微觀動力學向近確定性宏觀行為的轉變，在理論物理學中有一個著名的類比：對微觀量子漲落進行平均，會得到由變分（最小作用量）原理支配的宏觀動力學 [Feynman, 1965]。Friston 明確地將這種量子到經典的轉變與嵌套 AIF 智能體的粗粒化進行了類比 [Friston et al., 2023b,a]。

6 實現：因子圖與反應式消息傳遞

6.1 Forney 風格因子圖

Forney 風格因子圖（FFG）是一個因子化聯合概率分布的圖形化表示 [Kschischang et al., 2001, Loeliger, 2004, Loeliger et al., 2007]。在 FFG 中，方形節點表示因子（局部函數），邊表示變量，該圖將聯合分布的因子化編碼為這些因子的乘積。每個因子節點僅連接到與其參數對應的邊，從而使模型的條件獨立結構變得明確。

就本文目的而言，FFG 的重要性在于它們將推斷暴露為一系列嚴格的局部計算集合，使其成為物理 AIF 智能體中分布式 VFE 最小化的自然計算基礎。

如果每個變量有 10 個可能的值，那么直接評估的計算量級約為次算術運算。然而，代入因子分解式 (37) 并應用分配律（將積分向內移動，使其越過不依賴于積分變量的因子）將 (38) 轉換為以下和之積的形式：

而這只需要幾百次局部運算即可完成。顯然，利用這種分配結構帶來的計算增益是巨大的。

(39) 中的中間結果可以解釋為沿著因子圖傳遞的消息。例如，中間結果

總之，在稀疏連接的模型（即每個因子僅依賴于相對較小變量子集的因子化模型）中，貝葉斯推斷可以通過 FFG 上的消息傳遞高效實現。由此產生的消息傳遞過程只需要在節點處進行局部計算。

6.2 因子圖上的約束變分推斷

本節的目標是表明，第 6.1 節中直觀推導出的消息傳遞算法，可以歸結為因子圖上約束變分自由能最小化的一個平穩解。這一結果確立了消息傳遞不僅是一種計算啟發式方法，更是一種原則性的變分推斷。

考慮一個因子化如下的生成模型：

Bethe 約束使得在具有因子化結構 (42) 的模型上能夠進行基于局部消息傳遞的變分推斷。額外的約束 (46) 強制了相鄰因子信念與變量信念之間的一致性。

為每個一致性約束引入拉格朗日乘子，并對約束 Bethe 自由能（CBFE）求泛函導數，可以得到如下形式的局部平穩解 [Senoz et al., 2021, 定理 1]：

方程 (47) 和 (48) 恢復了我們第 6.1 節中說明的和積算法。從這個意義上說，消息傳遞可以被理解為源于約束變分推斷，而非分配律的代數操作。CBFE（約束 Bethe 自由能）視角更為通用，因為它自然地容納了推斷任務上的額外約束。

Senoz et al. [2021] 表明，幾乎所有已知的消息傳遞變體（和積/信念傳播、結構化和均值場變分消息傳遞、數據約束和積、拉普拉斯傳播、期望傳播）都可以通過改變變分后驗上的局部約束，從第一性原理推導出來。考慮了兩類約束：（i）因子分解約束（結構化均值場、樸素均值場），以及（ii）形式約束（數據/狄拉克 delta 約束、拉普拉斯近似、用于期望傳播的矩匹配）。因此，通過局部消息傳遞進行 CBFE 最小化，為在變分推斷任務中權衡計算復雜度與近似精度提供了一個原則性的框架。這種靈活性對物理 AI 至關重要：工程師（或智能體）可以在時間、能量或內存稀缺的地方調整局部近似，而無需放棄共同的 VFE 最小化架構。

6.3 反應式消息傳遞與 RxInfer

Bagaev [2023] 將反應式編程的概念擴展到了基于 CBFE 的消息傳遞中。在反應式消息傳遞（RMP）框架中，因子圖中的每個節點都作為一個自主的計算單元，其更新根據傳入的變化進行局部調度。僅當傳入的消息發生變化時才考慮消息更新，從而允許推斷通過局部的事件驅動更新進行。例如，當一個新的傳感器值僅改變了一個局部似然因子時，只有圖中相鄰的部分需要立即更新，而不是整個模型。通過這種方式，CBFE 的優化通過分布式的局部計算來實現，盡管實際行為仍取決于圖結構、更新調度和近似選擇。此外，每個節點可以即時抑制信息量低的消息（例如那些接近均勻分布的消息），從而降低計算負載。

這個反應式 CBFE 最小化消息傳遞框架已在開源 Julia 工具箱 RxInfer1? [Bagaev et al., 2023] 中實現。在 RxInfer 中，實踐者需指定一個生成模型以及一組變分約束，從而定義一個 CBFE 泛函。當滿足前幾節討論的條件時，該泛函對應于 AIF 智能體的 VFE 目標。RxInfer 隨后可以通過持續的反應式消息傳遞協議自動最小化由此產生的自由能。為了給出具體的工作流程印象，以下偽代碼概述了如何在 RxInfer 中指定和推斷一個簡單的狀態空間模型：

@model宏用于構建因子圖；infer(·)運行反應式消息傳遞，以返回關于所有潛狀態的后驗信念。

總之，因子圖提供了一種用于最小化變分自由能的并行、分布式架構。每個節點僅執行局部計算，而圖中集體的消息傳遞解決了全局推斷問題。CBFE 公式使這個框架具有靈活性，因為對變分族的約束可以在單個節點和邊上進行局部指定，從而在推斷精度和計算成本之間實現原則性的權衡。反應式增加了魯棒性和自主性：由于每個節點獨立響應傳入的消息，即使數據異步到達、傳感器發生故障或計算資源波動，推斷也可以不間斷地進行。下一節將解釋為什么這種推斷范式特別適合物理智能體所面臨的資源約束。

7 作為主動推理智能體的物理 AI 智能體

前面幾節展開了兩個互補的論證。第 5 節表明，FEP 為具身智能體提供了一個規范性的、基于第一性原理的設計框架：在 FEP 的假設下，那些隨時間維持自身結構和功能完整性的系統可以被描述為仿佛在最小化變分自由能。AIF 通過將感知、學習、規劃和控制統一于單一的計算目標——VFE 最小化——來實現這一原理，而無需為每個功能設立獨立的機制。第 6 節表明，VFE 最小化可以通過因子圖上的反應式消息傳遞以高效的、分布式的方式實現，其中每個節點自主地僅執行局部計算，而網絡整體上解決全局推斷問題。綜合起來，這些結果表明，通過因子圖上的反應式消息傳遞實現的 AIF 框架，為物理 AI 智能體的設計提供了一個原則性的基礎。

7.1 用于魯棒性的持續反應式消息傳遞

要理解這對物理 AI 為何重要，請考慮現實世界中的物理 AI 設備所面臨的常態性（而非異常邊緣情況）的波動運行條件：

時間（截止時間）波動：推斷必須在決策所需時間之前完成。一輛自動駕駛汽車在估算迎面駛來車輛的軌跡時，可能在碰撞變得不可避免之前只有幾十毫秒的時間。推斷算法無法請求更多時間；它必須在截止時間到來時基于當前最佳估計做出判斷。
數據波動：傳感器數據以順序且異步的方式跨多種模態到達。一個跟蹤 N 個附近物體的機器人，平均每個物體僅能獲得其傳感器帶寬的 1 / N ，且某些物體可能暫時完全離開視野。推斷算法必須在每次觀測到達時將其納入，而無需等待完整的同步快照。
功率波動：每次推斷步驟的計算預算是有限的且隨時間變化。一架跟蹤 K 個目標的無人機，每個目標大約能分配其處理能力的 1 / K ，并且隨著電池電量下降，該預算進一步縮減。推斷算法必須優雅地降級，以精度換取速度，而不是在資源不足時突然失效。
組成波動：環境的組成不斷變化。在交通中導航的智能體可能需要跟蹤 2 到 20 個不等的其他道路使用者（車輛、騎行者、行人），因為它們會進入或離開場景。設備故障（例如傳感器離線）會進一步改變有效的模型結構。因此，智能體的生成模型必須在線適應以反映這些變化的環境組成。

這些并非偶然的工程困難；它們是具身、實時運行的定義性特征。一個原則性的魯棒架構必須同時處理所有這四個問題，而無需設計者預先預見每一種條件組合。

因子圖上的持續反應式消息傳遞非常適合這一挑戰。由于每個節點響應到達的消息而無需全局調度，推斷是事件驅動的：一旦新數據到達就進行更新，當沒有新信息時則暫停。硬實時截止時間可以通過在所需時刻基于當前信念做出決策來處理，無論消息傳遞是否已經收斂。異步或缺失的觀測在局部被吸收，而不會影響圖的其余部分。計算資源減少僅僅意味著單位時間內交換的消息更少，并且由于每個完成的局部更新都旨在降低 CBFE，系統會以原則性的方式用精度換取速度。

CBFE 框架進一步允許通過在每個節點選擇合適的變分約束（第 6.2 節），在局部調整推斷的復雜度。在資源預算緊張下運行的節點可以采用成本較低的均值場近似，而資源充裕的節點則可以使用更具表達力的結構化 VMP 或期望傳播更新。這種局部適應性無需對推斷算法進行全局重新設計。

至關重要的是，所需的計算資源無法預先調度：當環境偏離預期時，計劃必須持續更新1?，而這種偏離根據定義是無法預見的。

例如，狀態更新可能需要在 1 μW、1.1 μW 或 1.2 μW 的功率下運行，并在 1 ms、1.1 ms 等時間內產生更新。為所有這些條件預先計算不同的濾波器變體是不可行的。在 RMP 框架內，對這種變化的適應可以在局部處理：由于計算分布在自主節點上，更新的質量和頻率可以適應運行時實際可用的資源，而無需切換到不同的全局推斷架構。

因此，以這種方式實現的 AIF 智能體繼承了與物理部署直接相關的特性：

統一的設計：感知、學習、規劃與行動選擇全部歸結為單個生成模型中的 VFE 最小化，無需集成各自獨立設計的子系統。
任意時間推斷：反應式消息傳遞可在任何時刻被中斷，并返回當前最佳的信念，使得硬實時截止時間在沒有專用調度的情況下也變得易于處理。
容錯性：局部自主性可以使節點故障或傳感器缺失的影響保持局部化，從而性能降級比緊耦合的集中式架構更加優雅。
資源適應性：精度-成本的權衡通過變分約束在局部進行控制，使得智能體能夠在廣泛的計算預算范圍內運行，而無需改變架構。

7.2 計算同質性

另一個架構上的后果值得強調。本文所發展的框架允許 AIF 智能體的嵌套實現，而無需在更高層級的組織上引入新的計算基元。層級結構中的任何一層都不會引入不同的計算機制：在每個尺度上出現的唯一操作都是 (48) 中的消息計算。

這種計算同質性對硬件設計有一個啟發性含義。一個實現 (48) 的處理單元可以作為可重用的構建模塊，用于廣泛多樣的 AIF 實現。將這些單元按照因子圖拓撲進行排列和連接，可能就足以實現任意復雜度的 AIF 智能體。在消息傳遞基底之外，不需要單獨的控制邏輯、調度器或全局推斷引擎。無論智能體是單個傳感器節點還是一個大型多模態機器人系統，所需的硅基操作都是相同的。舉例說明，一個傳統的基于強化學習的機器人通常結合了卷積感知模塊、樹搜索或模型預測規劃器、PID 控制器以及策略梯度學習算法，每個模塊都需要不同的計算基元、軟件棧和集成接口。而在 AIF 框架中，所有這些功能都歸結為相同形式 (48) 的消息計算。

因此，因子圖上的反應式消息傳遞不僅僅是一種方便的實現策略。它是一種計算架構，將 VFE 最小化的結構與現實世界約束的結構相匹配，并提供了一個同質化的基底，能夠從單個處理單元擴展到完整的智能體層級結構，而無需改變底層的計算基元。

7.3 示例：一支主動推理機器人足球隊

我們現在簡要說明本文所發展的框架如何應用于一支機器人足球隊員組成的隊伍。目的并非提供工程規格，而是具體展示：VFE最小化、基于EFE的規劃、反應式消息傳遞以及嵌套AIF智能體能夠自然地組合成一個連貫的物理AI架構。

7.3.1 作為AIF智能體的單個球員

每個球員在共享的智能體間空間所誘導的耦合下，最小化其自身的 VFE。協調的行為（間距、傳球序列、角色分化）無需任何中央控制器即可涌現。每個球員基于 EFE 的策略選擇會自動考慮隊友的預期行為，因為共享的智能體間狀態會沿著鏈條傳播信念更新。

7.3.3 資源波動下的反應式消息傳遞

足球運動使第 7 節中的資源約束具體化。一名球員必須在幾百毫秒內決定傳球或射門（時間約束）；觀測是局部的，并且在不同隊友之間是異步的（數據約束）；計算和運動預算隨電池狀態和對手數量而波動（功率約束）。持續的反應式消息傳遞同時處理了這三個問題：推斷是事件驅動的，并可在任意截止時間提交結果；缺失的觀測僅影響局部圖區域，并導致信念向先驗衰減；資源減少意味著每秒的消息迭代次數減少，對應于更粗糙的變分近似，從而性能平滑下降而非崩潰。同樣的機制擴展到團隊層面，而無需引入任何新的計算基元，這正是本文所論證的架構同質性。

8 討論

8.1 背景

本文旨在補充 Friston 等人 [2022] 的愿景論文，該論文認為主動推理為設計自然與人工智能生態系統提供了第一性原理基礎。該文提出了一個從當前函數逼近 AI（階段 S0）到有感知智能（S1）、老練智能（S2）、共情智能（S3）和共享智能（S4）的遞進路線圖，并指出因子圖消息傳遞是使智能體能夠共享生成模型并通過交換充分統計量進行協調的計算架構。

本文回答了 Friston 等人 [2022] 刻意留出的一個問題：工程師具體應如何構建構成這樣一個生態系統的單個智能體？

本文的幾個具體貢獻填補了 Friston 等人 [2022] 中指出的空白。首先，我們表明 Forney 風格因子圖上的反應式消息傳遞直接解決了任何物理智能體面臨的實時、數據和功率約束（第 7 節），而 Friston 等人 [2022] 承認這些約束是根本性的，但未從工程細節上加以處理。其次，第 7 節的計算同質性結果——因子圖中的每個節點都執行相同的 VFE 最小化消息計算——提供了架構基元，使得 Friston 等人的多智能體生態系統可以在無需在每個尺度引入新機制的情況下組裝起來。第三，第 6.2 節的約束 Bethe 自由能框架為工程師提供了一個具體的調節手段，即局部變分約束的選擇，用于在每個節點權衡精度與計算成本——這是 Friston 等人 [2022] 通過朗道爾原理強調的、在能量預算下運行的邊緣設備所必需的能力。

Dupoux 等人 [2026] 提供了另一個互補視角，他們將自主學習確定為物理 AI 尚未解決的核心問題，并提出了一個三組件架構：基于觀測的學習（系統 A）、基于行動的學習（系統 B）以及一個元控制器（系統 M），后者根據預測誤差、新奇性和不確定性等內部生成信號路由數據并切換學習模式。我們認同他們的診斷：當前的 AI 系統無法像生物有機體那樣自主地學習，彌合這一差距需要將感知、行動和內在的探索驅動力緊密耦合。

然而，兩者架構在一個基礎性承諾上存在分歧。Dupoux 等人 [2026] 的框架特意對數學基底持不可知態度：學習目標是一般的損失函數和期望回報最大化器，不確定性僅作為標量元信號（預測誤差、集成方差）進入，啟發式地調節數據路由和探索。概率論沒有發揮明確的作用。

我們認為，這種不可知態度是有代價的。一個僅將不確定性表示為標量“驚奇”或“新奇性”信號的智能體知道自己是不確定的，但不知道關于什么的不確定。為了決定哪個行動能最有效地消除其不確定性，智能體需要對其關于外部世界的信念有一個結構化的、概率性的表征，因為只有這樣，它才能針對每個候選策略評估該策略預期能消除多少不確定性。這正是期望自由能（第 5.3 節）所提供的能力：其模糊性項 E q ( x ∣ u ) [ H [ q ( y ∣ x ) ] 評估了每個策略 u 下未來觀測的預期信息量，而這一評估只有當智能體維護著關于外部狀態的顯式后驗 q ( x ∣ u ) 時才有意義。沒有這樣的后驗，EFE 就無法計算，智能體就只能依靠啟發式而非原則性的信息尋求來進行探索。簡而言之，概率論不僅僅是一種數學上的便利；它是將被動的驚奇轉化為有導向的好奇心的基底。

8.2 通往主動推理的兩條路徑

主動推理和自由能原理可以通過兩條互補的路徑來理解，這與 Parr 等人 [2022] 描述的高路和低路高度對應。

高路。高路是與 Friston 最初推導 FEP 相關的物理和神經科學路徑 [Friston et al., 2023a,b]。在這條路徑中，自主狀態動力學可以表達為變分自由能最小化這一核心結果，是從關于自組織系統物理動力學的假設推導出來的。在本文中，第 5.1 節回顧了這條路徑，最終得到 (25) 中的自主狀態動力學及其在 (28) 中的變分重新解釋。

低路。低路從概率和推斷原理出發，而非從物理學出發。一個重要的近期貢獻是 Beck 和 Ramstead [2025] 的工作，他們從 Jaynes 的最大口徑原理結合馬爾可夫毯假設推導出了 FEP 的核心結果。在他們的公式中，同樣得出了自主狀態更新可以表達為變分自由能最小化的結論，但并未使用 Friston 推導中采用的物理假設。從這個意義上說，Beck 和 Ramstead 從信息論的視角闡明了 FEP 的本質：它是一個針對具有馬爾可夫毯動力學的系統的原則性推斷法則，而不一定是某個特定物理起點的必然結果。

本文也屬于這條低路，但側重點不同。Beck 和 Ramstead [2025] 提供了 FEP 的另一種推導，而我們的重點在于：從事物理 AI 工作的工程師為何應關注 FEP/AIF 框架，以及如何在實際中實現合成 AIF 智能體。我們的論述沿著以下路徑展開：

從關于不確定性下理性推理的基本假設出發，逐步走向現實世界運行條件下物理 AI 智能體的實現。

這兩條路徑是互補而非競爭的。高路為自組織系統為何應被期望最小化自由能提供了基于物理學的論證。低路則表明，同一原理可以從概率論和推斷的角度來理解，并為致力于構建合成智能體的工程師提供了更直接的切入點。

8.3 主動推理與強化學習的對比

表 1 總結了經典模塊化 AI 系統與通過反應式消息傳遞實現的 AIF 之間的關鍵架構差異。強化學習（RL）和主動推理都為設計與環境交互以實現目標的智能體提供了框架。然而，它們的差異超出了表面上的區別。我們著重強調兩個關鍵問題：獎勵函數問題與計算同質性。

獎勵函數問題。在經典的以獎勵為中心的 RL 流程中，智能體的目標通常通過實踐者設計的獎勵函數 R ( x t , u t ) 或價值準則來指定1?。

這引入了兩個相關的困難。首先，不確定性和探索的處理通常是通過額外的建模選擇引入的，而非內置于核心目標中。這并不意味著 RL 不能表示不確定性或支持探索：貝葉斯 RL、基于 POMDP 的控制以及內在動機方法都能夠做到。區別在于，這些要素通常被作為額外的組件或輔助目標引入，而在主動推理中，認知項和目標導向項被結合在單個變分目標中。其次，獎勵泛函仍然必須由人類實踐者設計。指定一個能在物理部署中遇到的全范圍運行條件下產生期望行為的獎勵函數是出了名的困難，并且仍然是一個未解決的問題。此外，在標準 RL 中，智能體沒有原則性的機制來解決自身關于 R 是否正確的不確定性，因為 R 是推斷過程外部的。

主動推理以更統一的方式在單個概率框架內解決了這些問題。其成本函數是 VFE F [ q ] ，它并不顯式編碼任何獎勵，而僅僅量化智能體的信念 q 相對于學習到的穩態分布 p p的質量。該分布由多個子模型組成，包括環境預測模型和編碼獎勵性未來狀態的偏好模型，其參數從經驗中學習。因此，AIF 中的成本函數并非針對每個問題手工設計，而是關于智能體對世界的信念 q ( x ) 的一個固定泛函 F ，而朝向信息尋求行為的認知驅動力自動從 EFE 的模糊性項中涌現出來（第 5.3 節）。

有兩點值得強調。第一，主動學習并不需要對 FEP 框架進行特設的補充；它從與感知和控制相同的變分機制中涌現出來。第二，這種學習是真正主動的：不確定性的減少與 EFE 的其他分量（特別是風險和模糊性）進行權衡。由于風險捕捉了行為的目標導向方面，由此產生的學習壓力并非抽象的一般好奇心，而是由智能體的偏好結果所塑造。從這個意義上說，主動推理不僅僅是偏好學習本身；它偏好的是對適應性、目標導向行為有用的學習，因此可能比無導向的探索支持更簡潔的模型。

在生物系統中，我們可以將這一想法進一步推進，詢問生成模型本身的結構是如何獲得的。在進化時間尺度上，這可以被視為 FEP 下的一種結構學習形式，自然選擇塑造了可供有機體使用的模型類別。在工程背景下，相應的理想狀態是，只需要在偏好模型中指定高層級的設計約束，例如與清潔機器人任務相關的期望未來狀態，而較低層級的模型結構則被自主地學習。

這激發了當前關于生成模型結構主動選擇的工作 [Friston et al., 2024, 2025]。再次強調，其目標是保持在同一個 VFE 最小化框架內，但現在使用 EFE 來指導模型選擇與結構學習。具體而言，這意味著在候選模型結構之間進行選擇，例如判斷飛行中球的動力學是由線性還是非線性狀態空間模型更好地捕捉，或者是否應包含代表風力的潛變量，并有選擇地獲取對于區分這些候選模型最有用的數據。在這種設置下，主動選擇不僅僅是一般性的主動數據收集，而是服務于解決模型結構不確定性的數據收集，同時保持對智能體在 EFE 中的其他目標（包括風險、模糊性和新穎性）的敏感性。據我們所知，如何將這種主動選擇策略整合到因子圖消息傳遞框架中，仍然是一個懸而未決的問題。

8.5 局限性

我們相信，主動推理作為物理 AI 基礎的理論依據是堅實的。本文提出的論證依賴于概率論、變分推斷和因子圖消息傳遞，每一門學科都是成熟且被充分理解的。在這方面，AIF 的基礎并不比強化學習或最優控制的基礎更不嚴謹。

然而，工程層面的論證在很大程度上仍未得到驗證。本文聲稱的大部分優勢，包括任意時間推斷、原則性探索以及資源約束下的優雅降級，已在小規模實驗中得到證明，但尚未在那些這些特性最為重要的大規模、實時物理部署中得到壓力測試。彌合理論前景與工程實踐之間的差距是 AIF 領域面臨的核心挑戰。

這一差距的一個具體表現是當前的工具狀態。在實踐中實現 AIF 智能體需要軟件基礎設施來指定生成模型、執行反應式消息傳遞并在運行時管理計算圖。RxInfer（第 6.3 節）[Bagaev et al., 2023] 是為此目的最成熟的開源平臺，代表著向前邁出的重要一步，但它尚未達到工程師對生產級工具所期望的魯棒性、文檔和社區支持水平。缺乏維護良好、專業支持的工具箱是阻礙采用的現實障礙，該領域尚未克服這一障礙。

一個相關的局限性是缺乏具備概率推斷、因子圖和實時嵌入式系統綜合背景的工程人才——而這些正是 AIF 智能體開發所需要的。該領域目前主要從理論神經科學、哲學和數學物理中汲取人才，這些領域的研究重點和工程規范與機器人學、信號處理和控制領域有顯著不同。

9 結論

本文論證了主動推理為物理 AI 智能體提供了一個原則性的架構框架。從概率論、貝葉斯機器學習和變分推斷出發，我們展示了主動推理如何將這些思想擴展到必須在實時、不確定性下進行感知、學習、規劃和行動的具身智能體。從這個視角看，變分自由能提供了一個統一的計算目標，取代了許多當代物理 AI 系統中所特有的、由分散且獨立設計的目標拼湊而成的局面。

論證的第二部分涉及實現問題。我們認為，因子圖上的反應式消息傳遞提供了一種分布式的計算架構，與物理部署的約束高度匹配。由于計算是局部的、事件驅動的且可中斷的，這種架構天然適用于硬實時截止時間、異步數據到達、波動的功率預算以及變化的環境組成。同一消息傳遞基元還可以在嵌套的組織層級中重復使用，從而產生從內部組件到多智能體系統的計算同構架構。

因此，本文的貢獻并非一項基準研究，也不是聲稱已經實現大規模工程驗證。相反，其貢獻在于向工程界讀者清晰地闡述主動推理的理論與架構依據，并論證該框架值得作為物理 AI 的基礎予以嚴肅考慮。如果要縮小當前具身 AI 系統與生物智能體之間持續存在的差距，我們認為，進步不僅需要更好的實現，還需要更好的架構原則。我們論證認為，主動推理正是這樣一個有競爭力的候選原則。

原文鏈接：https://arxiv.org/pdf/2603.20927

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.