網易首頁 > 網易號 > 正文申請入駐

LeCun押注的世界模型算法與硬件需求

2026-06-17 14:41:32　來源: 人工智能學家

北京舉報

分享至

一個 17 歲的少年，花 20 小時就能學會開車。

GPT-4 讀完了 30 萬億個 token，約 10^14 字節的文本。一個 4 歲孩子的視覺皮層，從出生到 4 歲，通過 200 萬根視神經纖維，同樣接收了約 10^14 字節的信息。信息量在一個數量級上，結果天差地別：孩子掌握了重力、物體永久性、因果、動量守恒，GPT-4 掌握了語言的統計規律。

這個差距說明一件事——孩子有世界模型，GPT-4 沒有。

從 Meta 離開，LeCun在巴黎創立 AMI Labs，募了 10 億美元，遠離硅谷 VC。理念是：當前所有 AI，包括最強的 LLM，都無法對世界建模；任何缺少內部預測模型的系統，會永久停留在脆弱、不安全、樣本效率低下的狀態；補上這塊缺口的，是建立在聯合嵌入預測架構（JEPA）之上的世界模型，而不僅僅是生成式的 token 預測。

一、世界模型是什么

世界模型回答一個問題：給定世界當前狀態 s_t，以及我設想采取的動作 a，下一刻的狀態 s_{t+1} 會是什么樣？

?_{t+1} = WM(s_t, a_t)

關鍵是在一個抽象的、學到的狀態表示上運算。把這個模型沿時間向前滾動，在想象出的動作序列上做優化，通過優化來規劃——System 2 推理的基礎。

世界是非確定的。前方的車可能加速也可能剎車，球可能彈向左也可能彈向右。世界模型不預測單一未來，維護一個隱變量 z 來參數化所有合理未來的分布：

?_{t+1} = WM(s_t, a_t, z),    z ~ p(z)

"正確的表示"是什么意思：預測木星 100 年后的位置，只需要 6 個數字——位置和速度向量。不需要模擬木星上的每一個分子。正確的表示消除無關細節，只保留預測所需的結構。這個直覺貫穿整個 JEPA 框架。

世界模型的完整認知架構：感知模塊估計狀態，工作記憶保存近期信息，世界模型滾動預測想象中的未來，代價函數同時編碼任務目標和安全約束，優化器搜索同時滿足兩者的動作。安全護欄（guardrail）被硬編碼進代價函數，作為優化問題定義的一部分，不是現在llm這種事后過濾器或者 sft/rlvr。系統逃不出護欄，因為護欄就是它求解的約束本身。

二、為什么 LLM 走不到這一步

LLM是優秀的語言產品，但自回歸 token 預測在結構上產生不了世界模型。

2.1　缺陷一：每個 token 分到的計算量恒定

Transformer 的一次前向傳播，attention 部分是 O(n2d)。序列里每個 token，無論承載的是"2+2 等于幾"還是"證明這個 NP 難問題"，拿到的計算量完全一樣。

難題需要比簡單問題更多的計算，LLM 沒有識別"這個問題難、要多算一會兒"的機制。Chain-of-thought 的本質，是誘導模型多吐 token，用 token 數量換計算量。底層仍然是逐 token 生成，只是被提示生成得更多。

正確的推理機制應該是在輸出空間上做優化——一個能把更多計算分配給更難子問題的搜索過程。A*、MCTS、SAT 求解、經典規劃都具備這個性質，token 預測不具備。

2.2　缺陷二：自回歸誤差按指數衰減

LLM 逐 token 生成，每一步從約 10 萬個 token 的分布里采樣一個。設每步偏離正確子樹的概率為 ε。生成樹沒有回溯邊——一旦走出正確子樹，回不來。長度為 n 的序列全部正確的概率：

P(正確序列) = (1 - ε)^n

取 ε = 0.01，n = 1000：

P ≈ 4.3 × 10?? ≈ 0.004%

這不來自訓練不足。語言本身有歧義、依賴上下文，ε 永遠壓不到零。唯一的出路是改變答案的產生方式。人類不靠一個詞一個詞往外蹦來回答問題，而是先形成一個抽象的想法——答案的語義表示——再翻譯成詞。LLM 跳過了抽象想法，直接輸出到 token 表面含義上了。

2.3　缺陷三：沒有世界模型，就沒有規劃地瞎預測

一個規劃系統必須能回答"我在狀態 s 執行動作 a，會發生什么"。LLM 沒有顯式的狀態表示，沒有運動模型，無法把世界向前滾動。它能生成描述計劃的文本，但是缺點是沒有機制去驗證這些計劃在物理世界里是否成立。

當前基于 LLM 的智能體（browser-use、computer-use）執行動作、觀察結果，再執行下一步——這是錯誤的規劃方式，不是預測式規劃。我無法理解，一個系統在不具備預測自身行為后果能力的前提下，怎么能被叫做智能體系統。

2.4　缺陷四：語言是有損的抽象

語言為共享世界模型的人類之間的溝通而演化。"貓在墊子上"你能聽懂，因為你早已從現實中的物理經驗里知道貓、墊子和"在……上"分別意味著什么。語言是對思想的壓縮表達，本身不是思想。LLM 只接觸到壓縮后的產物，夠不到語言當初要壓縮的那些物理直覺。

由此引出對 VLA（視覺-語言-動作）模型的錯誤分析。RT-2、Physical Intelligence 的 π 系列把 VLM 接上動作頭，用人類演示數據做大規模行為克隆。繼承 LLM 的全部結構性缺陷，又疊加了機器人特有的脆弱：

?泛化有硬邊界。能遷移 LLM 主干已知的概念（RT-2 能把可樂罐移到 Taylor Swift 的圖片上），但發明不了新的操作策略，遇到與預/后訓練分布差太遠的配置就崩。
?數據采集不可擴展。人類演示昂貴，受限于人的可用性，而物理環境的多樣性是無窮的。
?沒有顯式規劃過程。端到端從圖像映射到動作，無法模擬"如果我把箱子往左推而不是往右推會怎樣"，沒有安全保證。

作為對照，V-JEPA 2 在 100 萬小時互聯網視頻上預訓練，不用機器人數據、不用標注；只需加入 62 小時無標注機器人軌跡，就能做動作條件預測。1M+ 小時觀察 : 62 小時動作數據，這個比例比行為克隆所需的數量級有利得多。

2.5　缺陷的根源：生成式視頻在數學上不是可行的

最深的技術理由針對生成式視頻模型。預測下一幀，目標是一個 [H × W × 3] 的張量。以 1080p 為例：

1920 × 1080 × 3 ≈ 620 萬個像素值
每通道 256 個離散值
可能的下一幀：256^(620萬) ≈ 10^(1500萬)

可觀測宇宙的原子數約 10^80。LLM 能工作，是因為詞表只有約 10 萬 token，可以枚舉并賦概率。視頻幀沒有對應的枚舉方案。生成式視頻模型面對不確定性只剩三條路：對所有未來取平均（得到模糊畫面，這正是觀察到的現象）；用隱變量（簡單視頻可行，復雜自然場景失敗）；學連續分布（需要估計配分函數 Z）。

第三條是原則上正確的，但 Z = ∫ exp(-E(y)) dy 對任何非平凡的神經能量函數都沒有閉式解。這是數學上的不可解。JEPA 繞開了這個死胡同：不建模下一幀的分布，而是建模下一個嵌入的分布——一個維度低得多的空間。像素級細節的不確定性被編碼器吸收（丟掉不可預測的信息），不再要求預測器顯式建模。

三、能量、坍縮與 SIGReg 3.1　能量模型：統一視角

整個自監督學習放進能量模型（EBM）的框架。一個 EBM 定義標量函數 F_θ(x, y)，度量輸入 x 和候選輸出 y 的相容程度。低能量等于相容，高能量等于不相容。訓練就是塑形這個能量曲面，讓觀察到的 (x, y) 對能量趨近 0，未觀察到的對能量遠大于 0。推理則是給定 x，求最小化能量的 y：

y* = argmin_y F_θ(x, y)

這是通過優化來推理，不是llm的一次前向傳播。最短路徑、SAT 求解、Viterbi 解碼、最優控制都是這個結構。Gibbs 分布 p(y|x) = exp(-F_θ(x,y)) / Z(x) 能把能量轉成概率，但配分函數 Z(x) 對絕大多數分布不可解。直接和能量打交道，從源頭繞開歸一化問題。

3.2　坍縮問題

最樸素的 JEPA 目標是最小化正樣本對之間的預測誤差：

L = ‖E_θ(y) - P_φ(E_θ(x), z)‖2

它有一個平凡最優解：編碼器把一切映射成同一個常向量。此時預測誤差為零，表示攜帶的信息也為零。能量曲面變得處處平坦，模型什么都沒學到。防止坍縮，是所有 JEPA 方法真正在解決的工程問題。兩條大路。

3.3　路線 A：對比方法

構造負樣本，把不相容對的能量推高。最有原則的目標是 InfoNCE：

L = -log [ exp(q·k?/τ) / (exp(q·k?/τ) + Σ? exp(q·k??/τ)) ]

它等價于一個 (N+1) 類分類的交叉熵，并且給互信息提供下界 I(q;k?) ≥ log(N) - L。MoCo 用一個緩慢更新的動量編碼器維護負樣本隊列，把隊列大小和 batch 大小解耦，讓大規模對比學習不再依賴巨大顯存。存在維度災難：覆蓋 d 維表示空間，最壞情況需要 O(exp(d)) 個負樣本，高維下太脆。

3.4　路線 B：冗余消除

不去推開負樣本，而是約束能量低的區域體積，強迫表示用滿整個空間。

Barlow Twins來自 Horace Barlow 1961 年關于視覺神經元消除冗余的假說。對兩個增強視圖的嵌入計算互相關矩陣 C，損失把對角線推向 1（同一特征在兩視圖上一致）、把非對角推向 0（不同特征去相關），目標是 C = I，等價于對表示做白化。

VICReg把反坍縮邏輯拆成三項顯式相加：不變性項拉近匹配視圖，方差項讓每個維度的標準差保持在閾值之上（直接防坍縮），協方差項讓不同維度去相關。

這兩條路有 60 年的跨度：Barlow 1961 年說神經元應當去相關，Barlow Twins 2021 年說嵌入維度應當去相關，同一個原理。

3.5　SIGReg：現代的有原則替代

Balestriero 提出的 SIGReg（Sketched Isotropic Gaussian Regularization）用一個目標替掉 VICReg 的多項：把整個嵌入分布正則化到各向同性高斯 N(0, I)。各向同性高斯零均值、各方向單位方差、維度間無相關。

直接檢驗高維分布是否高斯很貴。SIGReg 借助 Cramér-Wold 定理——一個分布由它全部一維邊緣完全確定——把問題轉成：讓所有一維投影看起來都像 N(0,1)。抽 M 個隨機單位向量 u_m，對每個投影 Z·u_m 施加可微的 Epps-Pulley 正態性檢驗統計量：

SIGReg(Z) = (1/M) Σ_m T_EP(Z·u_m)

好處是只剩一個超參（權重 λ），自帶反坍縮保證（常向量在所有投影上方差為零，偏離高斯最遠，懲罰趨于無窮），不需要 stop-gradient，不需要 EMA，靠隨機草圖擴展到高維。

LeWorldModel 最干凈的訓練目標：

L_LeWM = L_pred + λ · SIGReg(Z)
L_pred = ‖pred_φ(z_t, a_t) - z_{t+1}‖2?,    z_t = enc_θ(o_t)

端到端從原始像素訓練，沒有 stop-gradient、沒有 EMA、沒有預訓練編碼器、沒有獎勵信號、沒有輔助頭。兩項損失、一個超參。

值得注意的還有 BYOL/DINO 這條蒸餾路線：靠師生不對稱（教師是學生的 EMA，對教師 stop-gradient，學生多掛一個預測器 MLP）來防坍縮。它有效，但 LeCun 坦承"機制神秘"——線性情形下梯度動力學的不動點落在 PCA 解（滿秩、不坍縮），非線性情形理論上仍未完全解釋。SIGReg 的價值正在于它把"為什么不坍縮"變成了可證明的事。

防止表示坍縮

路線A: 對比方法推開負樣本

路線B: 冗余消除用滿表示空間

InfoNCE / CPC

MoCo 動量隊列

SimCLR

Barlow Twins

VICReg

SIGReg可證明反坍縮

路線C: 蒸餾不對稱機制神秘但有效

BYOL

DINO

3.6　表示的幾何意義

物理里的重整化群消除細粒度自由度、保留粗粒度的預測結構——好的編碼器就是一個學出來的重整化操作。每上升一個表示層級（粒子→原子→分子→細胞），丟失的信息就是熵；每一層科學抽象都由它刻意丟棄的信息來定義。編碼器應當丟棄在給定上下文下不可預測的信息——世界的"不可約熵"——剩下的就是可預測的結構：位置、速度、力、意圖。

四、JEPA 架構家族：從 1992 到現在

自監督學習路線可以歸納為三類：生成式（如預測像素的 GPT/MAE/Sora）、對比式（推拉樣本的 SimCLR/MoCo/CLIP）、以及聯合嵌入預測型（JEPA）。對于文本、代碼等離散符號序列，生成式方法效果良好；而在處理圖像、視頻、音頻、傳感器數據等連續高維信號時，唯有聯合嵌入預測架構具備擴展性。生成式方法在不可壓縮的像素噪聲上消耗建模能力，對比式方法遇到組合爆炸的擴展瓶頸，JEPA 以極簡結構突破限制，實現對高維復雜信號的有效建模。

自監督學習

生成式預測像素/token

對比式推拉

聯合嵌入預測式 JEPA

GPT / BERT

MAE / Sora

SimCLR / MoCo

CLIP

孿生網絡 1992

I-JEPA 圖像

V-JEPA 視頻

V-JEPA 2-AC 動作條件

VL-JEPA 語言

LeWorldModel 端到端

4.1　起點：孿生網絡（貝爾實驗室，1992）

LeCun 1994 年為簽名防偽造了第一個孿生網絡：兩個共享權重的編碼器分別編碼簽名 A 和 B，在嵌入空間比距離。1992 年就已具備的性質——共享編碼器權重、正負對對比訓練、不重建原始輸入、在嵌入空間做預測——是所有現代 JEPA 變體的直系祖先。三十多年里核心架構思想沒變，變的是防坍縮策略和規模。

4.2　I-JEPA：圖像（image）

把圖像的一大塊連續區域作為上下文（55-75% 可見），4 個各約 15% 的連續塊作為預測目標。預測器以掩碼塊的空間位置 z 為條件，必須學出場景的空間地圖，在任意被查詢的位置預測語義連貫的內容。和 MAE 的對比很說明問題：MAE 預測像素、學到紋理、凍結表示弱（ImageNet 線性探針 67.8%）；I-JEPA 預測嵌入、學到語義、凍結表示強（72.9%），且訓練 GPU 時間約為 MAE 的 1/7。

觀察 x上下文

編碼器 E_x

嵌入 s_x

預測器 P

位置/動作條件 z

預測嵌入 ?_y

觀察 y目標

編碼器 E_y

目標嵌入 s_y

損失 = ‖?_y ? s_y‖2

4.3　V-JEPA：視頻（video）

把 2D 空間預測擴展到 3D 時空預測，輸入視頻被切成 [2 幀 × 16×16] 的時空管。預測器學會物體永久性、運動連續性、物理因果，全部來自原始視頻、沒有標注。V-JEPA 2 的編碼器是 ViT-g/16（約 10 億參數），用 3D-RoPE 做位置編碼，在 22M 小時視頻上訓練。基準上 Something-Something v2 達 77.3% top-1，Epic-Kitchens 動作預判相對提升 44%。

最有意思的是常識物理：給它看球在半空中瞬移、物體向上掉落這類違反物理的視頻，預測誤差會在不可能事件發生的那一刻急劇飆升。這是第一個純從視頻、無任何物理標簽或符號規則，就能檢測物理不合理性的 AI 系統。

4.4　V-JEPA 2-AC：動作條件

兩階段訓練。階段一是上面的自監督預訓練，產出凍結的視頻編碼器。階段二凍住編碼器，在 62 小時無標注機器人軌跡（DROID 數據集）上訓練一個 300M 參數、用 block-causal attention 的動作條件預測器，每幀只能注意當前和過去、不能看未來。重活由預訓練編碼器干完，動作條件預測器只需學習動作如何修改已學好的表示。

部署時零樣本：在兩個不同實驗室的 Franka 機械臂上，不采集這些環境的數據、不做任務特定訓練、不給獎勵信號，目標用圖像觀察指定。規劃用 MPC + CEM 在世界模型上搜索想象的動作序列，選預測末態嵌入離目標嵌入最近的那條。機械臂完成了對新物體的拿取-放置。

4.5　VL-JEPA：接住語言

標準 VLM 是"圖像編碼器 + 自回歸 LLM"，逐 token 生成文本。VL-JEPA 把生成式輸出換成嵌入預測：視覺編碼器（凍結的 V-JEPA 2）輸出視覺嵌入，查詢文本和目標文本各自編碼，預測器預測目標文本的嵌入，損失在嵌入空間算。需要人類可讀輸出時，才用一個事后訓練的解碼器把預測嵌入翻成文本。

這為什么更高效呢？同一個物理事實在文本里有許多種說法。問"這蘑菇能吃嗎"，"別吃這個蘑菇""這蘑菇有毒""不，這蘑菇不安全"都對。token 空間里這幾句幾乎正交，訓練數據通常只含一種措辭，模型選了正確的另一種措辭反而被懲罰。嵌入空間里語義相近的句子被 Y-Encoder 映射到鄰近點，預測器只需命中"這蘑菇危險"對應的區域，換措辭不受罰。目標分布從多峰（峰之間支撐不相交）變成近似單峰，單峰分布好擬合得多。

實測的對照：同數據、同模型、同算力，5M 訓練樣本下 VLM 準確率約 20%，VL-JEPA 約 35%，相對提升約 75%。VL-JEPA 用 1.6B 參數在 GQA 上勝過 7B 的標準 VLM。在運動密集型基準上優勢最明顯——SSv2 上 19.3% vs PE-Core-G 的 9.0%——因為它的視覺表示來自純視覺預訓練，沒被"語言常描述什么"裁剪過。

順帶解決了實時視頻流。VLM 對每幀都要自回歸解碼整段答案，30fps 下根本來不及。VL-JEPA 每幀一次前向得到一個嵌入（O(1)），持續監控這條平滑的語義嵌入流，只在檢測到語義突變（‖?_Y^(t) - ?_Y^(t-1)‖ 超閾值）時才觸發解碼器，解碼調用減少 2.85×。智能眼鏡需要這種方法：常開監控視野，只在重要的事發生時才出聲。

4.6　LeWorldModel：最干凈的端到端系統

ViT-Tiny 編碼器（約 5M 參數，CLS token 池化）加 Transformer 預測器（約 10M 參數，用 AdaLN 做動作條件），總計 15M 參數，單 GPU 幾小時訓完。它是第一個從像素端到端、帶可證明反坍縮保證（SIGReg）的 JEPA。

它的規劃速度優勢來自 token 數量。DINO-WM 用凍結 DINOv2，每幀約 200 個 patch token，H=25 步規劃每次 CEM 迭代要 200×25 = 5000 次 token 預測；LeWM 每幀 1 個 CLS token，同樣 25 步只要 25 次預測。結果是 LeWM 規劃快 48×。訓練后用線性探針能從它的潛空間讀出物體位置、速度、朝向、質量——它從像素-動作軌跡里隱式學到了牛頓定律，沒有任何物理標簽。

五、學到"真正的"世界模型的時間

一個世界模型要可信，它的內部表示必須對應世界真實的自由度。如果機器人的世界模型把物體位置和光照顏色纏在一起，把速度和紋理混在一起，那么線性探針讀不出真實狀態、潛空間距離不對應物理距離、潛空間里的規劃找不到物理上有意義的方案。

在什么條件下，學到的表示能線性恢復世界真實的隱變量？

設定如下。世界有隱變量 z ∈ ??（位置、速度、物體身份、光照……），我們從不直接觀察 z，一個未知非線性混合函數 g 生成觀察 x = g(z)（把 g 想成 3D 物理狀態到 2D 像素的渲染管線）。我們訓練編碼器 f，讓復合 h = f°g 在某個固有對稱性下恢復 z。線性可識別性即存在矩陣 Q 使 h(z) = Qz——這是線性探針能工作的必要條件。

理論假設高斯隱變量 z ~ N(0, I)（最大熵分布，且由中心極限定理，許多微觀變量的聚合趨于高斯），正樣本對之間是 Ornstein-Uhlenbeck 轉移 z' = ρz + √(1-ρ2)η，ρ 控制兩視圖的相關度。在這個設定下，轉移算子的本征函數恰好是 Hermite 多項式，d 次多項式的本征值是 ρ?。含義很關鍵：

? 線性函數（d=1）最可預測，本征值 ρ
? 二次（d=2）次之，本征值 ρ2
? 更高的非線性，本征值 ρ? 指數級變小

任何帶單位方差的表示分量都能分解成 Hermite 多項式的加權和，其跨視圖相關 ≤ ρ，等號當且僅當該分量是線性的。任何對表示的非線性扭曲都會嚴格降低正樣本對之間的相關。

四個主要定理由此展開：

定理一（正向）　在高斯世界、OU 轉移下，最小化對齊損失并約束嵌入為 N(0,I)，唯一的最優解是 h(z) = Qz，Q 是正交矩陣。要在保持嵌入高斯的同時最大化視圖一致，表示別無選擇，只能學成真實隱變量的一個旋轉/反射。

定理二（逆向）　如果每個滿足協方差為 I 的最優解都是線性的，那么 z 必須是高斯的。推論很實際——只匹配二階矩的 VICReg 不夠，只有匹配完整高斯的 SIGReg 才保證線性可識別性。把隱變量分布在廣義正態族里掃描，恢復 R2 在高斯（形狀參數 α=2）處尖銳地達到 0.999，偏離高斯則崩，且與用哪個正則項無關。

定理三（近似可識別性）　實踐中對齊和高斯約束都只近似滿足。定理給出恢復誤差隨近似誤差的縮放界，且界優雅退化——隨訓練收斂、兩個損失下降，恢復誤差單調下降。這讓 JEPA 的訓練損失第一次變得可解釋：損失越低，世界模型越好，不需要監督驗證集。

定理四（橋接）　若 h(z) = Qz，則對任何代價函數旋轉不變的有限時域最優控制問題，潛空間里的規劃等價于真實隱變量空間里的規劃。可識別性不是一個抽象的好性質，它是潛空間規劃能找到物理上正確方案的前提。

六、分層規劃：唯一還沒解決的硬骨頭

單層 JEPA 配 CEM/MPC 在短任務上能用，超過約 5 步就會失敗，原因有二。

其一是誤差累積。世界模型自回歸滾動，單步誤差 ε，H 步后誤差約 Hε（小 ε 下線性，最壞情況指數）。H=50 的任務，再準的預測器也會讓 rollout 偏離現實。其二是搜索空間爆炸。CEM 在 K×H×|action| 維連續空間里采樣，H=50、action_dim=7 就是 350 維，隨機樣本里含一條好軌跡的概率隨 H 指數下降。

最能說明問題的是拿取-放置任務。機械臂必須先朝物體移動（遠離目標、代價上升）才能抓取，再移向容器（代價下降）。短視的平坦規劃器看到第一步代價上升就拒絕，卡在原地或來回振蕩。VJEPA2-AC 配平坦 MPC 在這個任務上成功率 0%。

HWM（分層世界模型，Zhang 等，2026，FAIR/NYU）用兩層解決：

?低層世界模型P?1?(z_{t+1} | z_t, a_t)，處理原始動作，規劃時域 5-10 步，高時間分辨率
?高層世界模型P?2?(z_{t+K} | z_t, l_t)，處理潛宏動作 l_t（一段原始動作序列的壓縮表示），規劃時域 3-5 個宏步，低時間分辨率

兩個模型活在同一個編碼器產生的潛空間里。這是讓耦合干凈的關鍵設計——高層預測的中間狀態可直接作為低層規劃器的目標。規劃分兩段：高層在宏動作空間做 CEM，到達目標，產出一串中間潛子目標，第一個子目標 z?? 是機器人途中應當經過的路標；低層在原始動作空間做 CEM 去夠到 z??，執行前幾個動作，重規劃，子目標達成后推進到下一個。非貪心結構被高層捕捉，低層只需對子目標局部貪心。

是, 取下一子目標

觀察 o_current

編碼 z = E o

目標 z_goal = E o_goal

高層 CEM

宏動作計劃 l*

首個子目標 z?? = P2 z,l*?

低層 CEM

原始動作計劃 a*

執行前 k 個動作

子目標達成?

推進 z? → z??

總目標達成?

完成

結果：拿取-放置 HWM 70% vs 平坦 MPC 0%，并且勝過用 77× 更多機器人數據訓練的 VLA。開關抽屜 70% vs 30%，Push-T（DINO-WM）61% vs 17%，多樣迷宮（PLDM）83% vs 44%。

模式跨架構、跨任務一致：只要任務需要非貪心行為或長時域，分層就帶來大幅提升。HWM 是一個即插即用的規劃模塊，不重訓就能改進任何 JEPA 世界模型。

天花板在哪里？用外部提供的"神諭子目標"繞開高層規劃器，HWM 和平坦 MPC 都能到 80%。差距完全在高層規劃器產出子目標的質量上。剩下的開放問題：子目標質量、訓練時如何選路標（現在是固定步長，更有原則的做法是在潛速度 ‖z_{t+1}-z_t‖ 的局部極大處——狀態劇變的時刻——選路標）、以及最重要的，層級能否自發涌現而非手工指定。

一個人從紐約飛巴黎，會在至少四個抽象層次上規劃（去巴黎 → 到 JFK 登機 → 打車去機場 → 走到電梯按按鈕），最底層是無需規劃的反應式運動。他希望訓練分層 JEPA 時，低層學短時精細預測、高層學長時粗粒度預測，合適的層級結構會像 CNN 自發學出"邊緣→形狀→物體→場景"那樣涌現出來。慢特征分析理論給了這個猜想一些依據，但還沒有規模上的實證。HWM 是一個起點，目前只有兩層。

七、與大腦的對應

JEPA 與神經科學的對應：

預測編碼。大腦不被動接收感覺輸入，而主動預測它，用預測誤差更新內部模型。這套框架（Helmholtz 1867，Rao-Ballard 1999，Friston 2010 的自由能原理）和 JEPA 結構高度同構：自頂向下的預測信號對應預測器，自底向上的預測誤差對應預測損失，分層皮層區對應分層世界模型，注意力的顯著性加權對應掩碼預測目標。

嬰兒認知。發展心理學解釋"一個智能系統應當學會什么、多快學會"。給 6 個月大的嬰兒看小車被推下平臺后懸浮（違反重力），嬰兒不驚訝——還沒有重力的世界模型。給 10 個月大的嬰兒看同樣畫面，嬰兒明顯多盯著看——驚訝反應，說明已內化"無支撐物體會下落"。V-JEPA 在同類實驗里表現出相同行為：物理不可能事件處預測誤差飆升。它沒被喂過物理標簽，純訓練于視頻，就建起了 10 個月嬰兒那樣的原始直覺物理。10 個月大的嬰兒沒被訓練在標注物理數據集上，他們的世界模型完全通過觀察和互動學來。

System 1 與 System 2。Kahneman 的兩套系統直接映射到 JEPA 認知架構：System 1 是反應式策略（感知→立即行動，前饋網絡，無需世界模型，適合走路、伸手、接球），System 2 是通過優化規劃（世界模型 + CEM/MPC，在想象的動作序列上搜索，適合新任務和安全攸關決策）。LLM 只作為 System 1 運行，單次前向給出輸出，沒有真正的 System 2。成熟系統應當能動態切換——熟練技能交給 System 1（走向電梯），新情形啟用 System 2（規劃去巴黎）。

神經底物的對應。前額葉皮層對應世界模型（規劃、預測），海馬體對應情景/工作記憶，視覺皮層 V1-V5 對應編碼器（分層視覺特征），基底節對應代價函數，小腦對應低層運動世界模型（快速精確），杏仁核對應先天代價函數。小腦尤其值得注意——它維護一個極精確的身體力學前向模型（給定運動指令，我的手 50ms 后在哪），是運動控制層面的生物 JEPA，且在演化上非常古老，世界模型是脊椎動物大腦的一種基本計算策略。

前額葉皮層

世界模型規劃/預測

海馬體

情景/工作記憶

視覺皮層 V1-V5

編碼器分層特征

基底節

代價函數

小腦

低層運動世界模型

杏仁核

先天代價函數

從神經科學直接長出算法。Barlow Twins 是罕見的：Horace Barlow 1961 年關于視網膜神經節細胞去相關的神經科學論文，預言了最優圖像編碼器的結構，比能實現它的深度學習早了幾十年。

開放問題：意識與主觀體驗（JEPA 不涉及）、好奇心與內在動機（能否實現為獎勵訪問高預測誤差狀態的代價函數）、社會認知與心智理論（需要建模他人模型的高階世界模型）、語言習得的接地機制、睡眠與記憶鞏固。

八、硬件：當這套范式落地，芯片要變成什么樣

JEPA 對端側硬件的需求與 LLM 完全不同。講清楚需求差異，才談得上演化。

8.1　兩種截然不同的訪問模式

LLM 自回歸解碼，每生成一個 token，要把整個模型的權重過一遍內存總線。7B 模型為例：

計算量：~14 GFLOPs（矩陣-向量積，batch=1）
內存訪問：~14 GB（加載權重）
Arithmetic Intensity ≈ 1 FLOP/byte

H100 算力 1979 TFLOPS，帶寬 3.35 TB/s。在 1 FLOP/byte 工況下，算力利用率約 0.17%。HBM 存在的全部意義就是把這點利用率喂飽——每秒 5 TB 的帶寬，防止芯片餓死。LLM 推理是內存帶寬受限的工作負載。

JEPA 的訪問模式倒過來。CEM 規劃并行評估 K 條軌跡（K=500）、H 步（H=25），共 12,500 次預測器前向，全部共享同一套預測器權重。權重加載一次，K 條軌跡同時復用：

預測器權重（LeWorldModel）：10M params ≈ 10 MB（INT8）
K=500 條軌跡激活：每條 ~4.6 KB，合計 ~2.3 MB
全程在片上 SRAM 內完成，DRAM 帶寬壓力近似為零
Arithmetic Intensity >> 100 FLOP/byte，算力利用率接近峰值

JEPA 不需要 HBM，需要的是足夠大的片上 SRAM。LLM 是"每生成一個 token 把 70GB 權重過一遍"，JEPA 是"把權重加載一次然后 500 條軌跡并行復用"，帶寬需求量級根本不同。

8.2　三大端側平臺的真實差距

用兩個核心負載橫評高通 Hexagon NPU（SD 8 Gen 4）、Apple ANE（M4）、NVIDIA Jetson Orin NX。

負載一：ViT Encoder 推理。三個平臺有個共同盲點——3D-RoPE。V-JEPA 2 的位置編碼要把 feature dimension 分成時間、空間H、空間W 三段分別旋轉，現有 NPU 的 RoPE 單元只實現了為語言模型設計的 1D 版本，3D 版本回退到通用矩陣乘法，效率降 3-5×。

平臺                 Encoder 單幀（含 3D-RoPE 降級）   功耗
Hexagon NPU          ~15-25 ms                        ~5W
Apple ANE + Metal    ~20-35 ms（Metal GPU 補位）       ~2W
Jetson Orin NX GPU   ~30-50 ms（CUDA 自定義 kernel）   ~15W

Jetson 是唯一有 CUDA 自定義 kernel 能力的平臺，3D-RoPE 可針對性優化，純延遲上占優，代價是功耗。

負載二：CEM 規劃（K=500）。這是拉開差距的測試。Hexagon 的張量加速器設計上限 batch≤16，K=500 要分 4 批循環、無法流水線，實際 K 壓到約 150 才能進 100ms 預算，規劃質量損失約 40%。Apple ANE 要求編譯時定死 batch，CEM 需要的動態 K 它原生不支持，只能預編譯多份模型，切換有 5-10ms 開銷，K=500 跑不動只能降級到 Metal GPU（~200-300ms）。Jetson 的 CUDA 對 batch=500 無設計限制：

batch=500 預測器 TensorRT 推理：500 × 10 MFLOPs = 5 GFLOPs
@4.4 TOPS INT8：~1.1 ms/迭代，50 次迭代 ~55ms → 進 100ms 預算

Jetson Orin NX 是當下唯一能在實際功耗下跑完 V-JEPA 2-AC + CEM K=500 完整規劃循環的端側平臺，但 10-25W 功耗在穿戴場景是瓶頸。Hexagon 和 ANE 對 CEM 的支持都屬于"設計之外"，需要繞路，2027-2028 架構更新后會改善。Apple 的統一內存有個被低估的優勢：ANE 和 GPU 共享同一塊物理 DRAM，切換計算路徑零拷貝，這在 ANE 擴大 SRAM、支持大 batch 之后會成為重要競爭力。

8.3　各類芯片的受力方向

NPU是最直接的受益者，也要做最大調整：片上 SRAM 從 4-16MB 擴到 32-64MB（容納 CEM 的大 batch 激活），增加 3D-RoPE 專用路徑，重組內部 SRAM 支持大 batch 并行推理。EMA 更新這類逐元素 scatter 操作對 MAC 陣列不友好，端側在線微調時需要專用向量單元或折交給 CPU SIMD。

CPU從GPU 的服務員變成規劃循環的指揮者。HWM 兩層規劃需要 CPU 維護 CEM 的高斯分布參數、對 K 個分數排序選精英、更新分布、調度軌跡、判斷高低層切換。需求變化是低延遲核間通信（CPU 到 NPU 零拷貝傳 latent state）、確定性延遲（實時控制）、片上硬件 PRNG（CEM 每次迭代要生成上萬個高斯隨機數，軟件太慢）。

LPDDR崛起。JEPA 預測器參數小、訪問模式是"一次加載大量復用"，帶寬不是瓶頸，端側 LPDDR5X（68 GB/s）理論上足以支撐 LeWorldModel 級別。LPDDR6（~130 GB/s，2027-2028）能讓 Encoder 權重加載快 2×，對 CEM 階段提升有限——真正的瓶頸是片上 SRAM 大小，不是片外帶寬。HBM 在訓練側維持，在 JEPA 推理服務器里的必要性下降。

8.4　RISC-V：實時規劃循環

HWM 的調度層需要持續運行、μs 級延遲：NPU 跑完一批推理后，讀 K 個分數、做 top-k、更新高斯分布、觸發下一次迭代。計算量小，但延遲必須確定。ARM Cortex-A 是亂序核，緩存缺失帶來 100μs 級隨機抖動，對 1000Hz 力傳感器中斷不可接受。

RISC-V 順序執行核（如 SiFive E/P 系列）有結構性優勢：無亂序緩沖區，中斷響應等于固定流水線深度（2-5 周期）；開放 ISA 可加自定義指令服務 CEM 調度。

cem.topk  rd, rs1, K, elite_n     // K=500 分數 top-elite 排序，目標 <1μs
cem.gauss.update rd, rs1, rs2, n  // 據精英樣本更新 (μ,σ)，目標 <0.5μs
hwm.waypoint.set rs1              // 寫 waypoint 觸發低層重規劃，單周期

RISC-V V 向量擴展（512-bit SIMD）約 1000 周期完成 K=500 的 top-30 排序，@1.8GHz 約 0.55μs，且不占 NPU 資源——NPU 跑下一批推理時，RISC-V 同時處理上一批結果，兩者真正并行。預期 2027-2028 的機器人 SoC 會是三層異構：Cortex-A 跑 Linux/ROS 做高層協調，RISC-V 實時核跑 RTOS 做 CEM 調度和傳感器融合，NPU/ASIC 跑 Encoder 和預測器。

8.5　專用 CEM ASIC 的 dataflow

通用 NPU 撞到效率上限后，專用 ASIC 會出現。核心抉擇是 systolic array 還是 vector processor。CEM 的計算分兩類：GEMM 密集（預測器前向，K 條軌跡共享權重）和非 GEMM（LayerNorm、AdaLN、top-k、高斯更新、PRNG 采樣）。systolic array 只擅長 GEMM，vector processor 兩類都能但 GEMM 效率低。最優解是混合，且 systolic array 的 dataflow 必須選weight-stationary：

Weight-Stationary：每個 PE 持有預測器權重的一個 tile，不動
                   K=500 條軌跡激活依次流過陣列
                   → 權重在 K 條軌跡里完全復用，零重新加載
                   這正是 CEM 的計算結構


 對比 Output-Stationary：每個 PE 持有一個輸出元素，權重和輸入都要動
                       需要 K×d ≈ 96,000 個 PE，面積不現實

四個模塊——systolic array、向量單元、CEM 控制器、PRNG——可以完全流水線化：陣列算第 i 次迭代的第 j 層時，向量單元處理 j-1 層的歸一化，控制器處理 i-1 次迭代的 top-k，PRNG 已在生成 i+1 次迭代的樣本。實現后 50 次迭代延遲≈單次迭代延遲，而非 50× 串行。

PRNG 單元是不可忽視的關鍵路徑。CEM 每次迭代要生成 K×H×action_dim = 500×25×7 = 87,500 個高斯隨機數。軟件 PRNG 約 875,000 周期 ≈ 875μs，超過單次迭代時間；硬件 PRNG（32 路并行 LFSR + Box-Muller 流水線）171 周期 ≈ 342ns，完全隱藏在陣列計算延遲內。單元面積 <0.2mm2（5nm），但去掉它，K=500 的 CEM 在端側實時運行的可能性直接歸零。

8.6　演化路線圖與能效約束

2026     Jetson Orin NX 唯一實用（機器人控制板）
         Hexagon/ANE 跑 LeWorldModel 可行，CEM K 限于 100-150
2027-28  NPU 架構更新：SRAM 擴到 32-64MB，3D-RoPE 專用路徑
         LPDDR6 量產，RISC-V 實時核進入機器人 SoC
2028-30  專用 CEM ASIC：weight-stationary 陣列 + 向量單元
         預測器權重駐留 SRAM，硬件 PRNG，四模塊全流水線
2030+    能效拐點：穿戴 1-5W 跑完整規劃循環
         神經形態方向（Loihi/NorthPole 后繼）<0.1W

能效是最終約束。GPU 做 CEM 約 15-25W，設計良好的專用 ASIC 約 1-3W（10× 提升），神經形態推測 ~0.1W。穿戴預算 1-5W，工業機器人控制板 10-30W。LLM 時代芯片競爭圍繞"誰的內存帶寬更大"，JEPA 時代轉向"誰能在有限 SRAM 里并行跑最多條規劃軌跡、同時功耗足夠低"。這一輪里 NPU 和專用 ASIC 比 GPU 受益更多，RISC-V 作為它們之間的實時連接器補上最后一塊。

九、時間表

預計行業在 2027 年前后開始承認這次范式轉移。AMI Labs 的近期計劃分兩步：頭一兩年把 JEPA 世界模型用于復雜工業控制——噴氣發動機、化工廠、電網、個性化醫療、材料與催化劑設計——這些領域方程寫不全，但有傳感器數據，學一個現象學動力學模型加規劃就能產生價值，而且人類沒法演示噴氣發動機控制，VLA 式行為克隆在這里不適用。這是 JEPA 在家用機器人解決之前的工業楔子。第三到五年擴展為智能機器人系統的主要供應商。

競爭對手——Physical Intelligence、DeepMind Robotics、Tesla Optimus——都在走 VLA 優先路線。AMI Labs是另一條路：JEPA 加分層規劃，不只是原則上更優，而是會在 VLA 路線觸頂之前先造出可商業部署的機器人。

標準是，家用機器人第一次被口頭告知去清晚餐桌，就能完成——像一個被吩咐收拾餐桌的 10 歲孩子。目前沒有任何系統接近這個目標。

過去十年，AI 領域癡迷于"蛋糕上的櫻桃"（強化學習），偶然靠 next-token prediction 實現了蛋糕底層的自監督學習，但只在語言這個離散域里。讓自監督學習在連續高維信號——視頻、傳感器流、物理世界——里也成立，在表示空間而非像素空間里預測，用優化來推理，把安全約束融合進優化問題本身。這同時會催生新的硬件迭代和爆發。a芯片還會繼續高歌猛進。

參考：ETH Zürich "Frontiers of Embodied AI" 演講、I-JEPA / V-JEPA / V-JEPA 2 / VL-JEPA / LeJEPA / LeWorldModel / HWM 論文。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.