无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

LeCun押注的世界模型算法與硬件需求

0
分享至

一個 17 歲的少年,花 20 小時就能學會開車。

GPT-4 讀完了 30 萬億個 token,約 10^14 字節的文本。一個 4 歲孩子的視覺皮層,從出生到 4 歲,通過 200 萬根視神經纖維,同樣接收了約 10^14 字節的信息。信息量在一個數量級上,結果天差地別:孩子掌握了重力、物體永久性、因果、動量守恒,GPT-4 掌握了語言的統計規律。

這個差距說明一件事——孩子有世界模型,GPT-4 沒有。

從 Meta 離開,LeCun在巴黎創立 AMI Labs,募了 10 億美元,遠離硅谷 VC。理念是:當前所有 AI,包括最強的 LLM,都無法對世界建模;任何缺少內部預測模型的系統,會永久停留在脆弱、不安全、樣本效率低下的狀態;補上這塊缺口的,是建立在聯合嵌入預測架構(JEPA)之上的世界模型,而不僅僅是生成式的 token 預測。

一、世界模型是什么

世界模型回答一個問題:給定世界當前狀態 s_t,以及我設想采取的動作 a,下一刻的狀態 s_{t+1} 會是什么樣?

?_{t+1} = WM(s_t, a_t)

關鍵是在一個抽象的、學到的狀態表示上運算。把這個模型沿時間向前滾動,在想象出的動作序列上做優化,通過優化來規劃——System 2 推理的基礎。

世界是非確定的。前方的車可能加速也可能剎車,球可能彈向左也可能彈向右。世界模型不預測單一未來,維護一個隱變量 z 來參數化所有合理未來的分布:

?_{t+1} = WM(s_t, a_t, z),    z ~ p(z)

"正確的表示"是什么意思:預測木星 100 年后的位置,只需要 6 個數字——位置和速度向量。不需要模擬木星上的每一個分子。正確的表示消除無關細節,只保留預測所需的結構。這個直覺貫穿整個 JEPA 框架。


世界模型的完整認知架構:感知模塊估計狀態,工作記憶保存近期信息,世界模型滾動預測想象中的未來,代價函數同時編碼任務目標和安全約束,優化器搜索同時滿足兩者的動作。安全護欄(guardrail)被硬編碼進代價函數,作為優化問題定義的一部分,不是現在llm這種事后過濾器或者 sft/rlvr。系統逃不出護欄,因為護欄就是它求解的約束本身。


二、為什么 LLM 走不到這一步

LLM是優秀的語言產品,但自回歸 token 預測在結構上產生不了世界模型。

2.1 缺陷一:每個 token 分到的計算量恒定

Transformer 的一次前向傳播,attention 部分是 O(n2d)。序列里每個 token,無論承載的是"2+2 等于幾"還是"證明這個 NP 難問題",拿到的計算量完全一樣。

難題需要比簡單問題更多的計算,LLM 沒有識別"這個問題難、要多算一會兒"的機制。Chain-of-thought 的本質,是誘導模型多吐 token,用 token 數量換計算量。底層仍然是逐 token 生成,只是被提示生成得更多。

正確的推理機制應該是在輸出空間上做優化——一個能把更多計算分配給更難子問題的搜索過程。A*、MCTS、SAT 求解、經典規劃都具備這個性質,token 預測不具備。

2.2 缺陷二:自回歸誤差按指數衰減

LLM 逐 token 生成,每一步從約 10 萬個 token 的分布里采樣一個。設每步偏離正確子樹的概率為 ε。生成樹沒有回溯邊——一旦走出正確子樹,回不來。長度為 n 的序列全部正確的概率:

P(正確序列) = (1 - ε)^n

取 ε = 0.01,n = 1000:

P ≈ 4.3 × 10?? ≈ 0.004%

這不來自訓練不足。語言本身有歧義、依賴上下文,ε 永遠壓不到零。唯一的出路是改變答案的產生方式。人類不靠一個詞一個詞往外蹦來回答問題,而是先形成一個抽象的想法——答案的語義表示——再翻譯成詞。LLM 跳過了抽象想法,直接輸出到 token 表面含義上了。


2.3 缺陷三:沒有世界模型,就沒有規劃地瞎預測

一個規劃系統必須能回答"我在狀態 s 執行動作 a,會發生什么"。LLM 沒有顯式的狀態表示,沒有運動模型,無法把世界向前滾動。它能生成描述計劃的文本,但是缺點是沒有機制去驗證這些計劃在物理世界里是否成立。

當前基于 LLM 的智能體(browser-use、computer-use)執行動作、觀察結果,再執行下一步——這是錯誤的規劃方式,不是預測式規劃。我無法理解,一個系統在不具備預測自身行為后果能力的前提下,怎么能被叫做智能體系統

2.4 缺陷四:語言是有損的抽象

語言為共享世界模型的人類之間的溝通而演化。"貓在墊子上"你能聽懂,因為你早已從現實中的物理經驗里知道貓、墊子和"在……上"分別意味著什么。語言是對思想的壓縮表達,本身不是思想。LLM 只接觸到壓縮后的產物,夠不到語言當初要壓縮的那些物理直覺。

由此引出對 VLA(視覺-語言-動作)模型的錯誤分析。RT-2、Physical Intelligence 的 π 系列把 VLM 接上動作頭,用人類演示數據做大規模行為克隆。繼承 LLM 的全部結構性缺陷,又疊加了機器人特有的脆弱:

  • ?泛化有硬邊界。能遷移 LLM 主干已知的概念(RT-2 能把可樂罐移到 Taylor Swift 的圖片上),但發明不了新的操作策略,遇到與預/后訓練分布差太遠的配置就崩。

  • ?數據采集不可擴展。人類演示昂貴,受限于人的可用性,而物理環境的多樣性是無窮的。

  • ?沒有顯式規劃過程。端到端從圖像映射到動作,無法模擬"如果我把箱子往左推而不是往右推會怎樣",沒有安全保證。

作為對照,V-JEPA 2 在 100 萬小時互聯網視頻上預訓練,不用機器人數據、不用標注;只需加入 62 小時無標注機器人軌跡,就能做動作條件預測。1M+ 小時觀察 : 62 小時動作數據,這個比例比行為克隆所需的數量級有利得多。

2.5 缺陷的根源:生成式視頻在數學上不是可行的

最深的技術理由針對生成式視頻模型。預測下一幀,目標是一個 [H × W × 3] 的張量。以 1080p 為例:

1920 × 1080 × 3 ≈ 620 萬個像素值
每通道 256 個離散值
可能的下一幀:256^(620萬) ≈ 10^(1500萬)

可觀測宇宙的原子數約 10^80。LLM 能工作,是因為詞表只有約 10 萬 token,可以枚舉并賦概率。視頻幀沒有對應的枚舉方案。生成式視頻模型面對不確定性只剩三條路:對所有未來取平均(得到模糊畫面,這正是觀察到的現象);用隱變量(簡單視頻可行,復雜自然場景失敗);學連續分布(需要估計配分函數 Z)。


第三條是原則上正確的,但 Z = ∫ exp(-E(y)) dy 對任何非平凡的神經能量函數都沒有閉式解。這是數學上的不可解。JEPA 繞開了這個死胡同:不建模下一幀的分布,而是建模下一個嵌入的分布——一個維度低得多的空間。像素級細節的不確定性被編碼器吸收(丟掉不可預測的信息),不再要求預測器顯式建模。

三、能量、坍縮與 SIGReg 3.1 能量模型:統一視角

整個自監督學習放進能量模型(EBM)的框架。一個 EBM 定義標量函數 F_θ(x, y),度量輸入 x 和候選輸出 y 的相容程度。低能量等于相容,高能量等于不相容。訓練就是塑形這個能量曲面,讓觀察到的 (x, y) 對能量趨近 0,未觀察到的對能量遠大于 0。推理則是給定 x,求最小化能量的 y:

y* = argmin_y F_θ(x, y)

這是通過優化來推理,不是llm的一次前向傳播。最短路徑、SAT 求解、Viterbi 解碼、最優控制都是這個結構。Gibbs 分布 p(y|x) = exp(-F_θ(x,y)) / Z(x) 能把能量轉成概率,但配分函數 Z(x) 對絕大多數分布不可解。直接和能量打交道,從源頭繞開歸一化問題。

3.2 坍縮問題

最樸素的 JEPA 目標是最小化正樣本對之間的預測誤差:

L = ‖E_θ(y) - P_φ(E_θ(x), z)‖2

它有一個平凡最優解:編碼器把一切映射成同一個常向量。此時預測誤差為零,表示攜帶的信息也為零。能量曲面變得處處平坦,模型什么都沒學到。防止坍縮,是所有 JEPA 方法真正在解決的工程問題。兩條大路。


3.3 路線 A:對比方法

構造負樣本,把不相容對的能量推高。最有原則的目標是 InfoNCE:

L = -log [ exp(q·k?/τ) / (exp(q·k?/τ) + Σ? exp(q·k??/τ)) ]

它等價于一個 (N+1) 類分類的交叉熵,并且給互信息提供下界 I(q;k?) ≥ log(N) - L。MoCo 用一個緩慢更新的動量編碼器維護負樣本隊列,把隊列大小和 batch 大小解耦,讓大規模對比學習不再依賴巨大顯存。存在維度災難:覆蓋 d 維表示空間,最壞情況需要 O(exp(d)) 個負樣本,高維下太脆。

3.4 路線 B:冗余消除

不去推開負樣本,而是約束能量低的區域體積,強迫表示用滿整個空間。

Barlow Twins來自 Horace Barlow 1961 年關于視覺神經元消除冗余的假說。對兩個增強視圖的嵌入計算互相關矩陣 C,損失把對角線推向 1(同一特征在兩視圖上一致)、把非對角推向 0(不同特征去相關),目標是 C = I,等價于對表示做白化。

VICReg把反坍縮邏輯拆成三項顯式相加:不變性項拉近匹配視圖,方差項讓每個維度的標準差保持在閾值之上(直接防坍縮),協方差項讓不同維度去相關。


這兩條路有 60 年的跨度:Barlow 1961 年說神經元應當去相關,Barlow Twins 2021 年說嵌入維度應當去相關,同一個原理。

3.5 SIGReg:現代的有原則替代

Balestriero 提出的 SIGReg(Sketched Isotropic Gaussian Regularization)用一個目標替掉 VICReg 的多項:把整個嵌入分布正則化到各向同性高斯 N(0, I)。各向同性高斯零均值、各方向單位方差、維度間無相關。

直接檢驗高維分布是否高斯很貴。SIGReg 借助 Cramér-Wold 定理——一個分布由它全部一維邊緣完全確定——把問題轉成:讓所有一維投影看起來都像 N(0,1)。抽 M 個隨機單位向量 u_m,對每個投影 Z·u_m 施加可微的 Epps-Pulley 正態性檢驗統計量:

SIGReg(Z) = (1/M) Σ_m T_EP(Z·u_m)

好處是只剩一個超參(權重 λ),自帶反坍縮保證(常向量在所有投影上方差為零,偏離高斯最遠,懲罰趨于無窮),不需要 stop-gradient,不需要 EMA,靠隨機草圖擴展到高維。


LeWorldModel 最干凈的訓練目標:

L_LeWM = L_pred + λ · SIGReg(Z)
L_pred = ‖pred_φ(z_t, a_t) - z_{t+1}‖2?, z_t = enc_θ(o_t)

端到端從原始像素訓練,沒有 stop-gradient、沒有 EMA、沒有預訓練編碼器、沒有獎勵信號、沒有輔助頭。兩項損失、一個超參。

值得注意的還有 BYOL/DINO 這條蒸餾路線:靠師生不對稱(教師是學生的 EMA,對教師 stop-gradient,學生多掛一個預測器 MLP)來防坍縮。它有效,但 LeCun 坦承"機制神秘"——線性情形下梯度動力學的不動點落在 PCA 解(滿秩、不坍縮),非線性情形理論上仍未完全解釋。SIGReg 的價值正在于它把"為什么不坍縮"變成了可證明的事。

防止表示坍縮

路線A: 對比方法推開負樣本

路線B: 冗余消除用滿表示空間

InfoNCE / CPC

MoCo 動量隊列

SimCLR

Barlow Twins

VICReg

SIGReg可證明反坍縮

路線C: 蒸餾不對稱機制神秘但有效

BYOL

DINO


3.6 表示的幾何意義

物理里的重整化群消除細粒度自由度、保留粗粒度的預測結構——好的編碼器就是一個學出來的重整化操作。每上升一個表示層級(粒子→原子→分子→細胞),丟失的信息就是熵;每一層科學抽象都由它刻意丟棄的信息來定義。編碼器應當丟棄在給定上下文下不可預測的信息——世界的"不可約熵"——剩下的就是可預測的結構:位置、速度、力、意圖。

四、JEPA 架構家族:從 1992 到現在

自監督學習路線可以歸納為三類:生成式(如預測像素的 GPT/MAE/Sora)、對比式(推拉樣本的 SimCLR/MoCo/CLIP)、以及聯合嵌入預測型(JEPA)。對于文本、代碼等離散符號序列,生成式方法效果良好;而在處理圖像、視頻、音頻、傳感器數據等連續高維信號時,唯有聯合嵌入預測架構具備擴展性。生成式方法在不可壓縮的像素噪聲上消耗建模能力,對比式方法遇到組合爆炸的擴展瓶頸,JEPA 以極簡結構突破限制,實現對高維復雜信號的有效建模。

自監督學習

生成式預測像素/token

對比式推拉

聯合嵌入預測式 JEPA

GPT / BERT

MAE / Sora

SimCLR / MoCo

CLIP

孿生網絡 1992

I-JEPA 圖像

V-JEPA 視頻

V-JEPA 2-AC 動作條件

VL-JEPA 語言

LeWorldModel 端到端

4.1 起點:孿生網絡(貝爾實驗室,1992)

LeCun 1994 年為簽名防偽造了第一個孿生網絡:兩個共享權重的編碼器分別編碼簽名 A 和 B,在嵌入空間比距離。1992 年就已具備的性質——共享編碼器權重、正負對對比訓練、不重建原始輸入、在嵌入空間做預測——是所有現代 JEPA 變體的直系祖先。三十多年里核心架構思想沒變,變的是防坍縮策略和規模。

4.2 I-JEPA:圖像(image)

把圖像的一大塊連續區域作為上下文(55-75% 可見),4 個各約 15% 的連續塊作為預測目標。預測器以掩碼塊的空間位置 z 為條件,必須學出場景的空間地圖,在任意被查詢的位置預測語義連貫的內容。和 MAE 的對比很說明問題:MAE 預測像素、學到紋理、凍結表示弱(ImageNet 線性探針 67.8%);I-JEPA 預測嵌入、學到語義、凍結表示強(72.9%),且訓練 GPU 時間約為 MAE 的 1/7。

觀察 x上下文

編碼器 E_x

嵌入 s_x

預測器 P

位置/動作條件 z

預測嵌入 ?_y

觀察 y目標

編碼器 E_y

目標嵌入 s_y

損失 = ‖?_y ? s_y‖2

4.3 V-JEPA:視頻(video)

把 2D 空間預測擴展到 3D 時空預測,輸入視頻被切成 [2 幀 × 16×16] 的時空管。預測器學會物體永久性、運動連續性、物理因果,全部來自原始視頻、沒有標注。V-JEPA 2 的編碼器是 ViT-g/16(約 10 億參數),用 3D-RoPE 做位置編碼,在 22M 小時視頻上訓練。基準上 Something-Something v2 達 77.3% top-1,Epic-Kitchens 動作預判相對提升 44%。

最有意思的是常識物理:給它看球在半空中瞬移、物體向上掉落這類違反物理的視頻,預測誤差會在不可能事件發生的那一刻急劇飆升。這是第一個純從視頻、無任何物理標簽或符號規則,就能檢測物理不合理性的 AI 系統。


4.4 V-JEPA 2-AC:動作條件

兩階段訓練。階段一是上面的自監督預訓練,產出凍結的視頻編碼器。階段二凍住編碼器,在 62 小時無標注機器人軌跡(DROID 數據集)上訓練一個 300M 參數、用 block-causal attention 的動作條件預測器,每幀只能注意當前和過去、不能看未來。重活由預訓練編碼器干完,動作條件預測器只需學習動作如何修改已學好的表示。

部署時零樣本:在兩個不同實驗室的 Franka 機械臂上,不采集這些環境的數據、不做任務特定訓練、不給獎勵信號,目標用圖像觀察指定。規劃用 MPC + CEM 在世界模型上搜索想象的動作序列,選預測末態嵌入離目標嵌入最近的那條。機械臂完成了對新物體的拿取-放置。



4.5 VL-JEPA:接住語言

標準 VLM 是"圖像編碼器 + 自回歸 LLM",逐 token 生成文本。VL-JEPA 把生成式輸出換成嵌入預測:視覺編碼器(凍結的 V-JEPA 2)輸出視覺嵌入,查詢文本和目標文本各自編碼,預測器預測目標文本的嵌入,損失在嵌入空間算。需要人類可讀輸出時,才用一個事后訓練的解碼器把預測嵌入翻成文本。

這為什么更高效呢?同一個物理事實在文本里有許多種說法。問"這蘑菇能吃嗎","別吃這個蘑菇""這蘑菇有毒""不,這蘑菇不安全"都對。token 空間里這幾句幾乎正交,訓練數據通常只含一種措辭,模型選了正確的另一種措辭反而被懲罰。嵌入空間里語義相近的句子被 Y-Encoder 映射到鄰近點,預測器只需命中"這蘑菇危險"對應的區域,換措辭不受罰。目標分布從多峰(峰之間支撐不相交)變成近似單峰,單峰分布好擬合得多。

實測的對照:同數據、同模型、同算力,5M 訓練樣本下 VLM 準確率約 20%,VL-JEPA 約 35%,相對提升約 75%。VL-JEPA 用 1.6B 參數在 GQA 上勝過 7B 的標準 VLM。在運動密集型基準上優勢最明顯——SSv2 上 19.3% vs PE-Core-G 的 9.0%——因為它的視覺表示來自純視覺預訓練,沒被"語言常描述什么"裁剪過。

順帶解決了實時視頻流。VLM 對每幀都要自回歸解碼整段答案,30fps 下根本來不及。VL-JEPA 每幀一次前向得到一個嵌入(O(1)),持續監控這條平滑的語義嵌入流,只在檢測到語義突變(‖?_Y^(t) - ?_Y^(t-1)‖ 超閾值)時才觸發解碼器,解碼調用減少 2.85×。智能眼鏡需要這種方法:常開監控視野,只在重要的事發生時才出聲

4.6 LeWorldModel:最干凈的端到端系統

ViT-Tiny 編碼器(約 5M 參數,CLS token 池化)加 Transformer 預測器(約 10M 參數,用 AdaLN 做動作條件),總計 15M 參數,單 GPU 幾小時訓完。它是第一個從像素端到端、帶可證明反坍縮保證(SIGReg)的 JEPA。

它的規劃速度優勢來自 token 數量。DINO-WM 用凍結 DINOv2,每幀約 200 個 patch token,H=25 步規劃每次 CEM 迭代要 200×25 = 5000 次 token 預測;LeWM 每幀 1 個 CLS token,同樣 25 步只要 25 次預測。結果是 LeWM 規劃快 48×。訓練后用線性探針能從它的潛空間讀出物體位置、速度、朝向、質量——它從像素-動作軌跡里隱式學到了牛頓定律,沒有任何物理標簽。


五、學到"真正的"世界模型的時間

一個世界模型要可信,它的內部表示必須對應世界真實的自由度。如果機器人的世界模型把物體位置和光照顏色纏在一起,把速度和紋理混在一起,那么線性探針讀不出真實狀態、潛空間距離不對應物理距離、潛空間里的規劃找不到物理上有意義的方案。

在什么條件下,學到的表示能線性恢復世界真實的隱變量?

設定如下。世界有隱變量 z ∈ ??(位置、速度、物體身份、光照……),我們從不直接觀察 z,一個未知非線性混合函數 g 生成觀察 x = g(z)(把 g 想成 3D 物理狀態到 2D 像素的渲染管線)。我們訓練編碼器 f,讓復合 h = f°g 在某個固有對稱性下恢復 z。線性可識別性即存在矩陣 Q 使 h(z) = Qz——這是線性探針能工作的必要條件。

理論假設高斯隱變量 z ~ N(0, I)(最大熵分布,且由中心極限定理,許多微觀變量的聚合趨于高斯),正樣本對之間是 Ornstein-Uhlenbeck 轉移 z' = ρz + √(1-ρ2)η,ρ 控制兩視圖的相關度。在這個設定下,轉移算子的本征函數恰好是 Hermite 多項式,d 次多項式的本征值是 ρ?。含義很關鍵:

  • ? 線性函數(d=1)最可預測,本征值 ρ

  • ? 二次(d=2)次之,本征值 ρ2

  • ? 更高的非線性,本征值 ρ? 指數級變小

任何帶單位方差的表示分量都能分解成 Hermite 多項式的加權和,其跨視圖相關 ≤ ρ,等號當且僅當該分量是線性的。任何對表示的非線性扭曲都會嚴格降低正樣本對之間的相關。


四個主要定理由此展開:

定理一(正向) 在高斯世界、OU 轉移下,最小化對齊損失并約束嵌入為 N(0,I),唯一的最優解是 h(z) = Qz,Q 是正交矩陣。要在保持嵌入高斯的同時最大化視圖一致,表示別無選擇,只能學成真實隱變量的一個旋轉/反射。
定理二(逆向) 如果每個滿足協方差為 I 的最優解都是線性的,那么 z 必須是高斯的。推論很實際——只匹配二階矩的 VICReg 不夠,只有匹配完整高斯的 SIGReg 才保證線性可識別性。把隱變量分布在廣義正態族里掃描,恢復 R2 在高斯(形狀參數 α=2)處尖銳地達到 0.999,偏離高斯則崩,且與用哪個正則項無關。
定理三(近似可識別性) 實踐中對齊和高斯約束都只近似滿足。定理給出恢復誤差隨近似誤差的縮放界,且界優雅退化——隨訓練收斂、兩個損失下降,恢復誤差單調下降。這讓 JEPA 的訓練損失第一次變得可解釋:損失越低,世界模型越好,不需要監督驗證集。
定理四(橋接) 若 h(z) = Qz,則對任何代價函數旋轉不變的有限時域最優控制問題,潛空間里的規劃等價于真實隱變量空間里的規劃。可識別性不是一個抽象的好性質,它是潛空間規劃能找到物理上正確方案的前提。
六、分層規劃:唯一還沒解決的硬骨頭

單層 JEPA 配 CEM/MPC 在短任務上能用,超過約 5 步就會失敗,原因有二。

其一是誤差累積。世界模型自回歸滾動,單步誤差 ε,H 步后誤差約 Hε(小 ε 下線性,最壞情況指數)。H=50 的任務,再準的預測器也會讓 rollout 偏離現實。其二是搜索空間爆炸。CEM 在 K×H×|action| 維連續空間里采樣,H=50、action_dim=7 就是 350 維,隨機樣本里含一條好軌跡的概率隨 H 指數下降。

最能說明問題的是拿取-放置任務。機械臂必須先朝物體移動(遠離目標、代價上升)才能抓取,再移向容器(代價下降)。短視的平坦規劃器看到第一步代價上升就拒絕,卡在原地或來回振蕩。VJEPA2-AC 配平坦 MPC 在這個任務上成功率 0%。

HWM(分層世界模型,Zhang 等,2026,FAIR/NYU)用兩層解決:

  • ?低層世界模型P?1?(z_{t+1} | z_t, a_t),處理原始動作,規劃時域 5-10 步,高時間分辨率

  • ?高層世界模型P?2?(z_{t+K} | z_t, l_t),處理潛宏動作 l_t(一段原始動作序列的壓縮表示),規劃時域 3-5 個宏步,低時間分辨率

兩個模型活在同一個編碼器產生的潛空間里。這是讓耦合干凈的關鍵設計——高層預測的中間狀態可直接作為低層規劃器的目標。規劃分兩段:高層在宏動作空間做 CEM,到達目標,產出一串中間潛子目標,第一個子目標 z?? 是機器人途中應當經過的路標;低層在原始動作空間做 CEM 去夠到 z??,執行前幾個動作,重規劃,子目標達成后推進到下一個。非貪心結構被高層捕捉,低層只需對子目標局部貪心。

是, 取下一子目標

觀察 o_current

編碼 z = E o

目標 z_goal = E o_goal

高層 CEM

宏動作計劃 l*

首個子目標 z?? = P2 z,l*?

低層 CEM

原始動作計劃 a*

執行前 k 個動作

子目標達成?

推進 z? → z??

總目標達成?

完成

結果:拿取-放置 HWM 70% vs 平坦 MPC 0%,并且勝過用 77× 更多機器人數據訓練的 VLA。開關抽屜 70% vs 30%,Push-T(DINO-WM)61% vs 17%,多樣迷宮(PLDM)83% vs 44%。


模式跨架構、跨任務一致:只要任務需要非貪心行為或長時域,分層就帶來大幅提升。HWM 是一個即插即用的規劃模塊,不重訓就能改進任何 JEPA 世界模型。


天花板在哪里?用外部提供的"神諭子目標"繞開高層規劃器,HWM 和平坦 MPC 都能到 80%。差距完全在高層規劃器產出子目標的質量上。剩下的開放問題:子目標質量、訓練時如何選路標(現在是固定步長,更有原則的做法是在潛速度 ‖z_{t+1}-z_t‖ 的局部極大處——狀態劇變的時刻——選路標)、以及最重要的,層級能否自發涌現而非手工指定。

一個人從紐約飛巴黎,會在至少四個抽象層次上規劃(去巴黎 → 到 JFK 登機 → 打車去機場 → 走到電梯按按鈕),最底層是無需規劃的反應式運動。他希望訓練分層 JEPA 時,低層學短時精細預測、高層學長時粗粒度預測,合適的層級結構會像 CNN 自發學出"邊緣→形狀→物體→場景"那樣涌現出來。慢特征分析理論給了這個猜想一些依據,但還沒有規模上的實證。HWM 是一個起點,目前只有兩層。

七、與大腦的對應

JEPA 與神經科學的對應:

預測編碼。大腦不被動接收感覺輸入,而主動預測它,用預測誤差更新內部模型。這套框架(Helmholtz 1867,Rao-Ballard 1999,Friston 2010 的自由能原理)和 JEPA 結構高度同構:自頂向下的預測信號對應預測器,自底向上的預測誤差對應預測損失,分層皮層區對應分層世界模型,注意力的顯著性加權對應掩碼預測目標。

嬰兒認知。發展心理學解釋"一個智能系統應當學會什么、多快學會"。給 6 個月大的嬰兒看小車被推下平臺后懸浮(違反重力),嬰兒不驚訝——還沒有重力的世界模型。給 10 個月大的嬰兒看同樣畫面,嬰兒明顯多盯著看——驚訝反應,說明已內化"無支撐物體會下落"。V-JEPA 在同類實驗里表現出相同行為:物理不可能事件處預測誤差飆升。它沒被喂過物理標簽,純訓練于視頻,就建起了 10 個月嬰兒那樣的原始直覺物理。10 個月大的嬰兒沒被訓練在標注物理數據集上,他們的世界模型完全通過觀察和互動學來。


System 1 與 System 2。Kahneman 的兩套系統直接映射到 JEPA 認知架構:System 1 是反應式策略(感知→立即行動,前饋網絡,無需世界模型,適合走路、伸手、接球),System 2 是通過優化規劃(世界模型 + CEM/MPC,在想象的動作序列上搜索,適合新任務和安全攸關決策)。LLM 只作為 System 1 運行,單次前向給出輸出,沒有真正的 System 2。成熟系統應當能動態切換——熟練技能交給 System 1(走向電梯),新情形啟用 System 2(規劃去巴黎)。

神經底物的對應。前額葉皮層對應世界模型(規劃、預測),海馬體對應情景/工作記憶,視覺皮層 V1-V5 對應編碼器(分層視覺特征),基底節對應代價函數,小腦對應低層運動世界模型(快速精確),杏仁核對應先天代價函數。小腦尤其值得注意——它維護一個極精確的身體力學前向模型(給定運動指令,我的手 50ms 后在哪),是運動控制層面的生物 JEPA,且在演化上非常古老,世界模型是脊椎動物大腦的一種基本計算策略。

前額葉皮層

世界模型 規劃/預測

海馬體

情景/工作記憶

視覺皮層 V1-V5

編碼器 分層特征

基底節

代價函數

小腦

低層運動世界模型

杏仁核

先天代價函數

從神經科學直接長出算法。Barlow Twins 是罕見的:Horace Barlow 1961 年關于視網膜神經節細胞去相關的神經科學論文,預言了最優圖像編碼器的結構,比能實現它的深度學習早了幾十年。

開放問題:意識與主觀體驗(JEPA 不涉及)、好奇心與內在動機(能否實現為獎勵訪問高預測誤差狀態的代價函數)、社會認知與心智理論(需要建模他人模型的高階世界模型)、語言習得的接地機制、睡眠與記憶鞏固。

八、硬件:當這套范式落地,芯片要變成什么樣

JEPA 對端側硬件的需求與 LLM 完全不同。講清楚需求差異,才談得上演化。

8.1 兩種截然不同的訪問模式

LLM 自回歸解碼,每生成一個 token,要把整個模型的權重過一遍內存總線。7B 模型為例:

計算量:~14 GFLOPs(矩陣-向量積,batch=1)
內存訪問:~14 GB(加載權重)
Arithmetic Intensity ≈ 1 FLOP/byte

H100 算力 1979 TFLOPS,帶寬 3.35 TB/s。在 1 FLOP/byte 工況下,算力利用率約 0.17%。HBM 存在的全部意義就是把這點利用率喂飽——每秒 5 TB 的帶寬,防止芯片餓死。LLM 推理是內存帶寬受限的工作負載。

JEPA 的訪問模式倒過來。CEM 規劃并行評估 K 條軌跡(K=500)、H 步(H=25),共 12,500 次預測器前向,全部共享同一套預測器權重。權重加載一次,K 條軌跡同時復用:

預測器權重(LeWorldModel):10M params ≈ 10 MB(INT8)
K=500 條軌跡激活:每條 ~4.6 KB,合計 ~2.3 MB
全程在片上 SRAM 內完成,DRAM 帶寬壓力近似為零
Arithmetic Intensity >> 100 FLOP/byte,算力利用率接近峰值

JEPA 不需要 HBM,需要的是足夠大的片上 SRAM。LLM 是"每生成一個 token 把 70GB 權重過一遍",JEPA 是"把權重加載一次然后 500 條軌跡并行復用",帶寬需求量級根本不同。

8.2 三大端側平臺的真實差距

用兩個核心負載橫評高通 Hexagon NPU(SD 8 Gen 4)、Apple ANE(M4)、NVIDIA Jetson Orin NX。

負載一:ViT Encoder 推理。三個平臺有個共同盲點——3D-RoPE。V-JEPA 2 的位置編碼要把 feature dimension 分成時間、空間H、空間W 三段分別旋轉,現有 NPU 的 RoPE 單元只實現了為語言模型設計的 1D 版本,3D 版本回退到通用矩陣乘法,效率降 3-5×。

平臺                 Encoder 單幀(含 3D-RoPE 降級)   功耗
Hexagon NPU ~15-25 ms ~5W
Apple ANE + Metal ~20-35 ms(Metal GPU 補位) ~2W
Jetson Orin NX GPU ~30-50 ms(CUDA 自定義 kernel) ~15W

Jetson 是唯一有 CUDA 自定義 kernel 能力的平臺,3D-RoPE 可針對性優化,純延遲上占優,代價是功耗。

負載二:CEM 規劃(K=500)。這是拉開差距的測試。Hexagon 的張量加速器設計上限 batch≤16,K=500 要分 4 批循環、無法流水線,實際 K 壓到約 150 才能進 100ms 預算,規劃質量損失約 40%。Apple ANE 要求編譯時定死 batch,CEM 需要的動態 K 它原生不支持,只能預編譯多份模型,切換有 5-10ms 開銷,K=500 跑不動只能降級到 Metal GPU(~200-300ms)。Jetson 的 CUDA 對 batch=500 無設計限制:

batch=500 預測器 TensorRT 推理:500 × 10 MFLOPs = 5 GFLOPs
@4.4 TOPS INT8:~1.1 ms/迭代,50 次迭代 ~55ms → 進 100ms 預算

Jetson Orin NX 是當下唯一能在實際功耗下跑完 V-JEPA 2-AC + CEM K=500 完整規劃循環的端側平臺,但 10-25W 功耗在穿戴場景是瓶頸。Hexagon 和 ANE 對 CEM 的支持都屬于"設計之外",需要繞路,2027-2028 架構更新后會改善。Apple 的統一內存有個被低估的優勢:ANE 和 GPU 共享同一塊物理 DRAM,切換計算路徑零拷貝,這在 ANE 擴大 SRAM、支持大 batch 之后會成為重要競爭力。


8.3 各類芯片的受力方向

NPU是最直接的受益者,也要做最大調整:片上 SRAM 從 4-16MB 擴到 32-64MB(容納 CEM 的大 batch 激活),增加 3D-RoPE 專用路徑,重組內部 SRAM 支持大 batch 并行推理。EMA 更新這類逐元素 scatter 操作對 MAC 陣列不友好,端側在線微調時需要專用向量單元或折交給 CPU SIMD。

CPUGPU 的服務員變成規劃循環的指揮者。HWM 兩層規劃需要 CPU 維護 CEM 的高斯分布參數、對 K 個分數排序選精英、更新分布、調度軌跡、判斷高低層切換。需求變化是低延遲核間通信(CPU 到 NPU 零拷貝傳 latent state)、確定性延遲(實時控制)、片上硬件 PRNG(CEM 每次迭代要生成上萬個高斯隨機數,軟件太慢)。

LPDDR崛起。JEPA 預測器參數小、訪問模式是"一次加載大量復用",帶寬不是瓶頸,端側 LPDDR5X(68 GB/s)理論上足以支撐 LeWorldModel 級別。LPDDR6(~130 GB/s,2027-2028)能讓 Encoder 權重加載快 2×,對 CEM 階段提升有限——真正的瓶頸是片上 SRAM 大小,不是片外帶寬。HBM 在訓練側維持,在 JEPA 推理服務器里的必要性下降。

8.4 RISC-V:實時規劃循環

HWM 的調度層需要持續運行、μs 級延遲:NPU 跑完一批推理后,讀 K 個分數、做 top-k、更新高斯分布、觸發下一次迭代。計算量小,但延遲必須確定。ARM Cortex-A 是亂序核,緩存缺失帶來 100μs 級隨機抖動,對 1000Hz 力傳感器中斷不可接受。

RISC-V 順序執行核(如 SiFive E/P 系列)有結構性優勢:無亂序緩沖區,中斷響應等于固定流水線深度(2-5 周期);開放 ISA 可加自定義指令服務 CEM 調度。

cem.topk  rd, rs1, K, elite_n     // K=500 分數 top-elite 排序,目標 <1μs
cem.gauss.update rd, rs1, rs2, n // 據精英樣本更新 (μ,σ),目標 <0.5μs
hwm.waypoint.set rs1 // 寫 waypoint 觸發低層重規劃,單周期

RISC-V V 向量擴展(512-bit SIMD)約 1000 周期完成 K=500 的 top-30 排序,@1.8GHz 約 0.55μs,且不占 NPU 資源——NPU 跑下一批推理時,RISC-V 同時處理上一批結果,兩者真正并行。預期 2027-2028 的機器人 SoC 會是三層異構:Cortex-A 跑 Linux/ROS 做高層協調,RISC-V 實時核跑 RTOS 做 CEM 調度和傳感器融合,NPU/ASIC 跑 Encoder 和預測器。


8.5 專用 CEM ASIC 的 dataflow

通用 NPU 撞到效率上限后,專用 ASIC 會出現。核心抉擇是 systolic array 還是 vector processor。CEM 的計算分兩類:GEMM 密集(預測器前向,K 條軌跡共享權重)和非 GEMM(LayerNorm、AdaLN、top-k、高斯更新、PRNG 采樣)。systolic array 只擅長 GEMM,vector processor 兩類都能但 GEMM 效率低。最優解是混合,且 systolic array 的 dataflow 必須選weight-stationary

Weight-Stationary:每個 PE 持有預測器權重的一個 tile,不動
K=500 條軌跡激活依次流過陣列
→ 權重在 K 條軌跡里完全復用,零重新加載
這正是 CEM 的計算結構


對比 Output-Stationary:每個 PE 持有一個輸出元素,權重和輸入都要動
需要 K×d ≈ 96,000 個 PE,面積不現實

四個模塊——systolic array、向量單元、CEM 控制器、PRNG——可以完全流水線化:陣列算第 i 次迭代的第 j 層時,向量單元處理 j-1 層的歸一化,控制器處理 i-1 次迭代的 top-k,PRNG 已在生成 i+1 次迭代的樣本。實現后 50 次迭代延遲≈單次迭代延遲,而非 50× 串行。

PRNG 單元是不可忽視的關鍵路徑。CEM 每次迭代要生成 K×H×action_dim = 500×25×7 = 87,500 個高斯隨機數。軟件 PRNG 約 875,000 周期 ≈ 875μs,超過單次迭代時間;硬件 PRNG(32 路并行 LFSR + Box-Muller 流水線)171 周期 ≈ 342ns,完全隱藏在陣列計算延遲內。單元面積 <0.2mm2(5nm),但去掉它,K=500 的 CEM 在端側實時運行的可能性直接歸零。

8.6 演化路線圖與能效約束

2026     Jetson Orin NX 唯一實用(機器人控制板)
Hexagon/ANE 跑 LeWorldModel 可行,CEM K 限于 100-150
2027-28 NPU 架構更新:SRAM 擴到 32-64MB,3D-RoPE 專用路徑
LPDDR6 量產,RISC-V 實時核進入機器人 SoC
2028-30 專用 CEM ASIC:weight-stationary 陣列 + 向量單元
預測器權重駐留 SRAM,硬件 PRNG,四模塊全流水線
2030+ 能效拐點:穿戴 1-5W 跑完整規劃循環
神經形態方向(Loihi/NorthPole 后繼)<0.1W

能效是最終約束。GPU 做 CEM 約 15-25W,設計良好的專用 ASIC 約 1-3W(10× 提升),神經形態推測 ~0.1W。穿戴預算 1-5W,工業機器人控制板 10-30W。LLM 時代芯片競爭圍繞"誰的內存帶寬更大",JEPA 時代轉向"誰能在有限 SRAM 里并行跑最多條規劃軌跡、同時功耗足夠低"。這一輪里 NPU 和專用 ASIC 比 GPU 受益更多,RISC-V 作為它們之間的實時連接器補上最后一塊。


九、時間表

預計行業在 2027 年前后開始承認這次范式轉移。AMI Labs 的近期計劃分兩步:頭一兩年把 JEPA 世界模型用于復雜工業控制——噴氣發動機、化工廠、電網、個性化醫療、材料與催化劑設計——這些領域方程寫不全,但有傳感器數據,學一個現象學動力學模型加規劃就能產生價值,而且人類沒法演示噴氣發動機控制,VLA 式行為克隆在這里不適用。這是 JEPA 在家用機器人解決之前的工業楔子。第三到五年擴展為智能機器人系統的主要供應商。

競爭對手——Physical Intelligence、DeepMind Robotics、Tesla Optimus——都在走 VLA 優先路線。AMI Labs是另一條路:JEPA 加分層規劃,不只是原則上更優,而是會在 VLA 路線觸頂之前先造出可商業部署的機器人。

標準是,家用機器人第一次被口頭告知去清晚餐桌,就能完成——像一個被吩咐收拾餐桌的 10 歲孩子。目前沒有任何系統接近這個目標。

過去十年,AI 領域癡迷于"蛋糕上的櫻桃"(強化學習),偶然靠 next-token prediction 實現了蛋糕底層的自監督學習,但只在語言這個離散域里。讓自監督學習在連續高維信號——視頻、傳感器流、物理世界——里也成立,在表示空間而非像素空間里預測,用優化來推理,把安全約束融合進優化問題本身。這同時會催生新的硬件迭代和爆發。a芯片還會繼續高歌猛進。

參考:ETH Zürich "Frontiers of Embodied AI" 演講、I-JEPA / V-JEPA / V-JEPA 2 / VL-JEPA / LeJEPA / LeWorldModel / HWM 論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

我愛英超
2026-07-02 22:05:30
早上7點 世界杯14億大戰!C羅深陷20年魔咒 必有1巨星出局

早上7點 世界杯14億大戰!C羅深陷20年魔咒 必有1巨星出局

葉青足球世界
2026-07-02 17:12:02
一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

借你一生
2026-07-02 10:26:03
成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

東京在線
2026-07-02 16:57:07
里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

往史過眼云煙
2026-07-02 09:55:26
首都保衛戰打響后,普京發表全國講話,俄羅斯對美西方發出通牒

首都保衛戰打響后,普京發表全國講話,俄羅斯對美西方發出通牒

策前論
2026-07-02 17:21:49
“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

林林先生
2026-07-01 12:30:03
從699分到愛心接力:少年向上 社會向善丨中聽

從699分到愛心接力:少年向上 社會向善丨中聽

大象新聞
2026-07-01 16:30:12
六代機,就這么明晃晃的官宣了!

六代機,就這么明晃晃的官宣了!

新動察
2026-07-02 08:25:58
韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

可達鴨面面觀
2026-07-02 19:44:03
曝38歲德國主帥下課 足協開會3小時要求他辭職 愿付700萬歐補償金

曝38歲德國主帥下課 足協開會3小時要求他辭職 愿付700萬歐補償金

我愛英超
2026-07-02 21:40:07
80%變0!里奇·保羅曝光詹姆斯離湖心路

80%變0!里奇·保羅曝光詹姆斯離湖心路

籃壇第一線
2026-07-02 00:47:17
地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

瀟湘晨報
2026-07-02 16:32:20
賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

背包旅行
2026-07-02 11:45:23
西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

李晚書
2026-07-02 18:44:26
故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

全景體育V
2026-07-02 21:38:20
成都一女子不洗手抱孫子,兒媳怒斥不衛生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

成都一女子不洗手抱孫子,兒媳怒斥不衛生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

背包旅行
2026-07-02 14:33:11
中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

極目新聞
2026-07-02 22:47:55
加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

證券時報
2026-07-02 21:53:03
扎哈羅娃:馮德萊恩是個“出色的騙子”

扎哈羅娃:馮德萊恩是個“出色的騙子”

參考消息
2026-07-02 14:14:08
2026-07-03 02:28:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4864文章數 37483關注度
往期回顧 全部

科技要聞

馬斯克不承認,但SpaceX就該造AI手機

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發工資

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發工資

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

眾星祝福祖國,曾沛慈原形畢露?

財經要聞

千億茶市場無贏家:瀾滄巨虧 八馬停"蹄"

汽車要聞

有純電有增程 還有二代VLA支持 小鵬MONA L03預售價14.38萬起

態度原創

時尚
親子
手機
房產
公開課

這個夏天,你一定吃過她們的瓜

親子要聞

從新生兒到學齡期全覆蓋:兒童被子成長型選型的策略與實用方法

手機要聞

Android 17缺的原生應用鎖功能,谷歌仍在持續打磨

房產要聞

稀缺預警!海岸線200米+限墅令下,海南「絕版硬通貨」來了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版