網易首頁 > 網易號 > 正文申請入駐

世界模型來了因果技術標桿！具身大腦真要長腦子了

2026-07-02 12:31:33　來源: 量子位

河北舉報

分享至

林方舟發自凹非寺
量子位 | 公眾號 QbitAI

具身智能正在經歷一場普遍的“水土不服”。

很多人發現，在模擬環境里表現優異的機器人，一旦進入真實工廠，往往立刻失靈。這是行業內最尷尬的現狀，也是整個具身賽道最核心的瓶頸：泛化能力。

換一個環境，可能就要重新采數據、重新訓練、重新交付。機器人學的始終是特定場景下的“經驗”，而非現象背后的“規律”。

在這一背景下，為了讓機器真正理解物理世界，構建“世界模型”逐漸成了具身大腦近年來最擁擠的賽道，各式技術路線層出不窮。

最近，有一家成立不久的公司——Aether AI，宣布完成2000萬美元種子輪融資，由經緯創投領投，英諾基金、SWC Global、九合創投參投。它的路線在業內幾乎是獨一份：不做視頻生成，不做3D重建，也不做JEPA，而是走了一條少有人走的路：因果世界模型。

這家公司認為，如今的主流大模型，本質上都是基于數據表層的相關性，而非底層的因果性，這在物理世界可能行不通。

簡單來說，它的因果世界模型想讓機器人像人類一樣，真正理解背后的機制和“為什么”，而不僅僅是推測“接下來最可能發生什么”。

如果將LLM、VLA、視頻生成模型等技術路線比作拼體格的相撲選手，力量來自更大的算力、參數和數據，因果世界模型更像是在練內功，通過底層的理論突破，試圖用更少的數據實現更強的泛化，“四兩撥千斤”。

都叫世界模型，但彼此并不一樣

先厘清一個問題：都以“世界模型”命名，因果世界模型和其它世界模型有什么區別？

Aether AI創始人、加州大學圣地亞哥分校（UCSD）助理教授黃碧薇，將當前行業內主流世界模型分為三條路線：

視頻生成路線：像素級渲染效果確實驚艷，但問題在于它擬合的只是畫面的表層相關性。畫面看上去合理，不代表物理上可行。一個杯子可以憑空穿過桌面，只要像素過渡平滑，模型就不會覺得有什么不對。這種路線做視頻可以，做精準控制不行。
3D生成路線：空間結構還原得很好，但它本質上是一個靜態的世界快照。時間維度上的動力學、因果交互，這一塊基本是缺失的。知道物體在哪，不等于知道它會怎么動、為什么動。
JEPA路線：去掉像素解碼器，在隱空間做狀態轉移，思路很巧妙。但它沒有顯式地去拆解因果變量和結構，像摩擦力、接觸力這類精細交互信息，很容易在抽象過程中被丟失。

這些技術路線都在回答同一個問題：AI如何建立對現實世界的內部表征。但黃碧薇追問的是更底層的那個問題：物理世界為什么這樣演化？

從這個角度看，因果世界模型是第四條路線，側重在隱空間顯式學習因果變量、結構、動力學，掌握底層物理規律。它關心的不只是“下一步最可能發生什么”，還有“是什么導致了下一步的發生”。

在黃碧薇看來，因果世界模型才是世界模型的“終局形態”，是實現物理AGI的最優技術路線。

進一步拆開來看，因果世界模型包含三大核心要素：

第一，因果變量提取。從像素、傳感器這些原始數據里，拆出真正獨立的因果特征——物體的形狀、速度、角速度、摩擦力系數、表面粗糙度等等，這些變量是物理交互的基本單元。

第二，因果結構學習。建模不同變量之間的影響關系。手施加的力、角度、速度，如何共同決定抓取的成功率？這里沒有”端到端”的黑箱，結構是顯式的，可解釋的。

第三，因果動力學建模。學習系統統隨時間、動作的狀態轉移規律，這不是在擬合軌跡，而是在學習支配軌跡的規則，預測不同動作下下一時刻的世界狀態。

從完整的系統層面，Aether AI有四層架構：底層依然是Transformer——沒有重新發明輪子，因果并不排斥Transformer；中間層是因果世界模型和模塊化架構（類似MoE）；最頂層是Agent系統。

這套架構被稱為“因果AI全棧架構”，從Transformer到Agent，需要注意的是，它不是給現有模型加因果“插件”，而是從Transformer到Agent系統，全部由因果思維驅動。

還有一點很關鍵：相較于VLA、WAM等其它模型，因果世界模型對數據幾乎沒有額外的要求。

Aether AI約80%數據使用的是模擬、第一視角和公開視頻數據，約20%使用遙操數據完成“最后一公里”。

面對同樣的數據，因果模型能從中提取出相關性模型讀不出來的深層信息。

實現這一點，靠的是因果世界模型背后的數學和統計理論，這恰恰也是其技術門檻所在。

從“找規律”到“懂原理”

為什么非做因果不可？

熟悉AI的人都知道，過去幾年，LLM的成功讓行業形成了一種樸素信仰：大力出奇跡，數據、算力、參數堆上去，智能就會涌現。

這套邏輯在語言世界確實奏效。原因很簡單：人類文明幾千年的知識已經被壓縮成了文字，模型只需要把語義表層的關聯學到極致，就足以顯得“智能”。

但物理世界不提供這種便利。

摩擦力、遮擋、角度、速度……每一項都可能改變機器人的行為結果，這些變量之間的關系，光靠“看數據”是學不出來的。

統計學里有一個著名的辛普森悖論：在腎結石治療案例中，如果忽略結石大小這個隱變量，同一份數據甚至會得出完全相反的結論。只看相關性，不看隱藏的成因，結論可以直接翻過來。

機器人面臨的是同樣的處境。物理世界遍布隱變量。VLA也好，WAM也好，全都有這個盲區。

在黃碧薇看來，LLM、VLA、WAM、視頻生成模型都屬于“相關性模型”。它們的共同特征是：擅長捕捉數據中的規律和相關性，但不理解數據生成的底層機制。

具體來說，相關性模型存在三個明顯的局限性：

第一，數據永遠不夠。語言可以被離散化為有限詞匯，但機器人面對的是連續的狀態空間和動作空間。物理世界的變量組合幾乎是無限的，而且每一次動作都會改變下一時刻的數據分布——這和數據獨立的機器學習假設完全沖突。

第二，場景永遠覆蓋不全。泛化性上不去，機器人就永遠被困在實驗室和精心布置的demo里。每換一個場景就得重來一遍，這本質上說明模型沒有學到真正通用的東西。

第三，物理世界需要干預，而不只是預測。語言模型輸出一個錯誤答案，世界不會因此改變。但機器人輸出一個錯誤的動作，物理世界就被不可逆地改寫了。被動地“猜下一個token”在語言上行得通，在物理上行不通。

所以，Aether AI的判斷是，物理AI的答案并非“相關性大模型”，而是“因果性大模型”。

當然，這個判斷有堅實的理論基礎。

圖靈獎得主Judea Pearl提出的“因果之梯”理論，把AI對世界的理解與推理能力劃分為由低到高的三個層級：關聯、干預、反事實。

今天的相關性模型只到了第一層。

舉個典型的例子。數據告訴我們，冰淇淋賣得越多，鯊魚攻擊事件也越多。對于這件事，是冰淇淋導致事故？還是背后有一個隱藏的混雜變量同時影響了兩者？相關性模型無法回答。

實際上，冰淇淋和鯊魚攻擊之間沒有因果關系，它們只是被同一個東西驅動——天氣熱。AI也是一樣的。如果AI只學數據里的相關性，它會得出很多看起來很聰明、實際上是錯的結論。這就是為什么我們需要因果。

因果性模型可以做到第二層和第三層，干預，是理解“如果我做這個動作，會發生什么”。反事實，是想象“如果當初沒有做這個動作，會怎樣”。

機器人一旦具備這種因果理解，泛化就變成了一個自然的結果。它理解的不是在這個場景這么做會成功，而是這個動作通過什么機制導致了那個結果。

機制不變，場景怎么變都能應對，就像被打通了任督二脈，長程任務執行能力也更出色。

Aether AI的內部數據驗證了這一點。在機器人操作任務上，因果世界模型相比傳統世界模型實現了25%-50%的成功率提升，以及5到10倍的樣本效率提升。在一些案例中，僅用50條高質量的數據，就能讓此前頻繁失敗的任務達到可靠的成功率。

黃碧薇稱，懂因果的模型，用20%的數據就能達到相關性模型100%數據的效果。

AI范式變革可能真的要來了

回到Aether AI這家公司，他們的野心不止于做一家機器人公司。

黃碧薇說：“OpenAI開創了LLM范式，我們要開創以因果世界模型為核心的下一代范式。”

這聽起來像是創業公司的標準敘事，但她背后的學術脈絡讓這件事有了不一樣的分量。

黃碧薇的因果研究始于德國馬普所，至今整整十三年。她的導師名單包括了因果發現奠基人Clark Glymour，以及第二代核心推動者Bernhard Sch?lkopf和Kun Zhang。幾十年來，三代因果發現學術成果的傳承，在這一刻匯聚到了一個創業項目上。

黃碧薇把AI的發展劃分為四個范式：相關性小模型→因果性小模型→相關性大模型→因果性大模型。

現在整個行業站在第三個范式上。Aether AI想把它推到第四個。

那么，為什么這件事，偏偏是Aether AI來做？

毫不夸張地說，在AI領域，因果學派一直處于“困難模式”。它對數學和統計的要求極高，真正深入這個領域的研究者極少。同時懂因果理論和工程落地的人，更是少之又少，和深度學習從業者完全不在一個量級。

這正是Aether AI最深的護城河。不是數據，不是算力，而是人——以及這些人背后多年的學術積淀。

從行業視角來看，VLA發展了幾年后，泛化性和數據的天花板已經實實在在地擺在眼前，市場對新路線有了真實的需求。因果理論在機器人場景的核心難題上也基本有了解法。再加上大模型工程能力和訓練基礎設施已經成熟，具身數據開始形成規模，成本在快速下降。

在這樣的背景下，Aether AI給自己定的目標不算保守：預期明年機器人具備較強泛化和長程任務能力；明年晚些時候，結合locomotion和manipulation，讓機器人在開放環境里既能走動又能完成操作任務；未來更進一步，讓機器人走向開放環境中的移動、操作和持續學習。

此次Aether AI融的是種子輪，通常代表從0到1的起步。對于資本而言，成熟路線拼執行，非共識路線賭范式。后者一旦成功，就是顛覆性的成果，而市場選擇了Aether AI，就是押注了后者。

對Aether AI來說，真正的分水嶺只有一個：能不能把因果基礎模型從理論優勢，轉化為機器人可量化的泛化能力、長程任務能力和數據效率——形成足夠厚、足夠深的商業壁壘，直到范式切換。

眼下各種具身大腦的技術路線都朝著“物理AI”這個終點狂奔，誰更接近目標，遠沒有答案。但在一個大家爭相模仿的技術語境里，有人從根上重新問了一遍“智能到底是什么”，這本身已經構成了一個值得被認真對待的信號。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.