林方舟 發自 凹非寺
量子位 | 公眾號 QbitAI
具身智能正在經歷一場普遍的“水土不服”。
很多人發現,在模擬環境里表現優異的機器人,一旦進入真實工廠,往往立刻失靈。這是行業內最尷尬的現狀,也是整個具身賽道最核心的瓶頸:泛化能力。
換一個環境,可能就要重新采數據、重新訓練、重新交付。機器人學的始終是特定場景下的“經驗”,而非現象背后的“規律”。
在這一背景下,為了讓機器真正理解物理世界,構建“世界模型”逐漸成了具身大腦近年來最擁擠的賽道,各式技術路線層出不窮。
最近,有一家成立不久的公司——Aether AI,宣布完成2000萬美元種子輪融資,由經緯創投領投,英諾基金、SWC Global、九合創投參投。它的路線在業內幾乎是獨一份:不做視頻生成,不做3D重建,也不做JEPA,而是走了一條少有人走的路:因果世界模型。
這家公司認為,如今的主流大模型,本質上都是基于數據表層的相關性,而非底層的因果性,這在物理世界可能行不通。
簡單來說,它的因果世界模型想讓機器人像人類一樣,真正理解背后的機制和“為什么”,而不僅僅是推測“接下來最可能發生什么”。
如果將LLM、VLA、視頻生成模型等技術路線比作拼體格的相撲選手,力量來自更大的算力、參數和數據,因果世界模型更像是在練內功,通過底層的理論突破,試圖用更少的數據實現更強的泛化,“四兩撥千斤”。
都叫世界模型,但彼此并不一樣
先厘清一個問題:都以“世界模型”命名,因果世界模型和其它世界模型有什么區別?
Aether AI創始人、加州大學圣地亞哥分校(UCSD)助理教授黃碧薇,將當前行業內主流世界模型分為三條路線:
- 視頻生成路線:像素級渲染效果確實驚艷,但問題在于它擬合的只是畫面的表層相關性。畫面看上去合理,不代表物理上可行。一個杯子可以憑空穿過桌面,只要像素過渡平滑,模型就不會覺得有什么不對。這種路線做視頻可以,做精準控制不行。
- 3D生成路線:空間結構還原得很好,但它本質上是一個靜態的世界快照。時間維度上的動力學、因果交互,這一塊基本是缺失的。知道物體在哪,不等于知道它會怎么動、為什么動。
- JEPA路線:去掉像素解碼器,在隱空間做狀態轉移,思路很巧妙。但它沒有顯式地去拆解因果變量和結構,像摩擦力、接觸力這類精細交互信息,很容易在抽象過程中被丟失。
![]()
這些技術路線都在回答同一個問題:AI如何建立對現實世界的內部表征。但黃碧薇追問的是更底層的那個問題:物理世界為什么這樣演化?
從這個角度看,因果世界模型是第四條路線,側重在隱空間顯式學習因果變量、結構、動力學,掌握底層物理規律。它關心的不只是“下一步最可能發生什么”,還有“是什么導致了下一步的發生”。
在黃碧薇看來,因果世界模型才是世界模型的“終局形態”,是實現物理AGI的最優技術路線。
進一步拆開來看,因果世界模型包含三大核心要素:
第一,因果變量提取。從像素、傳感器這些原始數據里,拆出真正獨立的因果特征——物體的形狀、速度、角速度、摩擦力系數、表面粗糙度等等,這些變量是物理交互的基本單元。
第二,因果結構學習。建模不同變量之間的影響關系。手施加的力、角度、速度,如何共同決定抓取的成功率?這里沒有”端到端”的黑箱,結構是顯式的,可解釋的。
第三,因果動力學建模。學習系統統隨時間、動作的狀態轉移規律,這不是在擬合軌跡,而是在學習支配軌跡的規則,預測不同動作下下一時刻的世界狀態。
從完整的系統層面,Aether AI有四層架構:底層依然是Transformer——沒有重新發明輪子,因果并不排斥Transformer;中間層是因果世界模型和模塊化架構(類似MoE);最頂層是Agent系統。
這套架構被稱為“因果AI全棧架構”,從Transformer到Agent,需要注意的是,它不是給現有模型加因果“插件”,而是從Transformer到Agent系統,全部由因果思維驅動。
![]()
還有一點很關鍵:相較于VLA、WAM等其它模型,因果世界模型對數據幾乎沒有額外的要求。
Aether AI約80%數據使用的是模擬、第一視角和公開視頻數據,約20%使用遙操數據完成“最后一公里”。
面對同樣的數據,因果模型能從中提取出相關性模型讀不出來的深層信息。
實現這一點,靠的是因果世界模型背后的數學和統計理論,這恰恰也是其技術門檻所在。
從“找規律”到“懂原理”
為什么非做因果不可?
熟悉AI的人都知道,過去幾年,LLM的成功讓行業形成了一種樸素信仰:大力出奇跡,數據、算力、參數堆上去,智能就會涌現。
這套邏輯在語言世界確實奏效。原因很簡單:人類文明幾千年的知識已經被壓縮成了文字,模型只需要把語義表層的關聯學到極致,就足以顯得“智能”。
但物理世界不提供這種便利。
摩擦力、遮擋、角度、速度……每一項都可能改變機器人的行為結果,這些變量之間的關系,光靠“看數據”是學不出來的。
![]()
統計學里有一個著名的辛普森悖論:在腎結石治療案例中,如果忽略結石大小這個隱變量,同一份數據甚至會得出完全相反的結論。只看相關性,不看隱藏的成因,結論可以直接翻過來。
機器人面臨的是同樣的處境。物理世界遍布隱變量。VLA也好,WAM也好,全都有這個盲區。
在黃碧薇看來,LLM、VLA、WAM、視頻生成模型都屬于“相關性模型”。它們的共同特征是:擅長捕捉數據中的規律和相關性,但不理解數據生成的底層機制。
具體來說,相關性模型存在三個明顯的局限性:
第一,數據永遠不夠。語言可以被離散化為有限詞匯,但機器人面對的是連續的狀態空間和動作空間。物理世界的變量組合幾乎是無限的,而且每一次動作都會改變下一時刻的數據分布——這和數據獨立的機器學習假設完全沖突。
第二,場景永遠覆蓋不全。泛化性上不去,機器人就永遠被困在實驗室和精心布置的demo里。每換一個場景就得重來一遍,這本質上說明模型沒有學到真正通用的東西。
第三,物理世界需要干預,而不只是預測。語言模型輸出一個錯誤答案,世界不會因此改變。但機器人輸出一個錯誤的動作,物理世界就被不可逆地改寫了。被動地“猜下一個token”在語言上行得通,在物理上行不通。
所以,Aether AI的判斷是,物理AI的答案并非“相關性大模型”,而是“因果性大模型”。
當然,這個判斷有堅實的理論基礎。
圖靈獎得主Judea Pearl提出的“因果之梯”理論,把AI對世界的理解與推理能力劃分為由低到高的三個層級:關聯、干預、反事實。
今天的相關性模型只到了第一層。
舉個典型的例子。數據告訴我們,冰淇淋賣得越多,鯊魚攻擊事件也越多。對于這件事,是冰淇淋導致事故?還是背后有一個隱藏的混雜變量同時影響了兩者?相關性模型無法回答。
實際上,冰淇淋和鯊魚攻擊之間沒有因果關系,它們只是被同一個東西驅動——天氣熱。AI也是一樣的。如果AI只學數據里的相關性,它會得出很多看起來很聰明、實際上是錯的結論。這就是為什么我們需要因果。
![]()
因果性模型可以做到第二層和第三層,干預,是理解“如果我做這個動作,會發生什么”。反事實,是想象“如果當初沒有做這個動作,會怎樣”。
機器人一旦具備這種因果理解,泛化就變成了一個自然的結果。它理解的不是在這個場景這么做會成功,而是這個動作通過什么機制導致了那個結果。
機制不變,場景怎么變都能應對,就像被打通了任督二脈,長程任務執行能力也更出色。
Aether AI的內部數據驗證了這一點。在機器人操作任務上,因果世界模型相比傳統世界模型實現了25%-50%的成功率提升,以及5到10倍的樣本效率提升。在一些案例中,僅用50條高質量的數據,就能讓此前頻繁失敗的任務達到可靠的成功率。
黃碧薇稱,懂因果的模型,用20%的數據就能達到相關性模型100%數據的效果。
AI范式變革可能真的要來了
回到Aether AI這家公司,他們的野心不止于做一家機器人公司。
黃碧薇說:“OpenAI開創了LLM范式,我們要開創以因果世界模型為核心的下一代范式。”
這聽起來像是創業公司的標準敘事,但她背后的學術脈絡讓這件事有了不一樣的分量。
黃碧薇的因果研究始于德國馬普所,至今整整十三年。她的導師名單包括了因果發現奠基人Clark Glymour,以及第二代核心推動者Bernhard Sch?lkopf和Kun Zhang。幾十年來,三代因果發現學術成果的傳承,在這一刻匯聚到了一個創業項目上。
黃碧薇把AI的發展劃分為四個范式:相關性小模型→因果性小模型→相關性大模型→因果性大模型。
現在整個行業站在第三個范式上。Aether AI想把它推到第四個。
那么,為什么這件事,偏偏是Aether AI來做?
毫不夸張地說,在AI領域,因果學派一直處于“困難模式”。它對數學和統計的要求極高,真正深入這個領域的研究者極少。同時懂因果理論和工程落地的人,更是少之又少,和深度學習從業者完全不在一個量級。
這正是Aether AI最深的護城河。不是數據,不是算力,而是人——以及這些人背后多年的學術積淀。
從行業視角來看,VLA發展了幾年后,泛化性和數據的天花板已經實實在在地擺在眼前,市場對新路線有了真實的需求。因果理論在機器人場景的核心難題上也基本有了解法。再加上大模型工程能力和訓練基礎設施已經成熟,具身數據開始形成規模,成本在快速下降。
在這樣的背景下,Aether AI給自己定的目標不算保守:預期明年機器人具備較強泛化和長程任務能力;明年晚些時候,結合locomotion和manipulation,讓機器人在開放環境里既能走動又能完成操作任務;未來更進一步,讓機器人走向開放環境中的移動、操作和持續學習。
此次Aether AI融的是種子輪,通常代表從0到1的起步。對于資本而言,成熟路線拼執行,非共識路線賭范式。后者一旦成功,就是顛覆性的成果,而市場選擇了Aether AI,就是押注了后者。
對Aether AI來說,真正的分水嶺只有一個:能不能把因果基礎模型從理論優勢,轉化為機器人可量化的泛化能力、長程任務能力和數據效率——形成足夠厚、足夠深的商業壁壘,直到范式切換。
眼下各種具身大腦的技術路線都朝著“物理AI”這個終點狂奔,誰更接近目標,遠沒有答案。但在一個大家爭相模仿的技術語境里,有人從根上重新問了一遍“智能到底是什么”,這本身已經構成了一個值得被認真對待的信號。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.