![]()
編輯|+0
《三體》中有一個著名的「農場主假說」:農場主每天上午 11 點準時給火雞喂食,一只火雞科學家連續觀察一年后總結出「11 點必有食物」的規律。直到感恩節那天,農場主帶來的不再是食物,而是屠刀。
這個寓言的原型來自羅素關于歸納問題的「雞/火雞」寓言,它揭示了一個有趣的問題:從過去數據中總結出的相關性,并不等于對世界機制的理解。火雞的問題不只是樣本不夠多,而是它沒有理解「為什么被喂養」,也沒有意識到自己所處系統中的真實因果關系。
今天的 AI,在某種意義上也面臨類似處境。
過去幾年,大模型讓我們看到,規模化學習可以把模式識別推到前所未有的高度。模型可以從海量語料、圖像、視頻和機器人軌跡中學習復雜規律,并在許多任務上表現出驚人的泛化能力。
但當 AI 開始進入物理世界,環境不再是靜態數據集,行動也不再只是生成文本或像素。一次抓取、一次轉向,都會改變世界本身。因此,真正的問題不只是模型能否預測下一步,而是模型能否理解自己的行動會如何改寫世界。
Aether AI 正是從這一問題切入。
這家公司將自己的技術路線定義為「因果世界模型」(Causal World Models):相比只預測下一個狀態的世界模型,Aether AI 更關心模型能否識別真正影響結果的變量,理解變量之間的因果結構,并在采取行動前模擬不同干預可能帶來的后果。
![]()
第一個落地場景是 Physical AI——不造機器人本體,而是構建感知與控制之間的智能推理層,讓機器人在看到環境之后,不只是判斷「下一步最可能發生什么」,而是推演「如果我這樣做,世界會如何改變」。
圍繞這一目標,Aether AI 正在研發一套從底層表征到上層智能體決策的因果 AI 架構。它讓模型從相關性預測走向機制建模,從被動觀察走向主動干預,從「模仿過去見過的軌跡」走向「模擬干預后的后果」。
預測未來,是否等于理解因果?
過去三年,AI 在「預測下一步」這件事上取得了驚人的進展。大語言模型預測下一個 token,視頻生成模型預測下一段畫面,具身模型預測下一個動作,本質上都是從海量數據中學習統計規律,并在當前狀態下預測最可能發生什么。
在潛空間里做預測,是其中一個關鍵進步。以 Yann LeCun 提出的 JEPA 為例,它放棄像素級重建,轉而在抽象表征空間中預測缺失、被遮擋或未來的狀態表征,讓模型更集中地學習語義和結構性信息。
但預測做得再好,仍然有一個邊界:它回答的是「接下來大概率會發生什么」,而不是「為什么會發生」。
這兩者的區別,在數字世界里可能無關緊要。預測下一個詞錯了,重新生成就行。但在物理世界里,差距是結構性的。一輛自動駕駛汽車遇到訓練數據中極少出現的路面狀況,一個機械手面對形狀和材質完全不同的容器,一個機器人在長程任務中某一步偏離預期——在這些時刻,僅依賴歷史相關性會變得脆弱。
僅靠預測的 AI,至少會遇到四類問題:
- 哪些變量真正決定了結果?——統計模型可能知道打雷和下雨常一起出現,但未必知道背后的共同原因是雷暴天氣系統。
- 如果主動改變某個變量,結果如何變化?——普通預測模型只能在訓練分布覆蓋的范圍內外推;面對從未出現過的干預,需要更強的結構假設或因果模型。
- 當任務失敗時,應該追溯哪一個環節?——缺乏因果鏈時,系統往往只能看到狀態偏離預期,卻難以判斷失敗來自感知錯誤、抓取接觸、支撐關系、摩擦變化,還是上游規劃錯誤。
- 當環境改變時,哪些機制仍然成立?——表面相關關系容易隨環境變化失效;相對穩定的因果機制,才更可能支持跨環境泛化。
Aether AI 認為,僅在潛空間預測狀態變化仍然不夠。面向真實世界決策,模型還需要進一步識別具有穩定性的因果機制,并顯式處理干預、反事實和環境變化。
世界該如何表示,行動又如何改寫世界?
一個面向真實世界決策的 AI 系統,應該如何把「因果」寫進模型架構里?
不妨先看一個最簡單的機器人任務:推杯子。
機器人看到桌上有一個杯子,目標是把它推到指定位置。對一個傳統預測模型來說,它可以從大量視頻和軌跡中學到一種統計規律:機械臂從左往右移動,杯子大概率也會往右移動。但真實世界里的問題遠不止于此。杯子的材質、杯底形狀、桌面摩擦、接觸角度、推力大小、杯子是否裝水、旁邊是否有遮擋物,都會影響最終結果。
也就是說,機器人真正要學的不是「下一幀杯子大概率在哪里」,而是「哪些因素真正決定杯子會怎么動」。
Aether AI 并非在現有模型外部接一個解釋性的后處理模塊,而是把因果能力拆成三類基礎問題:世界應該被表示成哪些變量;這些變量之間如何相互影響;當智能體采取某個動作時,這個變量系統會如何演化。
這三類問題,可以概括為 Aether AI 技術路線中的三類核心能力:因果特征表示學習、因果結構發現和因果動力學建模。
圍繞這三類能力,團隊近期的多項研究分別落在任務中心世界模型、交互式物體操作、生成式決策和跨本體動作表示等方向上。它們共同指向同一個問題:如何讓機器人從狀態預測走向因果干預。
因果特征表示學習,解決的是「世界該被怎樣表示」。
在推杯子的場景里,普通視覺模型可能會把畫面壓縮成一個高維 embedding。這個 embedding 里既包含杯子位置、桌面邊界、機械臂姿態,也包含杯子顏色、桌布紋理、光照變化等信息。但對完成任務來說,并不是所有視覺細節都同等重要。
Aether AI 更關心的是:模型能否在隱空間中分離出真正影響任務結果的變量。比如杯子當前位置、目標位置、接觸點、桌面摩擦、杯子與機械臂之間的相對位置,這些才是機器人規劃動作時需要重點使用的因素。杯子的顏色、背景紋理,通常只是任務無關噪聲。
這也是團隊近期 TC-WM 工作所強調的方向。TC-WM 沒有直接把視覺基礎模型輸出的高維 embedding 當成最終狀態空間,而是將其壓縮成 compact、task-sufficient 的 latent dynamic space。換句話說,它不單純追求更強的視覺表征,而是在尋找「足夠表達任務、又不過度攜帶冗余信息」的任務中心動態表示。
![]()
- 論文標題:Back to Parsimonious Latents: Learning Task-Centric World Models from Visual Foundations
- 論文地址:https://arxiv.org/abs/2605.25620
因果結構發現,解決的是「變量之間誰影響誰」。
在推杯子的任務中,杯子最終移動了,可能是因為機械臂真正接觸到了杯子,也可能來自桌面傾斜、旁邊物體碰撞,或者杯子本身處在一個不穩定支撐狀態。如果模型只學習相關性,就可能把「機械臂靠近杯子」和「杯子移動」綁定在一起,卻沒有理解真正產生作用的是接觸、力傳遞和摩擦。
因果結構發現要解決的,就是從變量中識別真正的因果鏈條:哪些變量只是背景噪聲,哪些變量會真正改變結果;哪些相關關系只在當前場景成立,哪些機制在環境變化后仍然穩定。
這一步的理論基礎來自結構因果模型。一個因果系統并不只是變量集合,而是變量之間的生成機制。對機器人來說,關鍵不只是記錄「動作 A 后經常出現狀態 B」,而是理解動作 A 改變了哪些潛在變量,哪些變量又進一步改變了結果。
因果動力學建模,則進一步追問「行動之后世界如何變化」。
機器人每一次動作,本質上都是一次干預。推杯子并非單純觀察世界,還要主動改變世界。模型真正需要推演的是:如果從左側輕推,杯子會怎樣移動;如果從偏心位置用力推,杯子是否會旋轉;如果桌面摩擦變大,原來的動作是否還有效。
這也是 Aether AI 所說的因果世界模型與傳統世界模型的關鍵區別。傳統世界模型主要預測下一狀態;因果世界模型還要模擬不同干預會帶來的不同后果。
團隊近期關于交互式物體操作的研究,可以更具體地說明這一點。物體操作不是一條平滑連續的軌跡預測問題,接觸、抓取、推動、釋放等動作,會讓系統在不同動力學模式之間切換。模型如果忽略這些切換邊界,就容易在真正需要接觸和施力的階段失效。
在這項研究中,Interaction-weighted Resampling 通過圍繞接觸前、接觸中、接觸后的關鍵階段重采樣,讓模型更關注動力學模式發生變化的位置。實驗結果顯示,在一組交互密集型仿真任務中,該方法相比既有表示學習方法取得平均 19.8% 的性能提升;在部分交互稀疏或長程操作任務中,提升幅度超過 50%。在真實機器人空氣曲棍球實驗中,使用該方法訓練的策略將成功率從 25% 提升至 60%。
這組數據說明,物理世界中的樣本效率和成功率提升,不一定來自更多數據,而可能來自更有效地識別「哪些交互真正改變了結果」。
![]()
- 論文標題:Learning Object Manipulation from Scratch via Contrastive Interaction
- 論文地址:https://arxiv.org/abs/2606.11525
同樣的問題也出現在更復雜的決策任務中。團隊的 Ada-Diffuser 工作關注決策過程中的隱藏因素,認為環境轉移、獎勵結構和行為策略都可能受這些因素影響。因此,決策模型不僅要知道「什么軌跡看起來合理」,還要建模「哪些隱藏條件讓這條軌跡成立」。
![]()
- 論文標題:Ada-Diffuser: Latent-Aware Adaptive Diffusion for Decision-Making
- 論文地址:https://arxiv.org/abs/2605.16054
SCAR 則把 action 視為獨立表征因素,學習的不是某個機器人硬件的原始控制指令,而是動作造成的「可控變化」本身。
這樣,當模型遷移到不同機器人平臺時,遷移的就不只是具體控制命令,還有更抽象的動作效果。這也呼應了黃碧薇關于統一動作表示層的判斷:不同機器人雖然結構和控制方式不同,但如果能在抽象層面表示動作造成的世界變化,就有機會實現跨平臺遷移和泛化。
![]()
- 論文標題:SCAR: Self-Supervised Continuous Action Representation Learning
- 論文地址:https://arxiv.org/abs/2605.16412
從因果表征到智能體,讓 AI 學會干預世界
在這三類能力之上,Aether AI 用四層架構回答「這些能力如何落到系統中」。
如果說傳統機器人學習架構更多是在「感知—規劃—控制」的工程鏈路上優化,那么 Aether AI 的四層架構想要重寫的是模型理解世界的方式:從學習相關性,轉向識別因果變量;從記憶任務軌跡,轉向拆分可復用機制;從預測下一狀態,轉向模擬干預后果;從失敗后重試,轉向定位根因并恢復。
最底層是Causation Transformer。傳統 Transformer 擅長學習統計依賴,回答的是「在已有數據中,什么通常和什么一起發生」;Causation Transformer 要進一步識別因果影響,判斷「如果改變這里,結果是否會隨之改變」。
第二層是模塊化神經架構。傳統模塊化架構通常按工程流程拆分,比如感知、規劃、控制;Aether AI 的模塊化則按機制拆分,把接觸、支撐、重力、摩擦、動作影響等因果機制變成可復用、可組合、可遷移的模塊。這樣,當環境、物體或機器人本體變化時,模型不必從零記憶一條完整軌跡,而可以復用仍然成立的機制。
第三層是因果世界模型,也是 Aether AI 架構的核心。傳統世界模型通常學習狀態轉移:給定當前狀態和動作,預測下一狀態。因果世界模型則進一步追問:動作改變了哪些因果變量,這些變量如何傳導到結果,以及換一種干預會發生什么。對機器人來說,這意味著模型不只是預測下一幀畫面,還要在行動前模擬世界會如何被改變。
團隊此前關于任務充分世界模型的研究,也能說明這一點。僅靠被動觀察數據,很難知道哪些因素真正與任務有關;通過主動干預和環境課程,agent 可以收集更有信息量的軌跡,逐步暴露任務相關的潛在因素。這一思路也對應 Aether AI 所強調的主動數據收集、干預式模擬和任務泛化。
- 論文標題:Learning Task-Sufficient World Models via Intervention-Curriculum Co-Design
- 論文地址:https://openreview.net/forum?id=xFmxnyNYZJ
最頂層是因果驅動智能體系統。傳統 Agent 更依賴上下文記憶和任務序列,失敗后往往只記錄「哪一步沒有完成」,然后換一種動作重試;因果驅動智能體則要把因果世界模型用于規劃、歸因、記憶和恢復,判斷失敗來自感知誤差、動作偏差、環境變化,還是上游規劃錯誤。
團隊在因果表示強化學習方向上的工作,也說明了類似問題。它嘗試讓智能體學習潛在因果變量及其結構關系,從而判斷環境變化到底是普通分布偏移,還是狀態、動作或任務空間本身發生了變化。對真實部署來說,這一點很關鍵:機器人不只是要在訓練分布內表現良好,還要知道變化發生在哪里,并用少量新數據完成適配。
![]()
- 論文標題:Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations
- 論文地址:https://proceedings.iclr.cc/paper_files/paper/2025/hash/83c230118e9f6688ba8f20bfef99e6da-Abstract-Conference.html
由此,Aether AI 的目標不是讓 AI 更會「預測」,而是讓 AI 更懂「如何干預」。
Aether AI 與 JEPA 的關系,也可以放在這個框架下理解。二者都認為,AI 不應停留在像素級重建,而應在更抽象的表征空間中建模世界。區別在于,JEPA 主要解決從像素重建到表征預測的問題;Aether AI 則想繼續往前走,把表征預測推進到因果干預。
黃碧薇教授在訪談中也提到,Aether AI 與 JEPA 的一個關鍵區別在于:Aether AI 不會完全去掉 pixel decoder,而是保留有意義的 decoding;更重要的是,Aether AI 嘗試在隱空間中顯式分離因果變量,并學習變量之間的因果結構。
圈子里沒人創業,她決定親手把理論變成產品
創始人黃碧薇教授的學術路徑,是一條不斷「意外」走向更底層問題的路。
本科時,她曾在一門「人工神經網絡」課上接觸早期神經網絡。那還是深度學習大規模爆發之前的年代,網絡結構遠沒有今天復雜。她開始思考一個問題:能否從人腦機制中找到改進 AI 的靈感?
這個想法把她帶進了計算神經科學。此后,從上海中科院神經所的實驗室,到德國馬普所的碩士項目,她一路沿著「大腦如何計算」這個問題往下走。
轉折發生在馬普所的一次暑期學校。她聽到了 Bernhard Sch?lkopf 關于因果推理的講座。這個此前幾乎沒有接觸過的領域,后來成為她持續十余年的研究主線。
博士階段,她在 CMU 師從因果發現領域的重要學者 Kun Zhang 和 Clark Glymour。此后,她在因果發現、因果表示學習、因果推理和可泛化機器學習方向持續發表研究工作,也參與推動了 Causal-Learn、Causal-Copilot 等代表性工具,以及 CLeaR 因果學習與推理會議等學術社區建設。
![]()
黃碧薇與她的導師們以及其他因果領域學者。
在因果 AI 的學術世界里,黃碧薇已經是兼具深厚理論積累和工程化視野的代表性學者之一。
但學術做得越深,她越意識到一件事:理論能告訴你方向是對的,但只有實踐才能證明這個方向是走得通的。實驗室資源和工程條件有限,而她要驗證的東西——因果世界模型能否在物理世界中真正工作——需要遠超實驗室規模的工程投入。
過去,這件事并不容易發生。
一方面,因果 AI 長期更接近基礎研究。因果發現、因果推理、潛在結果等方法論派系各自深耕,但它們要進入復雜系統,需要足夠強的表征能力、足夠大的數據規模和足夠成熟的工程基礎。另一方面,過去的機器人和具身智能系統還沒有形成足夠清晰的落地窗口,許多問題仍停留在實驗室任務里,產業側對「因果」這類底層能力的需求并不顯性。
現在,窗口開始變化。
大模型證明了 Scale 的力量,也為 AI 系統提供了更強的感知、表征和生成能力。但當模型從數字世界走向物理世界,僅靠規模化預測的邊界也開始暴露:模型可以學習大量軌跡,卻未必知道哪些變量真正改變結果;可以模仿成功動作,卻未必能在環境變化后解釋失敗原因;可以生成看似合理的計劃,卻未必理解行動會如何改寫世界。
換句話說,大模型提供了新的底層能力,但它仍然缺少因果層。物理世界正在暴露 Scale without Structure 的危險:機器人模型換一個環境就失效,自動駕駛在訓練分布之外就可能變得脆弱,VLA 模型在長程任務中仍然面臨錯誤恢復和任務泛化難題。至少在 Aether AI 的判斷中,這些問題背后,是缺少因果結構帶來的系統性瓶頸。
與此同時,Physical AI 正在從概念走向落地。機器人、自動駕駛、工業自動化等系統開始進入更復雜、更開放的環境,泛化、長尾、失敗歸因和跨平臺遷移,正在從實驗室問題變成真實部署中的工程痛點。
這也是黃碧薇認為「現在」是把因果 AI 推向產業的時機的原因。因果 AI 不再只是一個學術問題,而開始成為物理世界 AI 系統能否真正泛化、恢復和可靠部署的工程問題。
「真正核心圈子里,沒有人創業。」黃碧薇這樣描述因果 AI 學術界的現狀。因果發現、因果推理、潛在結果等方法論長期各自深耕,但很少有人將它們融會貫通,并進一步帶到真實工程系統中接受檢驗。
她選擇從 Physical AI 切入,因為那是因果推理最硬核的課題。在物理世界里,每一次機器人動作都是一次干預,每一步失誤都立刻暴露,正如她所說:「機器人不會原諒統計捷徑。
跨過預測的邊界
Physical AI 真正的難處,是讓機器人在沒見過的場景里,仍然分得清什么會改變結果、什么只是背景噪聲。
Aether AI 的判斷是,進入物理世界后,AI 不能只學習「過去通常怎樣」,還必須理解「什么真正改變結果」。因果世界模型要補上的,正是從預測未來到干預未來之間的這一層。
回到那只火雞。它的失敗不是因為不會預測,而是把重復發生的事誤認為世界機制。AI 如果想避免成為一只更復雜的火雞,也必須跨過這一步。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.