網易首頁 > 網易號 > 正文申請入駐

從預測到干預，Aether AI為什么押注因果世界模型？

2026-06-24 12:19:39　來源: 機器之心Pro

河北舉報

分享至

編輯｜+0

《三體》中有一個著名的「農場主假說」：農場主每天上午 11 點準時給火雞喂食，一只火雞科學家連續觀察一年后總結出「11 點必有食物」的規律。直到感恩節那天，農場主帶來的不再是食物，而是屠刀。

這個寓言的原型來自羅素關于歸納問題的「雞/火雞」寓言，它揭示了一個有趣的問題：從過去數據中總結出的相關性，并不等于對世界機制的理解。火雞的問題不只是樣本不夠多，而是它沒有理解「為什么被喂養」，也沒有意識到自己所處系統中的真實因果關系。

今天的 AI，在某種意義上也面臨類似處境。

過去幾年，大模型讓我們看到，規模化學習可以把模式識別推到前所未有的高度。模型可以從海量語料、圖像、視頻和機器人軌跡中學習復雜規律，并在許多任務上表現出驚人的泛化能力。

但當 AI 開始進入物理世界，環境不再是靜態數據集，行動也不再只是生成文本或像素。一次抓取、一次轉向，都會改變世界本身。因此，真正的問題不只是模型能否預測下一步，而是模型能否理解自己的行動會如何改寫世界。

Aether AI 正是從這一問題切入。

這家公司將自己的技術路線定義為「因果世界模型」（Causal World Models）：相比只預測下一個狀態的世界模型，Aether AI 更關心模型能否識別真正影響結果的變量，理解變量之間的因果結構，并在采取行動前模擬不同干預可能帶來的后果。

第一個落地場景是 Physical AI——不造機器人本體，而是構建感知與控制之間的智能推理層，讓機器人在看到環境之后，不只是判斷「下一步最可能發生什么」，而是推演「如果我這樣做，世界會如何改變」。

圍繞這一目標，Aether AI 正在研發一套從底層表征到上層智能體決策的因果 AI 架構。它讓模型從相關性預測走向機制建模，從被動觀察走向主動干預，從「模仿過去見過的軌跡」走向「模擬干預后的后果」。

預測未來，是否等于理解因果？

過去三年，AI 在「預測下一步」這件事上取得了驚人的進展。大語言模型預測下一個 token，視頻生成模型預測下一段畫面，具身模型預測下一個動作，本質上都是從海量數據中學習統計規律，并在當前狀態下預測最可能發生什么。

在潛空間里做預測，是其中一個關鍵進步。以 Yann LeCun 提出的 JEPA 為例，它放棄像素級重建，轉而在抽象表征空間中預測缺失、被遮擋或未來的狀態表征，讓模型更集中地學習語義和結構性信息。

但預測做得再好，仍然有一個邊界：它回答的是「接下來大概率會發生什么」，而不是「為什么會發生」。

這兩者的區別，在數字世界里可能無關緊要。預測下一個詞錯了，重新生成就行。但在物理世界里，差距是結構性的。一輛自動駕駛汽車遇到訓練數據中極少出現的路面狀況，一個機械手面對形狀和材質完全不同的容器，一個機器人在長程任務中某一步偏離預期——在這些時刻，僅依賴歷史相關性會變得脆弱。

僅靠預測的 AI，至少會遇到四類問題：

哪些變量真正決定了結果？——統計模型可能知道打雷和下雨常一起出現，但未必知道背后的共同原因是雷暴天氣系統。
如果主動改變某個變量，結果如何變化？——普通預測模型只能在訓練分布覆蓋的范圍內外推；面對從未出現過的干預，需要更強的結構假設或因果模型。
當任務失敗時，應該追溯哪一個環節？——缺乏因果鏈時，系統往往只能看到狀態偏離預期，卻難以判斷失敗來自感知錯誤、抓取接觸、支撐關系、摩擦變化，還是上游規劃錯誤。
當環境改變時，哪些機制仍然成立？——表面相關關系容易隨環境變化失效；相對穩定的因果機制，才更可能支持跨環境泛化。

Aether AI 認為，僅在潛空間預測狀態變化仍然不夠。面向真實世界決策，模型還需要進一步識別具有穩定性的因果機制，并顯式處理干預、反事實和環境變化。

世界該如何表示，行動又如何改寫世界？

一個面向真實世界決策的 AI 系統，應該如何把「因果」寫進模型架構里？

不妨先看一個最簡單的機器人任務：推杯子。

機器人看到桌上有一個杯子，目標是把它推到指定位置。對一個傳統預測模型來說，它可以從大量視頻和軌跡中學到一種統計規律：機械臂從左往右移動，杯子大概率也會往右移動。但真實世界里的問題遠不止于此。杯子的材質、杯底形狀、桌面摩擦、接觸角度、推力大小、杯子是否裝水、旁邊是否有遮擋物，都會影響最終結果。

也就是說，機器人真正要學的不是「下一幀杯子大概率在哪里」，而是「哪些因素真正決定杯子會怎么動」。

Aether AI 并非在現有模型外部接一個解釋性的后處理模塊，而是把因果能力拆成三類基礎問題：世界應該被表示成哪些變量；這些變量之間如何相互影響；當智能體采取某個動作時，這個變量系統會如何演化。

這三類問題，可以概括為 Aether AI 技術路線中的三類核心能力：因果特征表示學習、因果結構發現和因果動力學建模。

圍繞這三類能力，團隊近期的多項研究分別落在任務中心世界模型、交互式物體操作、生成式決策和跨本體動作表示等方向上。它們共同指向同一個問題：如何讓機器人從狀態預測走向因果干預。

因果特征表示學習，解決的是「世界該被怎樣表示」。

在推杯子的場景里，普通視覺模型可能會把畫面壓縮成一個高維 embedding。這個 embedding 里既包含杯子位置、桌面邊界、機械臂姿態，也包含杯子顏色、桌布紋理、光照變化等信息。但對完成任務來說，并不是所有視覺細節都同等重要。

Aether AI 更關心的是：模型能否在隱空間中分離出真正影響任務結果的變量。比如杯子當前位置、目標位置、接觸點、桌面摩擦、杯子與機械臂之間的相對位置，這些才是機器人規劃動作時需要重點使用的因素。杯子的顏色、背景紋理，通常只是任務無關噪聲。

這也是團隊近期 TC-WM 工作所強調的方向。TC-WM 沒有直接把視覺基礎模型輸出的高維 embedding 當成最終狀態空間，而是將其壓縮成 compact、task-sufficient 的 latent dynamic space。換句話說，它不單純追求更強的視覺表征，而是在尋找「足夠表達任務、又不過度攜帶冗余信息」的任務中心動態表示。

論文標題：Back to Parsimonious Latents: Learning Task-Centric World Models from Visual Foundations
論文地址：https://arxiv.org/abs/2605.25620

因果結構發現，解決的是「變量之間誰影響誰」。

在推杯子的任務中，杯子最終移動了，可能是因為機械臂真正接觸到了杯子，也可能來自桌面傾斜、旁邊物體碰撞，或者杯子本身處在一個不穩定支撐狀態。如果模型只學習相關性，就可能把「機械臂靠近杯子」和「杯子移動」綁定在一起，卻沒有理解真正產生作用的是接觸、力傳遞和摩擦。

因果結構發現要解決的，就是從變量中識別真正的因果鏈條：哪些變量只是背景噪聲，哪些變量會真正改變結果；哪些相關關系只在當前場景成立，哪些機制在環境變化后仍然穩定。

這一步的理論基礎來自結構因果模型。一個因果系統并不只是變量集合，而是變量之間的生成機制。對機器人來說，關鍵不只是記錄「動作 A 后經常出現狀態 B」，而是理解動作 A 改變了哪些潛在變量，哪些變量又進一步改變了結果。

因果動力學建模，則進一步追問「行動之后世界如何變化」。

機器人每一次動作，本質上都是一次干預。推杯子并非單純觀察世界，還要主動改變世界。模型真正需要推演的是：如果從左側輕推，杯子會怎樣移動；如果從偏心位置用力推，杯子是否會旋轉；如果桌面摩擦變大，原來的動作是否還有效。

這也是 Aether AI 所說的因果世界模型與傳統世界模型的關鍵區別。傳統世界模型主要預測下一狀態；因果世界模型還要模擬不同干預會帶來的不同后果。

團隊近期關于交互式物體操作的研究，可以更具體地說明這一點。物體操作不是一條平滑連續的軌跡預測問題，接觸、抓取、推動、釋放等動作，會讓系統在不同動力學模式之間切換。模型如果忽略這些切換邊界，就容易在真正需要接觸和施力的階段失效。

在這項研究中，Interaction-weighted Resampling 通過圍繞接觸前、接觸中、接觸后的關鍵階段重采樣，讓模型更關注動力學模式發生變化的位置。實驗結果顯示，在一組交互密集型仿真任務中，該方法相比既有表示學習方法取得平均 19.8% 的性能提升；在部分交互稀疏或長程操作任務中，提升幅度超過 50%。在真實機器人空氣曲棍球實驗中，使用該方法訓練的策略將成功率從 25% 提升至 60%。

這組數據說明，物理世界中的樣本效率和成功率提升，不一定來自更多數據，而可能來自更有效地識別「哪些交互真正改變了結果」。

論文標題：Learning Object Manipulation from Scratch via Contrastive Interaction
論文地址：https://arxiv.org/abs/2606.11525

同樣的問題也出現在更復雜的決策任務中。團隊的 Ada-Diffuser 工作關注決策過程中的隱藏因素，認為環境轉移、獎勵結構和行為策略都可能受這些因素影響。因此，決策模型不僅要知道「什么軌跡看起來合理」，還要建模「哪些隱藏條件讓這條軌跡成立」。

論文標題：Ada-Diffuser: Latent-Aware Adaptive Diffusion for Decision-Making
論文地址：https://arxiv.org/abs/2605.16054

SCAR 則把 action 視為獨立表征因素，學習的不是某個機器人硬件的原始控制指令，而是動作造成的「可控變化」本身。

這樣，當模型遷移到不同機器人平臺時，遷移的就不只是具體控制命令，還有更抽象的動作效果。這也呼應了黃碧薇關于統一動作表示層的判斷：不同機器人雖然結構和控制方式不同，但如果能在抽象層面表示動作造成的世界變化，就有機會實現跨平臺遷移和泛化。

論文標題：SCAR: Self-Supervised Continuous Action Representation Learning
論文地址：https://arxiv.org/abs/2605.16412

從因果表征到智能體，讓 AI 學會干預世界

在這三類能力之上，Aether AI 用四層架構回答「這些能力如何落到系統中」。

如果說傳統機器人學習架構更多是在「感知—規劃—控制」的工程鏈路上優化，那么 Aether AI 的四層架構想要重寫的是模型理解世界的方式：從學習相關性，轉向識別因果變量；從記憶任務軌跡，轉向拆分可復用機制；從預測下一狀態，轉向模擬干預后果；從失敗后重試，轉向定位根因并恢復。

最底層是Causation Transformer。傳統 Transformer 擅長學習統計依賴，回答的是「在已有數據中，什么通常和什么一起發生」；Causation Transformer 要進一步識別因果影響，判斷「如果改變這里，結果是否會隨之改變」。

第二層是模塊化神經架構。傳統模塊化架構通常按工程流程拆分，比如感知、規劃、控制；Aether AI 的模塊化則按機制拆分，把接觸、支撐、重力、摩擦、動作影響等因果機制變成可復用、可組合、可遷移的模塊。這樣，當環境、物體或機器人本體變化時，模型不必從零記憶一條完整軌跡，而可以復用仍然成立的機制。

第三層是因果世界模型，也是 Aether AI 架構的核心。傳統世界模型通常學習狀態轉移：給定當前狀態和動作，預測下一狀態。因果世界模型則進一步追問：動作改變了哪些因果變量，這些變量如何傳導到結果，以及換一種干預會發生什么。對機器人來說，這意味著模型不只是預測下一幀畫面，還要在行動前模擬世界會如何被改變。

團隊此前關于任務充分世界模型的研究，也能說明這一點。僅靠被動觀察數據，很難知道哪些因素真正與任務有關；通過主動干預和環境課程，agent 可以收集更有信息量的軌跡，逐步暴露任務相關的潛在因素。這一思路也對應 Aether AI 所強調的主動數據收集、干預式模擬和任務泛化。

論文標題：Learning Task-Sufficient World Models via Intervention-Curriculum Co-Design
論文地址：https://openreview.net/forum?id=xFmxnyNYZJ

最頂層是因果驅動智能體系統。傳統 Agent 更依賴上下文記憶和任務序列，失敗后往往只記錄「哪一步沒有完成」，然后換一種動作重試；因果驅動智能體則要把因果世界模型用于規劃、歸因、記憶和恢復，判斷失敗來自感知誤差、動作偏差、環境變化，還是上游規劃錯誤。

團隊在因果表示強化學習方向上的工作，也說明了類似問題。它嘗試讓智能體學習潛在因果變量及其結構關系，從而判斷環境變化到底是普通分布偏移，還是狀態、動作或任務空間本身發生了變化。對真實部署來說，這一點很關鍵：機器人不只是要在訓練分布內表現良好，還要知道變化發生在哪里，并用少量新數據完成適配。

論文標題：Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations
論文地址：https://proceedings.iclr.cc/paper_files/paper/2025/hash/83c230118e9f6688ba8f20bfef99e6da-Abstract-Conference.html

由此，Aether AI 的目標不是讓 AI 更會「預測」，而是讓 AI 更懂「如何干預」。

Aether AI 與 JEPA 的關系，也可以放在這個框架下理解。二者都認為，AI 不應停留在像素級重建，而應在更抽象的表征空間中建模世界。區別在于，JEPA 主要解決從像素重建到表征預測的問題；Aether AI 則想繼續往前走，把表征預測推進到因果干預。

黃碧薇教授在訪談中也提到，Aether AI 與 JEPA 的一個關鍵區別在于：Aether AI 不會完全去掉 pixel decoder，而是保留有意義的 decoding；更重要的是，Aether AI 嘗試在隱空間中顯式分離因果變量，并學習變量之間的因果結構。

圈子里沒人創業，她決定親手把理論變成產品

創始人黃碧薇教授的學術路徑，是一條不斷「意外」走向更底層問題的路。

本科時，她曾在一門「人工神經網絡」課上接觸早期神經網絡。那還是深度學習大規模爆發之前的年代，網絡結構遠沒有今天復雜。她開始思考一個問題：能否從人腦機制中找到改進 AI 的靈感？

這個想法把她帶進了計算神經科學。此后，從上海中科院神經所的實驗室，到德國馬普所的碩士項目，她一路沿著「大腦如何計算」這個問題往下走。

轉折發生在馬普所的一次暑期學校。她聽到了 Bernhard Sch?lkopf 關于因果推理的講座。這個此前幾乎沒有接觸過的領域，后來成為她持續十余年的研究主線。

博士階段，她在 CMU 師從因果發現領域的重要學者 Kun Zhang 和 Clark Glymour。此后，她在因果發現、因果表示學習、因果推理和可泛化機器學習方向持續發表研究工作，也參與推動了 Causal-Learn、Causal-Copilot 等代表性工具，以及 CLeaR 因果學習與推理會議等學術社區建設。

黃碧薇與她的導師們以及其他因果領域學者。

在因果 AI 的學術世界里，黃碧薇已經是兼具深厚理論積累和工程化視野的代表性學者之一。

但學術做得越深，她越意識到一件事：理論能告訴你方向是對的，但只有實踐才能證明這個方向是走得通的。實驗室資源和工程條件有限，而她要驗證的東西——因果世界模型能否在物理世界中真正工作——需要遠超實驗室規模的工程投入。

過去，這件事并不容易發生。

一方面，因果 AI 長期更接近基礎研究。因果發現、因果推理、潛在結果等方法論派系各自深耕，但它們要進入復雜系統，需要足夠強的表征能力、足夠大的數據規模和足夠成熟的工程基礎。另一方面，過去的機器人和具身智能系統還沒有形成足夠清晰的落地窗口，許多問題仍停留在實驗室任務里，產業側對「因果」這類底層能力的需求并不顯性。

現在，窗口開始變化。

大模型證明了 Scale 的力量，也為 AI 系統提供了更強的感知、表征和生成能力。但當模型從數字世界走向物理世界，僅靠規模化預測的邊界也開始暴露：模型可以學習大量軌跡，卻未必知道哪些變量真正改變結果；可以模仿成功動作，卻未必能在環境變化后解釋失敗原因；可以生成看似合理的計劃，卻未必理解行動會如何改寫世界。

換句話說，大模型提供了新的底層能力，但它仍然缺少因果層。物理世界正在暴露 Scale without Structure 的危險：機器人模型換一個環境就失效，自動駕駛在訓練分布之外就可能變得脆弱，VLA 模型在長程任務中仍然面臨錯誤恢復和任務泛化難題。至少在 Aether AI 的判斷中，這些問題背后，是缺少因果結構帶來的系統性瓶頸。

與此同時，Physical AI 正在從概念走向落地。機器人、自動駕駛、工業自動化等系統開始進入更復雜、更開放的環境，泛化、長尾、失敗歸因和跨平臺遷移，正在從實驗室問題變成真實部署中的工程痛點。

這也是黃碧薇認為「現在」是把因果 AI 推向產業的時機的原因。因果 AI 不再只是一個學術問題，而開始成為物理世界 AI 系統能否真正泛化、恢復和可靠部署的工程問題。

「真正核心圈子里，沒有人創業。」黃碧薇這樣描述因果 AI 學術界的現狀。因果發現、因果推理、潛在結果等方法論長期各自深耕，但很少有人將它們融會貫通，并進一步帶到真實工程系統中接受檢驗。

她選擇從 Physical AI 切入，因為那是因果推理最硬核的課題。在物理世界里，每一次機器人動作都是一次干預，每一步失誤都立刻暴露，正如她所說：「機器人不會原諒統計捷徑。

跨過預測的邊界

Physical AI 真正的難處，是讓機器人在沒見過的場景里，仍然分得清什么會改變結果、什么只是背景噪聲。

Aether AI 的判斷是，進入物理世界后，AI 不能只學習「過去通常怎樣」，還必須理解「什么真正改變結果」。因果世界模型要補上的，正是從預測未來到干預未來之間的這一層。

回到那只火雞。它的失敗不是因為不會預測，而是把重復發生的事誤認為世界機制。AI 如果想避免成為一只更復雜的火雞，也必須跨過這一步。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.