網易首頁 > 網易號 > 正文申請入駐

給世界模型加上因果，她要讓機器人真正理解“為什么”

2026-06-20 11:32:15　來源: DeepTech深科技

北京舉報

分享至

2011年，Judea Pearl 憑借在因果推理領域的奠基性貢獻獲得圖靈獎。他提出AI必須跨越三層：關聯、干預、反事實。2018年，他在面向大眾的著作《The Book of Why》中將這一框架系統化為“因果之梯”。

十五年過去了，深度學習沿著另一條路徑走到了GPT，走到了多模態大模型，也走到了今天的世界模型軍備競賽，一路走來，AI產業的主旋律始終是Scaling Law：更多數據、更大模型、更強算力。

但與此同時，Scaling也讓下一個瓶頸暴露清晰：預測結構不等于因果結構。

一個模型可以從生物標記物預測疾病進展，卻分不清它是病因還是癥狀；能模仿機器人軌跡，卻不懂動作背后的物理機制。環境一變，相關性模型就失效。

大家常說“壓縮即智能”，但僅壓縮不夠，必須是結構化的壓縮——提取出因果變量和物理規律，而非統計模式。這是黃碧薇創立AetherAI的技術信念，也是整條技術棧的起點。

2026年，世界模型成為AI最熱賽道。LeCun離開Meta創立AMI Labs，10.3億美元押注JEPA；李飛飛的World Labs融資超12億美元，發布商用產品Marble；Google DeepMind推出Genie 3，NVIDIA Cosmos下載量破200萬。

所有人都在說“理解物理世界”，但沒有一家把因果置于架構底層。

而在機器人控制側，行業重注VLA（視覺-語言-動作模型），靠大規模示教數據訓練泛化能力。VLA進展迅速，但弱點明確：部署時性能不可預測退化，對干擾和分布偏移魯棒性差，長程任務誤差累積。

這里涉及到一個關鍵區分：觀察機器人完成抓取（P(Y|X)）和讓機器人主動執行抓取（P(Y|do(X))）是兩回事。VLA學到的是前者，真實世界需要后者。

也正是在這樣的背景下，總部位于圣地亞哥的AetherAI及它的創始人黃碧薇成為行業焦點，其團隊約20人，成立不久就拿下了由經緯創投領投的2000萬美元融資。

黃碧薇博士（Prof.BiweiHuang）是UCSD助理教授，也是AetherAI的創始人。她師從因果發現奠基人ClarkGlymour,KunZhang, BernhardSch?lkopf，深耕12年，是少數串起馬普所、CMU、UCSD三處學術資源的人。

圖｜黃碧薇（來源：受訪者）

她對VLA路線的判斷比學術論文里的措辭要犀利得多：“它完全是死記硬背訓練數據里出現過的pattern，即使桌面高兩厘米，可能就失敗了。”

不過，事實上，這條路并非她最初的規劃。

本科在華東師大讀計算機時，她上的還是一門三層網絡的人工神經網絡課，因為對“大腦如何計算”產生好奇，大四去了中科院神經所。碩士到德國馬普所念計算神經科學，在一次暑期學校上聽到BernhardSch?lkopf講因果推理，覺得很有意思，于是找到實驗室導師轉了方向。

此后她到CMU攻讀博士，在因果領域一扎就是12年，研究主線也恰好回應了物理世界的復雜現實：在經典假設被違反的條件下，異質性、非平穩、選擇偏差、隱變量——因果結構能否被識別。

AetherAI的核心突破，是以因果智能為核心的下一代AI范式。技術棧分為四層：第一層是Causation Transformer，直接在Transformer層學習因果關系，而不只是相關性；第二層是模塊化架構，類似今天大模型中的MoE，但模塊對應的是不同的因果機制，可組合、可替換、可動態調用；第三層是因果世界模型，不只預測下一步，而是模擬“如果干預，世界會如何變化”；最頂層是因果驅動智能體，具備規劃、歸因和策略調整能力，能夠基于因果理解做出更可靠的決策。

需強調的是，因果世界模型與主流“世界模型”做的不是同一件事。

VLA把動作當輸出，不當作對環境的干預；視頻生成模型產出視覺合理的畫面，但視覺合理不等于因果正確；3D重建提供空間幾何，但不編碼力、接觸、動力學，也不回答“如果我這樣做，世界會如何”。因果世界模型的目標，是在這些之上提供干預推理和反事實推理的基礎層。

目前，AetherAI因果世界模型的首個落地場景是機器人決策大腦——不做本體，只做感知與控制之間的智能推理層。內部評測中，其在機器人操作、locomotion和長程任務上，相比傳統世界模型實現25%-50%成功率提升和5-10倍樣本效率提升，且在任務、環境、獎勵函數變化下保持泛化。

但黃碧薇的野心不止于此。她把AetherAI定位為前沿實驗室，認為因果世界模型的框架一旦搭好，可延伸到生物醫學、科學發現、金融等需要因果推理的領域。

就像她說的那樣，“我們不是給現有 AI 加一個因果模塊，而是從 Transformer 到 Agent 系統，全部換成因果思維。”她或許不是第一個談論因果 AI 的人，但她可能是第一個帶著一家公司、一支團隊，站在梯子下面準備往上爬的人。

以下是DeepTech與黃碧薇的對話。

“即使桌面只高兩厘米，它也會失敗”

DeepTech：因果學界的學者之前比較少創業。你為什么決定在這個時間點出來？

黃碧薇：也不能說完全沒有。比較早期的前輩學者里，有幾位后來完全離開學術界去創業了。近些年在生物醫學、金融領域也有一些。但的確，我們這個圈子里創業的人不多。

至于我創業的原因，可以分為兩個層面。內部原因是，做科研和創業一直是我想做的事。前期完全專注在科研上，等成果做得比較扎實之后，再讓它自然轉化為應用和產品，我覺得現在條件成熟了。

外部原因是，具身智能領域過去三年投入了大量資金和精力，但VLA只能停留在視頻演示階段，沒辦法真正落地——它完全是死記硬背訓練數據里出現過的pattern。

對我們做因果的人來說，我們早就知道會是這樣。現在大家撞到南墻了，開始意識到必須走一條新路線：讓模型懂得背后的規律和因果關系，而不是死記硬背卻不理解為什么這么做。

DeepTech：你的導師們知道你要創業的時候是什么反應？

黃碧薇：非常支持。張坤（KunZhang）愿意公開做顧問。ClarkGlymour已經八十多歲了，他不想拋頭露面，更傾向于做內部顧問。他們的態度是：既然決定做了，就一定要做好。他們也會幫我介紹資源。

DeepTech：因果這個圈子不大，核心人才又大多在學術界，組建團隊順利嗎？

黃碧薇：比較順利。我長期在這個領域，因果方向誰做得扎實、在哪些問題上有深度積累、誰更偏論文發表而非實質性突破，我基本都比較了解。

我算是因果領域的第三代。我的導師們，ClarkGlymour、PeterSpirtes、BernhardSch?lkopf、KunZhang，他們是第一代、第二代的開創者。作為第三代，這個領域所有核心人物我都能聯系到，基本都是朋友，自己培養的學生也在陸續加入。

圖丨黃碧薇與她的導師們以及其他因果領域學者（來源：受訪者）

當然，我們也需要在大模型基礎設施和機器人全棧層面有經驗的人。招人最看重自驅力和聰明程度，不管讀博還是在創業公司做事，這一點都很重要。

DeepTech：從學界進入產業界，有什么是你之前沒預料到的？

黃碧薇：公司涉及方方面面。首先是投融資，尤其我們這條路線非常新、非常獨特。幸運的是，投資人多多少少意識到了當前范式的瓶頸，以及進入新方法的重要性。當然，有些人愿意下注，有些人要觀望一下，看別人投了再跟。

內部管理、市場推廣、做活動，以及即將到來的商業層面，都是0到1的過程。好在團隊在各個層面都有非常靠譜、有經驗的人在共同推進。

DeepTech：兼顧學校和公司，精力怎么分配？

黃碧薇：我現在不用上課，協調起來還好。不過大家其實不是一周工作40個小時，是一周工作80個小時。（笑）

DeepTech：這次CVPR是AetherAI第一次以公司身份亮相，也是你以創業者身份的首次公開露面。現場對“因果世界模型”的反響怎么樣？

黃碧薇：我們在CVPR設了展臺，還安排了午餐會和晚餐會，后兩者主要是為了招人。從公司角度看，我們希望讓所有人看到，我們要做的是下一代AI范式。

現場的反響也很好。很多人的反應是：“這才是真正的世界模型。”現在市面上什么都叫世界模型，沒有統一標準。但我們定義的這個世界模型，才是它的終極形式。學術圈的人懂這個，能理解。現場來了很多高校老師、大廠研究員和博士生，聊合作或者聊加入公司。

“三條方程式，everything is very clear”

DeepTech：展開聊聊技術路線。“世界模型”現在被用得非常泛濫，各種路線都在叫世界模型。在你的定義里，因果世界模型到底是什么？和其他路線差在哪里？

黃碧薇：現在世界模型的定義很混亂。視頻生成模型、3D生成模型、JEPA系列，大家都叫世界模型。但真正的世界模型要能理解物理世界底層的規律和因果關系：從一個狀態，通過某個動作，轉移到下一個狀態，狀態轉移到底是怎樣的？你能模擬物理世界各個要素之間怎么相互影響、怎么變化，這才是最本質的東西。

如果用數學方程式來表達，大家就很容易抓住要點。一共三條。

第一條，狀態轉移方程。在t時刻我有若干個狀態變量，經過一個動作，t+1時刻的狀態是什么樣的？這是最重要的一條。

第二條，觀測函數。真正的狀態變量很多時候不能直接觀測到，狀態變量到觀測數據之間的映射關系是什么？

第三條，獎勵函數。在上一時刻的狀態和動作下，到達新狀態會得到什么回報？

從數學方程來看，everything is very clear。現在市面上許多所謂的“世界模型”做的只是預測下一幀，不是模擬干預。視頻生成模型可以生成看起來很合理的未來畫面，但視覺上合理不等于物理上正確。

3D重建可以給你空間結構，但幾何本身不編碼力、不編碼接觸、不編碼動力學。你問它“如果我換個方式做，會怎樣”，它就無法回答了，真正的世界模型必須能回答這個問題。

（來源：Aether AI）

DeepTech：外界經常拿LeCun的JEPA路線和你做比較，能不能具體講講兩者的區別？

黃碧薇：LeCun在公開場合談到他想實現的目標時，其實已經帶了因果的色彩，但他的那套 JEPA 模型本身并沒有實現因果。JEPA的做法是去掉像素層面的decoder，在隱空間里只保留平滑過渡的信號。這個設計背后的直覺是有道理的：去掉高頻的像素級噪聲，只保留有語義信息的部分。

但我們看到這個路線在實際應用中有一些局限。一方面，去掉decoder之后，像素層面的一些信息也跟著丟了。在具身智能的操作任務中，接觸面的細節、力的傳遞這些信息在像素層面可能表現為高頻信號，但對任務本身非常關鍵。這也是為什么JEPA這些年主要還是在學術界、在相對簡單的數據集上使用比較多，在更復雜的真實任務上還有提升空間。

另一方面，JEPA在隱空間里沒有把因果變量解耦出來，也沒有顯式地學習因果結構，各種信息還是混在一起的。

我們是在JEPA的方向上往前走了一步：在隱空間里把因果變量解耦，學習因果結構，學習因果動力學。

舉個例子，假設一個機器人學會了在光滑桌面上推杯子。如果只學了統計相關性，換一個粗糙桌面它就可能又失敗了，因為它沒有學到摩擦力、接觸面、力的方向這些真正決定結果的因果變量。但如果模型學到了這些變量以及它們之間的結構，它就知道“桌面變了，但力學關系沒變”，可以自動調整策略，這就是因果泛化和統計泛化的本質區別。

DeepTech：在當下LLM占據主流的情況下，會有一種觀點認為，新進入的玩家需要講一個差異化的故事。你聽到這種評價會怎么回應？

黃碧薇：能名副其實講這個故事的，市場上可能只有我們一家。拿具身任務舉例，VLA就是LLM模型在具身領域的應用，它只能存在于視頻演示里面，沒法真正部署到真實環境。

具體來說，部署到真實環境的任務成功率，遷移到新環境、不完全一樣的任務和技能時候的泛化能力，長程任務的能力，加上decoder之后生成視頻在物理規則一致性上的表現，幀與幀之間的連續性，這些方面都是因果結構的優勢所在。

（來源：Aether AI）

“我們希望開創下一代AI范式”

DeepTech：如果從AI的范式演進來看，你怎么定位因果大模型在其中的位置？

黃碧薇：這三十年來的AI范式進化可以分為四個階段，從模型大小和模型抽象能力兩個維度來看。

第一個階段是90年代初，以相關性為主的小模型，學的是淺層的統計相關性。

第二個階段大概在2010年前后，有一個圈子進入了以因果為核心的小模型范式，開始從觀測數據里學習背后的因果結構，并利用學到的因果關系幫助各種機器學習任務，包括強化學習、遷移學習、表征學習等。

第三個階段就是大家耳熟能詳的大語言模型范式，本質上還是基于相關性的大模型。它在自然語言和編程任務上做得很好，因為這兩類任務的信息已經比較表層化、符號化。

第四個階段自然而然就是以因果為核心的大模型。它站在第二代和第三代范式的肩膀上：有了第二代在因果理論和算法層面的積累，又有了第三代在大模型訓練和scaling層面的突破，兩者結合，就可以推進到下一代范式。

DeepTech：因果推理有相當長的歷史了，但工業界長期以來沒有靠因果推理規模化落地的先例。你認為之前沒走通的原因是什么？為什么現在到了能走通的時間點？

黃碧薇：在上一波的因果領域，我們做的主要是理論和算法：從理論上證明在什么條件下可以唯一識別底層的因果結構，然后設計算法來推斷它們。

在LLM火起來之前，大家并沒有意識到scaling的重要性。我們這個圈子更專注在理論和算法層面，而這部分在LLM之前已經做得很成熟了。現在LLM的成功讓我們意識到scaling同樣重要。下一步就是把scaling和因果理論結合起來，讓大模型不再是死記硬背，而是真正能提取背后的概念，學習根本性的規律。

還有一點。為什么LLM在自然語言上效果那么好？因為語言本身已經是人類壓縮過的高層表征，概念、實體、事件、關系都以符號形式存在了，模型只需要學習符號之間的統計規律。

但到了視頻、機器人、生物實驗這些領域，因果變量不是現成的，它們埋在像素、軌跡、傳感器信號里，你必須先把它們提取出來。這就是為什么光靠scaling在物理世界走不通，必須加入因果結構。

DeepTech：傳統因果方法有一些公認的瓶頸，比如圖結構搜索的組合爆炸、強假設依賴，比如無隱變量、線性關系，而且大多只在表格數據和小規模問題上驗證過，處理不了圖像、視頻這類高維感知輸入。這些問題在你們的路線里是怎么解決的？

黃碧薇：傳統方法和我們的解決思路完全不同。

傳統的因果發現假設因果變量是可觀測的，通過離散的圖搜索，比如利用條件獨立性檢驗，找到變量之間的因果關系和方向。以前用CPU跑，可能只能處理幾千個變量。現在即使是原來的經典離散圖搜索算法，用GPU并行，三天之內也可以跑完幾十萬個變量的圖。

但在具身領域，我們觀測的是視頻和傳感器信號，還涉及表征學習的過程。我們不會主要依賴傳統的離散圖搜索方法，而是用基于encoder-隱空間-decoder的架構來實現，實現方式完全不一樣。具體算法和模型我們會陸續發布。

DeepTech：你今年1月發了一篇論文《Transformer Is Inherently a Causal Learner》，提出Transformer天然編碼了因果結構，而且因果發現的準確率隨數據量增長。這是你方法論的理論起點嗎？

黃碧薇：那篇文章的結論是：當假設這個世界上只有時滯關系的時候，Transformer確實是在學因果關系。但現實情況是，不僅有時滯關系，還有瞬時關系，也會被未觀測的隱變量影響。在這些更真實的情況下，Transformer學的就是相關性。

所以這篇論文是為下一步實現Causation Transformer做了一個鋪墊。它指明了方向：在簡單條件下，Transformer天然有因果性；但要在真實世界中實現因果學習，還需要在架構上做進一步工作。

DeepTech：目前在具體的產品上有試點嗎？基礎模型大概什么時候發布？

黃碧薇：我們在各個算法層面都有工作在推進，包括構建以任務為中心的世界模型、處理有隱變量和層級隱變量動力學的情況、在跨本體層面實現統一動作空間等等，這些已經陸續在發布。

同時，我們內部也在訓練因果世界模型基礎模型，大概明年上半年發第一版。可能不會馬上開源所有內容，但最終肯定會開源。現在行業的一個普遍策略是早期開源一部分來建立生態，做足夠好之后再調整策略。

DeepTech：具體的里程碑可以透露一下嗎？

黃碧薇：預期明年可以在機器人操作任務上做到“GPT-3.0時刻”，在各種操作任務上有比較好的泛化性能、較高的成功率，并且能執行長程任務。明年晚些時候，結合locomotion和manipulation，機器人可以在開放環境里既走動又完成操作任務，達到“GPT-3.5時刻”。更進一步，我們希望機器人在開放環境中通過自強化學習的方式自主探索和學習，實現終身學習。

DeepTech：因果學界有三個方法論流派：因果發現、因果推理、潛在結果框架。你是少數能融會貫通的研究者。落到AetherAI的產品上，你具體走的是哪條線？

黃碧薇：我主要走的是因果發現和因果AI這條線。另外兩個流派做的是因果推理，也就是假設因果圖已經確定，只需要估計因果效應有多大。

因果發現要從頭開始，從原始數據里學到因果結構，同時學習因果模型，這本身就涵蓋了因果推理的部分。再加上如何從因果角度更好地解決機器學習和AI的任務——也就是因果AI。所以這條線是一個更根本、更集大成的路線。

當然，其他流派的思想，比如Judea Pearl的結構方程模型，不管用哪種實現方式都很有借鑒意義。回到公司：高層思想上是融會貫通，具體實現上走的是因果發現和因果AI。因為我們是從零開始訓練，只有原始數據，沒有假設已知的因果結構。從觀測數據出發，提取因果變量，學習因果結構，學習因果動力學。

（來源：受訪者）

DeepTech：這個賽道上也有IlyaSutskever的SSI、LeCun的AMI Labs這類以“開創新范式”為目標的公司，它們拿到了遠超一般創業公司的融資體量。你怎么定位AetherAI？你們和這些公司是同一類玩家嗎？

黃碧薇：我們現階段更像一個Neo Lab的形式，我們希望開創下一代AI范式。OpenAI開創了LLM這套范式，我們要開創以因果世界模型為核心的下一代范式。現在各個領域都構建在LLM范式上，我們認為下一步會轉向因果世界模型，實現更好的性能，更好的泛化能力，減少幻覺，能夠超越人類現有知識。

同時，它也是可解釋、可控、安全的，就像Ilya想要實現的那樣。你要能夠理解模型為什么做出這樣的決策，背后的因果路徑是怎樣的，這樣才能可控，才能安全。

DeepTech：說到幻覺這個問題，因果模型有可能從根本上解決嗎？

黃碧薇：為什么之前的 LLM 會有幻覺？核心原因是它只學了統計相關性，找概率最大的token做預測。比如早期GPT-3的時候，你問它華盛頓州的首都在哪里，它可能告訴你是西雅圖。因為“西雅圖”和“華盛頓州”經常一起出現，但正確答案是奧林匹亞，一個非常小的地方。這就是相關性和因果性的區別。

而且模型越來越聰明，會不會不可控？核心還是要回到理解背后的因果關系和思考過程。如果我知道模型是怎么想的、如何產生我們看到的答案，我就可以非常有效地控制它。所以不管從減少幻覺還是從安全可控性的角度看，我們都必須走到因果這一層。

DeepTech：你們在官網上還提到了一些更長期的愿景，比如科學發現、生物等方向。這些是在推進了，還是更遠期的目標？

黃碧薇：總體來說是未來更進一步的目標，但研究層面也有少部分人在同步探索。科學發現領域，我們規劃的第一個應用場景是生物方向，比如長壽研究。選這個方向有兩個原因：一是這是每個人都關心的問題；二是特別是在T細胞層面，數據積累比較多，人類的認知也相對成熟，可以從比較成熟的數據出發，一步步打通閉環。

DeepTech：假如五年后AetherAI做成了你期待的樣子，那時候的機器人行業會和今天有什么不一樣？

黃碧薇：我說個可能有點悲觀的話，大多數現在的機器人廠商可能屆時都不一定存在了。早期探索期過去之后，大腦這一層也會收斂到一個比較確定的范式下，會出現像今天大語言模型一樣的、幾家確定的格局。

所以我們當下是以模型為主，但長期而言也會有自己的本體團隊。

DeepTech：最后一個問題。如果用一句話概括因果大模型的核心理念，你會怎么說？

黃碧薇：大家常說“壓縮即智能”，但我覺得這句話還不夠。僅僅壓縮是不夠的，我們需要的是結構化的壓縮。只有結構化的壓縮，才能真正產生智能。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.