網易首頁 > 網易號 > 正文申請入駐

全球首個：隱空間世界模型，打通長時序雙向物理因果鏈了！

2026-06-29 20:33:49　來源: 量子位

北京舉報

分享至

思邈發自凹非寺
量子位 | 公眾號 QbitAI

你從桌上端起一杯水，大腦用了不到一秒，同時完成三件事：

估算杯子的重量，預判水面晃動的幅度，順便繞開了旁邊那個玻璃杯。

在這個動作中，你的大腦不會在意杯子上的花紋，或是杯壁折射出的復雜光影，而是能瞬間抓住核心：手要出多少力，水才不會晃出來

正是這種忽略無關的環境細節、直接洞察本質的“物理直覺”，讓我們干起細活來行云流水。

但對機器人來說，想要學會這種對物理世界的因果直覺，基本屬于具身智能領域的高難度懸賞題。

現在，一家成立僅一年的具身智能新銳——無界動力，直接帶著新解法交卷了。

其正式發布了全球首個“長時序雙向物理因果鏈”隱空間世界模型MWA?，拓展具身智能的多元場景泛化能力，直擊機器人長周期、高精度執行的行業老大難問題。

在由斯坦福大學等頂尖機構聯合發起的RoboCasa GR1 TableTop榜單中，無界動力MWA?以75.2%的平均任務成功率拿下全球第一，超過英偉達GR00T-N1.6等一眾行業主流模型。

作為賽道里的新晉選手，無界動力是行業里少數堅持“隱空間世界模型 + 強化學習”技術路線的公司。

這條略顯特立獨行的硬核路線，不僅在技術實測上跑通了閉環，在資本市場也展現出了極強的吸金能力：

公司此前已宣布完成超2億美元的天使輪融資，而緊隨其后的Pre-A輪近2億美元融資也已接近尾聲，背后站著紅杉中國、線性資本、京東關聯基金等一眾頭部重倉機構。

這只既能打、又吸金的行業黑馬，究竟是如何幫機器人看清物理因果、打破多場景泛化瓶頸的？

我們拆開來細看。

通向終局的路線：隱空間世界模型 + 強化學習

懂了語言和邏輯，機器人就能在現實世界里聽懂話、能干活了嗎？

答案是：并不行。

過去幾年，VLA（視覺-語言-動作）具身智能路線，雖然讓機器人聽懂了人類的文本指令。

但一到現場，只要光照稍微變一下、桌上的杯子挪個幾厘米，機器人就會瞬間“卡殼”甚至動作變形。

本質原因在于，傳統VLA模型讓機器人干活，更像是一場“刻板的開卷考試”。

它們極度依賴人類演示的模仿學習，只是在死記硬背人類演示的動作軌跡，底層根本不理解物理世界的因果關系，泛化性自然出現斷崖式下跌。

人類能處理各種非標任務，靠的是大腦天然具備對物理世界的“直覺推理”。如果機器人對現實的常識認知一片空白，其策略上限就會被鎖死在舊范式里。

無界動力選的是另一條路線：隱空間世界模型 + 強化學習

其中，隱空間世界模型建立“世界觀”，負責讓機器人認知物理規律與因果關系，構筑起對物理世界認知與未來狀態預測的核心能力。

強化學習則塑造“價值觀”，通過高頻試錯與獎勵反饋，負責把對物理世界的理解轉化為精準的執行策略。

先看懂因果，再學會行動。只有讓機器人看清物理世界的因果邊界，它才能真正跨越實驗室Demo，到多元場景里下場干活。

機器人如何懂物理？別盯像素，去抓環境變化的“潛動作”

但要建這個世界模型，隨之而來的第一個問題是：模型到底該看什么？

傳統路線在推演未來時，往往在像素空間里做預測。

機器人看一段視頻，不僅要學手怎么去抓杯子，還要順便把背景里光線的微妙變化、無意義的像素噪聲、甚至地板的紋理全算一遍。

大量算力浪費在了與任務無關的冗余信息上。

無界動力的MWA?全程在統一共享的隱空間（Latent Space）內完成推演，跳過像素層面的冗余計算。

更關鍵的是，它提煉出了“潛動作（Latent Action）”，作為場景交互變化的底層表征。

什么叫“潛動作”？

傳統具身智能依賴顯式的動作空間，需要人類事先標記好機械臂末端走到哪個位置、關節沿什么軌跡轉動，標注成本極高。

而“潛動作”繞開了這一步，直接在特征高維空間內，把視頻中“物體因受到交互而產生的位置、狀態變化”抽象成一組高維表征。

不依賴任何人工動作標注，模型自己能從畫面變化中歸納出動作的本質。

有了“潛動作”，MWA?就能擺脫對傳統“動作標簽（Action Label）”的依賴。

這樣一來，面對互聯網上數以億計、根本沒有人類標注動作的原始海量視頻，MWA?可以直接拿來訓練。

它能自動穿透那些無關緊要的背景噪點，利用潛動作直接由果推因，看懂視頻里物體受力與演變的本質物理常識。

這相當于直接盤活了互聯網這座無標簽數據的金山，讓多源數據的利用效率向前邁進了一大步。

告別“單步死磕”，“長時序雙向物理因果鏈”創新世界模型核心范式

面對“動作卡頓與連貫性缺失”問題，MWA?在底層設計上采用了“隱空間雙向動力學架構”。

這套架構在隱空間內構建了一套“正逆雙向邏輯協同”

簡單說，模型內部同時跑著兩條推理線：

一條是逆動力學，負責“由果推因”的特征提取，看到結果反推是什么動作導致的；

另一條是正動力學，負責“由因及果”，給定一個動作去推演接下來環境會怎么變化。

這兩條線不是各跑各的，架構中引入了“正逆互審機制”。

逆向模型推演出的動作，必須交給正向模型在腦海中進行沙盤推演和虛擬驗證，正向模型推演出的環境變化，也必須實時返回，與逆向模型預訓練中沉淀的物理本質認知進行因果對齊。

正反互審、反復校驗，從而賦予模型極高的因果推理精度。

然而，傳統的雙向動力學架構在走向復雜現實時，依然存在一個致命盲區：即便進入了隱空間，它們也普遍受限于“單步瞬時潛動作推理”的時序局限。

在這種單步推理機制下，模型缺失了對長時序因果的宏觀歸納能力，讓機器人只能“走一步、看一步、猜一步”。

這也導致了在面對長周期的連續作業時，任何微小的單步預測偏差，都會在連續時序中像滾雪球一樣迅速放大，最終引發動作不連貫甚至系統的全面崩潰。

正是看穿了這一局限，無界動力在雙向動力學的基礎上做出了核心范式創新，推出全球首個“長時序雙向物理因果鏈”隱空間世界模型

MWA?首創時序Chunk級逆向動力學建模機制，重構逆向動力學模型的輸出范式，打破了傳統單步推理的桎梏。

這也直接把過去那種“走一步看一步”的瞬時操作，帶入了長時序動作的連續推演。

在面對復雜的連續任務時，MWA?在生成動作序列的全過程中，完成動作執行與環境變化的長周期博弈推演，直接從10秒以上的視覺序列中，批量、一次性推理并輸出連續多步的Latent Action Chunk動作組。

這從底層大幅減弱了誤差放大的“雪球效應”，讓機器人具備了真正完成復雜長時序任務的能力。

不妨用一個具體場景，來理解這套機制是怎么工作的。

這套機制里有三個角色協同工作。

策略網絡（Policy Head）是直覺，負責第一時間給出動作方案；
正向動力學模型（FDM）是推演者，負責在腦子里模擬“這么做了會怎樣”；
逆向動力學模型（IDM）是復盤者，負責從結果反推“到底是哪個動作導致的”。

機器人擦桌子。桌上有水漬，水漬旁邊放著一個易碎的玻璃杯。

Policy Head基于直覺快速輸出一個原始動作：用抹布從右向左擦拭。

此時，FDM接手，基于當前圖像的隱特征與這個動作，在“腦內沙盤”中前置推理出下一幀的隱空間變化，結果是杯子將被無意打翻。

這一不可接受的后果，隨即與當前特征一同輸入給IDM，由IDM反向精確鎖定造成杯子被打翻的那部分動作分量。

Policy Head隨即做出價值判斷，在梯度回傳更新時，強制策略遠離該危險動作區間，用物理因果鏈提前規避了現實中的碰撞打滑。

反過來，如果Policy Head輸出的動作經過FDM推演后，得出的下一幀特征是水漬被成功擦除，IDM會進一步通過前后時序的結構變化由果推因，推理出若要完美擦除水漬，最優的動作特征應該是幅度更契合、能效更高的潛動作表征

策略系統隨即進行對齊，主動拉近差距，強制控制序列向這個更優的幅度和軌跡靠攏。

隱空間內的一拉一推，FDM推演后果，IDM追溯原因，MWA?在機器人真正觸碰物理世界之前，就為其劃定了高確定性的動作禁區與推薦區間，從而讓泛化動作的輸出更加連貫、高精密，跑通了數據到確定性執行力的閉環。

機器人也需要一本錯題集

如果說隱空間世界模型為機器人樹立了看清因果的“世界觀”，那么如何把這種腦海里的常識，變成真實場景里抗干擾、不掉鏈子的“價值觀”與執行力？

無界動力的做法，是從底層架構讓隱空間世界模型原生適配強化學習（RL）機制

通過“物理因果建模 + 強化學習試錯 + 邊界認知進化”的閉環，讓機器人在虛擬演練場里高頻自我進化。

但要練出真正抗造的身手，全行業目前都卡在了同一個瓶頸上——數據集普遍“重正輕負”

翻開現在的行業數據集，幾乎清一色全是“完美正樣本”，極少有顆粒度夠細的各類失敗的教訓。

這就像一個學生只做滿分范文的閱讀理解，從來沒見過扣分點在哪。

考試的時候他知道好作文長什么樣，但不知道自己寫的哪里會丟分，改都不知道往哪改。

強化學習的道理一樣，如果數據集里只有“做對了”，沒有“做錯了”和“差一點做對”，模型就沒有參照物來判斷自己的動作到底偏了多少、往哪個方向偏的，獎勵信號模糊，策略優化就推不動。

也正是因為這種數據結構，直接導致了強化學習因為缺乏多維度的樣本對照，因此行業里根本拿不到高頻、稠密的獎勵反饋來調優策略。

針對這個行業痛點，無界動力首創了AnyPhys負樣本核心數據體系

他們不再只給機器人喂標準答案，取而代之的是把深層負樣本、細粒度邊界失穩樣本、甚至是“差一點就成功”的次優樣本，與基準正樣本交織在一起。

目前，AnyPhys已經累計沉淀了幾萬條專屬的失敗、失穩和臨界邊界樣本，幾乎把工業、商業和日常生活中機器人可能遇到的各種“翻車現場”全包圓了，構筑起一個極其罕見的失敗知識庫。

團隊摒棄了傳統單一最大化成功獎勵的模式，建立了一套自動區分正、負、次優、邊界樣本的方法論，實現強化學習的復雜稠密獎勵設計。

這套方法論不需要額外人工標注，就能充分復用帶瑕疵的演示數據，顯著增強機器人實操精度與泛化能力。

例如，在精密接插類任務中，基于機器人位姿搭建全局空間圖，以末端三維距離為運動代價，求解抵達目標的最短路徑，借助剩余路徑距離量化動作進度，清晰辨別前進、倒退、停滯狀態，實現自動對樣本進行打分和分類。

算法兼容離線模仿加權、在線稠密獎勵兩類訓練場景，在高精密插接任務實測中，噪聲數據下任務成功率最高提升5倍

非共識路線拿了第一名，趕超英偉達

說回開頭提到的那個榜單。

近日，在具身智能領域的權威評測基準RoboCasa中，無界動力與中科院自動化所-深度強化學習團隊聯合發布的隱空間世界模型MWA? - WALA，以75.2%的平均任務成功率刷新行業紀錄、斬獲全球第一，超越英偉達GR00T-N1.6等一眾行業主流模型。

這個榜單的含金量值得展開說一下，RoboCasa由斯坦福大學等頂尖機構聯合發起，是業界公認的具身操作核心評測賽場之一。

它不是讓機器人在理想環境里做幾個標準動作就算過關。

測試場景涵蓋多種非標廚房環境及交互物件，囊括了長時序復合流程、受限空間物件拿取等24項高難度任務，并搭配了全域隨機化光影、雜物干擾、物體規格變動等嚴苛的測試條件，專門考驗的就是模型在不確定環境中的泛化能力。

實測數據顯示，MWA? - WALA相比第二名模型任務成功率提升2.4%，同時在多步驟連貫操作、受限空間物件拿取、零散物件精準拾取等高頻難點任務中表現尤為突出。

這個成績背后有一個細節值得注意。

MWA? - WALA能在強不確定性中穩定作業，核心得益于其對互聯網上無標簽原始數據的深度激活。

對比測試表明，大規模無標簽數據訓練帶來的全場景泛化能力提升是顯著的，這也是MWA? - WALA能在強不確定性環境中保持穩定作業的核心原因。

不僅押注技術，更看重人

具身智能賽道上融資不算新鮮事，但無界動力的節奏多少有些不尋常。

成立一年，天使輪超2億美元，Pre-A輪近2億美元接近關閉，2026年上半年累計融資數億美元

紅杉中國、線性資本、京東關聯基金等機構都在投資方名單里。

資本愿意在天使輪就押這個體量，看的不只是技術路線，更關鍵的是這支團隊過去已經完整跑過一遍“從算法到量產”的全周期。

無界動力CEO張玉峰此前在地平線擔任智駕一號位。

他帶過千人團隊，把地平線的智能駕駛軟件算法產品從研發推到規?；桓叮罱K把地平線智駕業務從0做到了中國市場份額第一

更被行業記住的一筆，是他主導的與大眾集團24億歐元業務合作，這是中國智駕方案首次向全球頂級車企的技術輸出，也是那個階段中國智駕產業最大的一筆出海訂單之一。

無界動力聯合創始人兼CTO夏中譜的履歷則偏向技術縱深。

他是中國智能駕駛產業里研發并量產端到端模型的關鍵人物之一，曾帶著不到40人的團隊，在一個半月內拿出了首版Demo。

在無界動力，他主導的是最核心的技術棧：隱空間世界模型+強化學習的研發，以及底層技術基礎設施的構建。

有投資人評價，張玉峰和夏中譜的組合，是從理想與地平線體系里走出的創業者中戰績最扎實的兩人。

一個知道怎么把技術推到產線上，一個知道怎么把算法逼到極限。

這種“兼具技術與商業化落地”的基因，也直接反映在了無界動力的商業化節奏上。

成立僅一年，無界動力簽下了總額近1億美元的全球訂單

合作方的名單覆蓋了幾條差異很大的產業鏈：

汽車領域，與ZF LIFETEC、歐摩威集團等全球頭部供應商達成戰略合作；

能源領域，與遠景科技簽署了超5億元人民幣的訂單，涵蓋海外市場的規?；渴鹋c聯合研發。這筆訂單也是國內具身操作智能賽道上首個億元級別的海外大單。

在消費端，無界動力與國內外知名連鎖咖啡品牌合作，把機器人推進了開放、動態的商業服務場景。

從汽車產線到咖啡門店，場景跨度這么大，對技術的要求截然不同。無界動力的做法是自研一套通用的硬件底座來打通。

而在環境更復雜的家庭場景中，機器人同樣展現出了細膩的物理常識。面對各種動態多任務，它能靠著自主決策和長周期推演，實現極強的自適應泛化能力

目前公司已經全棧自研了1200 TOPS（INT8）的大小腦一體大算力計算平臺，并在機器人上實現標配部署。

不同場景跑出來的實操數據，持續回流到核心模型的訓練管線里，形成數據反哺技術的正向循環。

具身智能賽道的淘汰賽已經開始。Demo階段結束了，行業開始看一個更硬的指標——你的機器人，能不能真干活、真交付？

無界動力的回答指向一個更底層的命題。

比起教機器人學會更多任務愈發重要的，是讓它理解物理世界本身的規律。

一個真正懂重力、懂碰撞、懂摩擦的具身大腦，不需要逐個場景去訓練，它會自己學。

這可能是通往通用具身智能最難的一條路，但也是最根本的一條。

一群從產業深處走出來的較真工程師，正在一步步把它走通。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

量子位

追蹤人工智能動態

12863文章數 176506關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

時尚

游戲

房產

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
布洛芬是怎么給人止痛的？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

全球首個：隱空間世界模型，打通長時序雙向物理因果鏈了！

通向終局的路線：隱空間世界模型 + 強化學習

機器人如何懂物理？別盯像素，去抓環境變化的“潛動作”

告別“單步死磕”，“長時序雙向物理因果鏈”創新世界模型核心范式

機器人也需要一本錯題集

非共識路線拿了第一名，趕超英偉達

不僅押注技術，更看重人

殺瘋了！深圳一天出兩家200億具身智能公司

小米SU7加速向左偏減速向右偏 車主維權近1年4S店松口

小米SU7加速向左偏減速向右偏 車主維權近1年4S店松口

他和伊朗隊，再次贏得全世界的尊重

跟風電影《給阿公的牛肉丸》開機

萬達廣場批量易主 多位投資人正式入局

全新寶馬iX3長軸版將于成都車展預售 四季度交付

態度原創

貴州小城的新目標：舉辦“村超”世界杯！

夏天穿的裙子，越“花”越好看！

《龍之信條2》8月底更新 存檔欄位從1個擴展為3個

你敢想？海口房地產投資，暴跌5成！

全球首個：隱空間世界模型，打通長時序雙向物理因果鏈了！

機器人如何懂物理？別盯像素，去抓環境變化的“潛動作”

告別“單步死磕”，“長時序雙向物理因果鏈”創新世界模型核心范式

不僅押注技術，更看重人

殺瘋了！深圳一天出兩家200億具身智能公司

小米SU7加速向左偏減速向右偏車主維權近1年4S店松口

小米SU7加速向左偏減速向右偏車主維權近1年4S店松口

萬達廣場批量易主多位投資人正式入局

全新寶馬iX3長軸版將于成都車展預售四季度交付

貴州小城的新目標：舉辦“村超”世界杯！

《龍之信條2》8月底更新存檔欄位從1個擴展為3個