網易首頁 > 網易號 > 正文申請入駐

白熱化：北大團隊發布5D世界模型

2026-06-06 11:14:18　來源: 科工力量

上海舉報

分享至

作者｜ 周遠方

編輯｜劉媛媛

2026年6月5日，北大EvoPhys團隊與摩爾線程聯合發布了EvoPhys-World。一個試圖讓機器人學會“想象”的5D世界模型，在這一天正式亮相。

四天前，英偉達剛剛發布了他們的世界模型Cosmos 3；前一天，斯坦福教授李飛飛發表論文，為“世界模型”這個被嚴重濫用的概念畫出了權威的“三分法”地圖。學界、產業界、算力巨頭在同一時間窗口亮牌，顯現當前AI新主流路線的競爭，進入白熱化的階段。

這場競爭的核心，可以用一個極為簡單的動作來檢驗：

你讓機器人把桌上杯子移到左邊。

第一種做法，它看到杯子，識別指令，伸手抓取，平移放下。整個過程像條件反射，不會想。這是VLA時代，視覺語言動作模型，眼睛和手腳直接連線，中間沒有腦子。

第二種做法，它看到杯子，腦子里展開幾張圖。圖一，輕輕推，杯子滑到左邊。圖二，用力推，杯子翻倒，水灑出來。圖三，沒碰到，杯子不動。它剪掉圖二和圖三，選擇圖一。這是世界模型，4D版，三維空間加時間。它能預測下一秒會發生什么，就像一個能觀看物理規則電影的觀眾，但它仍然只是一個觀眾。

第三種做法，還是這幾張圖，但它進一步想。如果桌面有水漬，圖一的滑動距離會不會改變。如果杯子是空的和滿的，翻倒的閾值有何不同。如果推的時候手指碰了一下杯沿，杯子會不會轉。它同時推演多條世界線，并在分叉中選擇。這是世界模型，5D版，在時間和空間之上，再加一維動作與因果。它不是在預測電影，而是在導演劇本——它在行動前，快速做完了一場關于“后果”的短夢。

這不是讓機器人的眼睛升級，而是給它造了一個腦子。一個是學會“看”，一個是學會“想”。

EvoPhys的底牌：5D世界模型與“一個基模，兩種形態”

EvoPhys-World不是一個由多個獨立模塊拼湊起來的“縫合怪”。它是一個統一的基礎模型，將感知、記憶、預測、決策、行動全部壓縮進了同一個隱空間。

EvoPhys-World 模型架構示意圖。展示了Latent Memory Pool、Unified State-Action Token、World Engine 與 World Policy 的雙模式螺旋結構，以及Next-State Prediction與Next-Action Prediction的并行推演路徑。

在這個隱空間里，它呈現出兩種形態。

第一種叫World Engine，即“世界引擎”。你給它一個動作，比如“推”，它就能在腦子里模擬出這個世界接下來會變成什么樣——杯子會滑多遠、會不會倒、水會不會灑。這是它的“想象”能力，所謂“萬物可孿生，物理可交互”。

第二種叫World Policy，即“世界策略”。 你給它一個目標，比如“讓杯子停在這里”，它就能倒推出實現這個目標需要的一系列動作——手應該伸多快、用多大的力、角度怎么調整。這是它的“行動”能力，所謂“世界可預演，萬物可操控”。

它們不是割裂的。World Policy執行后產生的結果，會反饋給World Engine，讓它的“想象”更精準；更精準的“想象”又能生成更好的“行動”。這就是“自進化”的核心——它不是讓機器人學會“做動作”，而是讓它學會“做實驗”。先在大腦里做一萬次實驗，再挑出最優的那個方案去執行。

這種設計有一個深層的哲學基礎：動作空間的設計。英偉達Cosmos 3是機器人中心主義的，它的動作被定義為機械臂的關節角度、夾爪的位置。而EvoPhys采用人本主義路線：它不教機器人“二指夾爪怎么動”，而是先教模型學“人的五指怎么捏杯子、怎么擰瓶蓋”。

但人本主義不只是路線的選擇，它延伸出一套更完整的工程標準——“三位一體”。這套標準認為，人類的數據采集設備、機器人本體、以及人類遠程操控機器人的交互設備，必須共享同一個數據接口。人類戴著設備去推杯子時，眼睛看到的畫面、頭部轉動的姿態、手指的骨骼點與用力大小，都遵循同一套格式。這套格式被機器人直接讀取，也被遠程操控的人類原樣接收。這樣一來，人類采集的交互數據可以直接用于訓練，學到的行為可以直接轉移到機器人上，而人類在遠程操控時也不會有任何感知上的錯位。

這意味著，它理解的是任務本身，而不是被特定的硬件形態所綁定。在機器人形態尚未收斂的今天，人，才是那具最通用的本體。

說到“知”與“行”的關系，World Engine承擔的就是“知”的角色——它知道推杯子后世界會如何變化；World Policy承擔的是“行”的角色——它知道為實現目標該如何出手。據接近該團隊的人士透露，他們將兩者的閉環概括為“知行合一”：不是先仿真再決策的“先知后行”，而是知行互訓、螺旋上升。

這個螺旋能夠高效運轉，有一個關鍵的硬件前提。EvoPhys團隊將模型訓練在摩爾線程的MTT S5000千卡集群上。這款芯片最特殊的地方在于：它不是英偉達H100那樣的“純訓練卡”，而是保留了完整的圖形渲染管線。World Engine要實時“畫出”杯子被推倒的畫面，World Policy要在這幅畫上計算下一步的動作——渲染與訓練必須在一顆芯片上同時完成，不能分到兩臺機器上倒騰數據。英偉達的數據中心卡為了極致算力閹割了渲染模塊，而摩爾線程的“全功能GPU”恰好滿足了世界模型的這種剛需。

它為什么特別？——英偉達和李飛飛提供的地圖

EvoPhys這張底牌之所以在這個時間點顯得如此鋒利，是因為它同時與兩件大事形成了對照。

英偉達的“主流”路線。

就在EvoPhys發布的三天前，英偉達推出了世界模型Cosmos 3。黃仁勛將其定位為“Physical AI的ChatGPT時刻”，打出了三張牌：數萬億級別的多模態token、開放的開發者生態、以及與宇樹科技等本體廠商的硬件協同。

但解剖它的數據構成，會發現一些有意思的細節。據英偉達公開的技術報告，在Cosmos 3 Reasoner的預訓練階段，約2200萬樣本中，OCR文字識別占42.9%，2D空間定位占16.5%，視覺問答占11.3%，而視頻理解與推理僅占0.05%。

換句話說，英偉達的模型是一個極其淵博的“通才”，但在“如何推一個杯子”這門物理課上，它可能還是個初學者。它的“教材”里，摻雜了太多“語言”和“合成畫面”。它可能學到的更多是“推”和“動”在統計上總是一起出現的語言關聯，而不是“當施加的力大于最大靜摩擦力時，物體才會發生位移”的物理因果。它強大，但它解決的是規模化問題，而不是“理解”問題。

與此同時，來自產業前線的真實需求數字，顯得更為冷靜。智元機器人合伙人姚卯青曾估算，GPT-5訓練語料折合約100億小時，而全行業匯聚的高質量具身數據僅約50萬小時，差距以萬倍計。黃仁勛所說的“GPT時刻”，更準確地講，或許是“基礎設施的歸因時刻”，而非“模型能力的落地時刻”。算力可以買到，但真實世界數據，必須是一天一天攢出來的。

李飛飛的“地圖”。

同樣是在這個時間窗口，學界給出了自己的框架。6月4日，斯坦福教授李飛飛發表論文，把被嚴重濫用的“世界模型”劃出了三大功能類別：渲染器（生成逼真像素）、仿真器（生成符合物理規律的世界狀態）、規劃器（生成動作序列）。她特別強調，這三者中最被低估、但價值最深遠的，是仿真器。她預言，最終這三類模型的邊界將不斷消融，走向一個“大一統世界模型”。

在這張地圖上，英偉達和北大的位置被照見了。

Cosmos 3，偏重渲染與仿真，試圖涵蓋一切，但重心是“生成逼真的未來世界”。而EvoPhys，恰好精準地押注在李飛飛所說的那片“無人區”——價值最深、也最難啃的“仿真器”上。但更關鍵的是，EvoPhys悄悄畫出了超越地圖的路線。李飛飛的框架里，三者在分頭演進后需要被“縫合”。而EvoPhys用“一個基模，兩種形態”給出了更極致的答案：這三個功能從來不需要被縫合，它們從一開始就共享同一個隱空間，通過“螺旋自進化”互相喂養。

也就是說，當李飛飛還在為行業畫出“如何走到終點”的地圖時，EvoPhys已經拿出了“走到終點之后”的引擎。

從“是什么”到“為什么”

現在需要解釋一個問題：為什么EvoPhys的這條“5D”路線，比Cosmos 3的“4D”路線，更接近對物理世界的“理解”？

我們可以借用圍棋的變化圖來理解所謂5D。

棋手在考慮下一步時，腦子里不是只算一個點，而是同時擺幾張變化圖。圖一，我下這里，對手應那里；圖二，我打入，對手反擊，我是否做活。棋手在零點幾秒內剪掉明顯低勝率的分支，落子。世界模型推演物理后果，本質上在做同樣的事——但棋盤從361個交叉點變成了無限的連續空間。一個動作下去，可能的后果有無限多種。模型要在零點幾秒內剪掉那些違反物理規律的分支，只保留符合重力、摩擦力、碰撞體積的路徑，再從中選最優。

這就是模式匹配與因果推斷的區別。

模式匹配，是模型在數據里看到“推”這個動作，和“杯子動”這個畫面，在統計上總是一起出現。于是它學會了這個規律。結果，當它被要求推一個鐵塊時，它依然會用同樣的力氣——因為它不理解“為什么”需要更用力。它只是記住了一對表象。

因果推斷，是模型在無數真實交互中，學會了一條底層物理規律：“當施加的力大于最大靜摩擦力時，物體才會發生位移”。它不是在匹配“推”和“動”的畫面，而是在學習那個通用的物理方程。因此，無論是推杯子還是推鐵塊，它都能根據物體的質量和材質，計算出需要多大的力。它理解了原因和結果之間的必然聯系。

更進一步。反事實推理問的是：“如果剛才我沒推，杯子會不會因為桌面的震動而自己滑落？”這是在腦子里構建一個與現實不同的平行世界去推演。EvoPhys的5D引擎，本質上就是在工程化這種“反事實”能力。

教一個模型“為什么”，和教它“是什么”，完全是兩個世界的事情。前者通向真正的智能，后者只是更高級的鸚鵡學舌。

結尾：兩種出牌，定義權博弈

英偉達Cosmos 3走的是“主流”道路——20萬億token、開放生態、硬件協同，它解決的是“如何讓更多機器人快速學會一個動作”的規模化問題。這是算力帝國的一次標準出牌。

EvoPhys的激進，在于它連李飛飛剛畫出的地圖都不滿足。李飛飛說世界模型應該融合渲染器、仿真器、規劃器三類功能。EvoPhys的回應是：這三者從來不需要被融合，它們從一開始就應該長在一起。“一個基模，兩種形態”，不是一個愿景，而是已經跑通了的架構。李飛飛還在指出“前方應該有一座橋”，EvoPhys已經站到了橋的對岸，回頭看地圖說：“我們的引擎已經過了河。”

李飛飛畫出“渲染器-仿真器-規劃器”三分地圖，其本質是學術正統的漸進主義：承認三者終將消融，但堅持必須經歷“先分后合”的階段，以“大一統”為終極靜態終點。EvoPhys的架構更激進。它直接取消“三分法”的中間狀態，將仿真器（World Engine）與規劃器（World Policy）壓進同一隱空間，讓兩者不是“邊界消融”后的并列選項，而是相互喂養的動態閉環——Policy執行后的真實結果反饋給Engine，Engine生成更精準的狀態預測再驅動Policy。這不是“先分后合”的漸進融合，而是知行合一的螺旋上升。

團隊曾將AI的三層進階概括為：LLM讀萬卷書，具身智能行萬里路，世界模型知行合一。前兩者或知或行，各有偏重；而世界模型的終點，恰恰是知行互訓的即時融合——沒有靜止的“大一統”，只有持續的螺旋。

而這場競賽最意味深長的一幕，或許發生在硬件層面。摩爾線程為EvoPhys提供了一顆“會渲染”的GPU——這恰好是英偉達數據中心卡被閹割掉的能力。這是一個信號：在世界模型這個新戰場上，中國芯片公司正在用“渲染+訓練”的融合架構，試圖定義一個新的標準。如果世界模型最終被證明需要一張“會畫畫”的芯片，英偉達可能不得不在下一代產品中恢復這項功能。

這不再是追逐，我們在一起做的，是路線定義權的博弈。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.