網易首頁 > 網易號 > 正文申請入駐

世界模型賽道洗牌，一家中國公司悄悄沖到了最前面

2026-06-04 20:13:54　來源: 機器人大講堂

安徽舉報

分享至

2026年5月，全球具身世界模型權威評測基準WorldArena公布榜單。跨維智能自研的通用具身世界模型DSCFuncWorld，在Track 2（Data Engine）賽道斬獲全球第一，大幅領先WoW、BLM等國際主流模型，刷新該賽道全球最優成績，再一次證明了跨維智能的底層技術實力已穩居全球具身世界模型第一梯隊。

01.

全球第一究竟意味著什么

WorldArena因為不僅包含 16 項細分核心指標和 3 大真實應用任務的立體化評估體系，能夠全方位嚴苛考察具身世界模型的感知精度、物理規律理解、三維空間認知以及動作預測與實際落地能力。而且擁有嚴苛、全面、貼合產業落地的評測標準，因此匯聚了全球頂尖科研團隊與頭部企業模型同臺比拼。前不久智元剛剛拿下track1的第一名，含金量就獲得業內一致認可，可見榜單的熱度和權威性。

WorldArena設有兩條核心賽道，側重和能力定位略有不同。其中，Track 1偏重視覺畫面質量、動態效果與物理一致性，側重感知上限；Track 2則考驗世界模型作為數據合成引擎和行動規劃載體的全鏈路落地能力，要求參賽模型依據初始場景與文本指令自主模擬完整機器人交互流程，最終以機器人真實任務成功率作為核心判定標準。

這兩條賽道代表的，其實是世界模型的兩種哲學。一種追求畫面的逼真與感知的完備，另一種追求合成數據對機器人策略訓練的實際賦能效率。前者是感知競賽，后者更像是產業競賽，更追求模型輸出的數據能不能驅動機器人在現實世界真實完成任務。

Track 2也被業內公認為含金量更高的實戰賽道。有一組學術數據可以佐證這一判斷。2026年2月，清華等機構聯合發布的WorldArena論文，在14個代表性世界模型（涵蓋Veo 3.1、Wan 2.6、CogVideoX、Cosmos-Predict等主流模型）上系統測量了視覺質量與下游具身任務能力的關系，結論相當直接，綜合視覺質量指標EWMScore與人類主觀打分的相關性高達Pearson r=0.825，但與機器人任務成功率之間的相關性僅為r=0.360。視覺和美學分最高的Veo 3.1，但在具身任務指標上反而提升有限，并伴隨明顯的語義漂移。

這意味著生成的視覺質量與機器人任務成功率之間并不必然正相關，一個視頻生成能力再強的模型，可能完全無法產生一條可用的機器人訓練數據。這也解釋了為什么跨維智能的這次勝出具有超出單次榜單意義的價值。

02.

DexWorldModel模型底座到底強在哪？

跨維智能能夠在 Track 2 登頂，本質上是因為它在具身數據生成、仿真訓練閉環、策略賦能與虛實遷移等全鏈路環節，構筑了一個完整的工程化閉環。

機器人大講堂了解到，此次奪冠的DSCFuncWorld，是跨維自研核心底座DexWorldModel的適配版本，并非針對競賽專門定制。

支撐它在Track 2取得領先的技術邏輯，主要得益于這套閉環，持續積累了「可訓練、可遷移、可執行」的系統性機器人動作數據，補齊了世界模型通往真實物理世界的關鍵短板。因為其采用因果隱空間建模，依托DINO語義特征空間精準建模未來世界狀態，重點強化環境紋理、物體關聯與物理規則的魯棒表達。在絕大多數同類模型試圖在視覺像素層面對未來畫面進行擬合，而DexWorldModel選擇在隱空間中直接建模“對行動有意義的狀態”，將模型容量集中配置在與任務決策強關聯的信息通道上。

拆解技術架構來看，DexWorldModel有著四層協同的體系。

在表示層，其將生成目標從像素空間切換至DINO語義特征空間，使模型回答的問題變為「狀態預測」；在推理層，預測式異步推理（SAI）將機械臂執行與模型推理深度重疊，實測端到端阻塞延遲下降約50%；在數據層，EmbodiChain具身數據鏈構建了從資產生成、軌跡采樣到失敗恢復回流的全鏈路數據供給，持續為世界模型訓練注入物理可信的新鮮經驗。在架構層，EVA技術框架則通過逆動力學獎勵機制，將可執行性約束內嵌于生成過程本身，確保模型推演的未來軌跡不僅視覺自洽，更貼近真實機器人可完成的動作路徑。

這套模型架構是跨維在Track 2數據引擎任務中得以領先的技術關鍵，也可以說Track 2 才是真正讓跨維智能的 DSCFuncWorld 模型在這一評價坐標系中找到了自己的發力點。

03.

這不是跨維第一次站上榜首

跨維智能在世界模型與具身智能方向一直有著長足技術積累。

例如在以機器人任務成功率為核心評價維度的RoboTwin仿真基準上，DexWorldModel就曾取得94.00%的平均成功率，超過同期多項國際主流基線。

更具說服力的是零樣本Sim2Real結果：模型僅在仿真環境中訓練，在四個真實機器人任務上直接部署，就取得優于π0、GR00T N1.5與Sim2Real-VLA的成績。而在更進一步的工作中，還使用了真機示范數據進行微調以增加準確率。

在當年于美國舉辦的全球頂級機器人大賽ICRA現場，跨維的雙臂機器人憑借自研大模型和純視覺系統，獨立完成安裝硅膠柱、操作透明試管等精細操作，成為全場唯一無需人工干預的參賽者，最終斬獲世界冠軍。這是該技術路線在權威賽事中的首次頂級驗證。

跨維還將具身智能數據基建EmbodiChain完整開源，開放資產生成、場景布局、軌跡采樣、失敗恢復、在線數據流等全套模塊；同時發布GS-World世界模型技術方案，形成從合成數據生產到策略模型訓練的完整研究路徑。

在商業化層面，跨維智能已將具身智能解決方案落地于50余個細分行業、超千個項目。其中海信生產線柔性插拔裝配機器人成功率達99.99%，美的工廠無序零件分揀機器人效率是人工的3倍，這些數字來自量產交付現場，而非實驗室Demo。這也是其2024年整體營收突破億元，2025年人形機器人W1 Pro批量出貨超百臺，客戶涵蓋比亞迪、廣汽、中聯重科、三一重工、松下等頭部制造企業。

此外，跨維一直以來還在試圖直接構建面向物理交互數據的世界模型體系，讓合成數據加入多種真機數據，共同驅動機器人策略訓練，數據閉環初步搭建完成。

從 RoboTwin 第一、ICRA 冠軍到此次 WorldArena Track 2 全球登頂，一系列重磅成績背后，是跨維智能依托 DexWorldModel 范式走出的差異化技術路線。不同于行業普遍聚焦概念創新，跨維智能始終直面具身智能落地最核心、最關鍵的系統性難題，專注解決當下真實部署的核心阻礙，優先搭建能夠支撐產業落地的底層系統能力。DexWorldModel 正是這一務實思路下的階段性技術成果，一步步補齊技術與現實之間的關鍵短板、縮小落地間隙讓世界模型距離真實機器人部署、規模化產業應用更近一步。

04.

下半場的真正分水嶺

不久前，英偉達發布了面向物理AI的開放基礎模型Cosmos 3，谷歌DeepMind也將Project Genie推向公共測試階段。這些信號共同指向一個清晰的產業判斷：世界模型的價值定義正在徹底重構，告別過去以畫面生成效果為核心的單一評判標準，轉向以適配真實物理規則、賦能實體機器人落地為核心的全新賽道。

這也意味著下半場，能否錨定真實世界運行邏輯、打通虛擬仿真與現實應用的邊界，成為衡量世界模型價值的核心。行業競爭重心，從淺層視覺生成內卷，轉向底層物理智能能力的長期比拼。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.