網易首頁 > 網易號 > 正文申請入駐

神仙打架之外：環衛車里長出的世界模型什么樣

2026-05-31 19:34:32　來源: 科工力量

上海舉報

分享至

作者｜ 張志峰

編輯｜周遠方

2026年5月，世界模型賽道至少有三件事值得記住。智元GE 2.0在WorldArena登頂，星動紀元Ctrl-World拿了具身任務能力全球第一，北京人形Pelican-Unify成了雙冠王。

它們都在回答同一個問題。機器人到底該先建一座虛擬健身房，還是直接在真實世界里摔打。

同一個月，酷哇科技發布了CooWAIM 2.0。前三個在刷榜，酷哇在刷街。它的測試場是蕪湖某條輔路，主角是一臺正在貼邊作業的無人清掃車。

假如這時路口突然沖出一輛逆行電動車，它不會停下來把整條街的三維畫面在腦子里推演一遍，而是邊減速邊微調方向，在三百毫秒內完成避讓。

酷哇相關負責人把這個能力概括為一句話，CooWAIM 2.0在打麻將般的博弈和切菜式的精細操作中，比同類模型更快。他進一步解釋，就像人類打麻將時會預判他人反應、切菜時會感知食材觸感，真正的智能源于動作與環境的實時閉環。

這個閉環本身并非酷哇獨有。智元用GE 2.0建全功能世界模擬器，讓機器人在虛擬環境里試錯進化。星動紀元走VLA與世界模型融合路線，用分頻端到端打通感知與動作。北京人形則以國家隊身份推進大一統物理智能回路。它們代表了當前世界模型的三條主路。

但酷哇走了一條更輕的路。它不問機器人能不能在虛擬世界里推完一萬次杯子，只問下一秒別撞上那輛電動車。

三路分兵，一路刷街

目前，全球科技巨頭在世界模型賽道上呈現出不同的技術流派。

第一撥做視頻生成，谷歌Genie 3、阿里Happy Oyster、OpenAI Sora，核心能力是生成逼真的未來畫面，一幀一幀預測像素變化。圖靈獎得主楊立昆曾指出，預測像素變化不等于理解物理世界，生成一段杯子掉落的視頻，不代表模型懂得重力和材料力學。但在輿論場里，視頻生成和世界模型常被混為一談。Meta的V-JEPA 2走另一條路，不渲染畫面，只提煉物理規律的因果理解，像一位只看棋譜不摸棋子的理論派。

第二撥做自動駕駛仿真。Waymo、特斯拉、蔚來NWM，這撥人其實最老資格，早就在用閉環仿真器測試極端路況、跑安全corner case，只是以前叫仿真器或數字孿生，生成式AI能力提升后，虛擬場景真假難辨，順勢把名字升級成了世界模型。他們的核心任務是預測自車響應和交通流演化，動作空間被嚴格限制在方向盤、油門、剎車兩三個自由度里，目標是避免接觸，而非理解接觸。

第三撥做機器人與具身智能。智元、星動紀元、北京人形都在這個陣營，他們強調世界模型必須是動作條件化的，即預測的不是下一幀畫面，而是我做了這個動作以后世界怎么變。這撥人要處理的是手指、手腕、肩膀幾十甚至上百個自由度的協調，要理解推杯子會不會倒、擰瓶蓋用多大力、疊毛巾時布料如何形變。道路有車道線和交通燈，規律性強，家庭與工廠里的物體材質、擺放方式、任務目標變化巨大，沒有天然的幾何約束，數據形態和計算復雜度與自動駕駛不在一個量級。

自動駕駛的世界模型，核心是避免接觸，動作空間就兩三個維度。人形機器人的世界模型，核心是怎么接觸物體，手指、手腕、肩膀幾十處關節配合，還得處理軟體形變和摩擦力。從車到機器人，不是同一個模型放大，而是換了一個考場。

技術取舍：效率與精度的平衡

酷哇的特殊之處，在于它從第二撥往第三撥跳。

它從另一條路走過來，和中聯環境成立合資公司，在十七個城市跑智慧環衛，2021年營收就過了五億元。創始人何弢早年提出先難后易，把最難的城市場景先啃下來，再降維做環衛和城配。五十PB非結構化真實世界數據和萬臺終端，意味著它的模型是在真實的雨雪、逆行、擁堵里喂出來的。這份履歷讓它有資格做減法。

這種減法不是等技術成熟后拿來即用，而是基于自己的場景和數據，在世界模型的路線上做務實取舍。城市開放道路的數據和運營網絡，對同場景的移動智能有復用價值，但向人形精細操作遷移，鴻溝仍在，目前未見公開驗證。

CooWAIM 2.0的核心是DAWN架構，其底層為WAIM交互式世界動作模型。它不渲染高分辨率未來畫面，而是通過Auto-Encoder Resampler模塊，將繁雜的視覺特征壓縮成16個核心語義Token。

這個取舍很像切菜時剔除筋膜，只保留最精華的部分。路網幾何、障礙物拓撲、本體狀態，這些被精準保留，冗余信息被剔除。

推理延遲因此壓到331.3毫秒，效率提升近3倍。在NAVSIM基準測試中，其PDMS得分達89.1；在nuScenes閉環規劃中，平均軌跡誤差降至0.33米。

WAIM交互式世界動作模型通過在隱式空間中進行短程推演，與不推演（Fast-WAM）和全程推演后再執行動作預測的兩個極端相比，取得了效果和效率上的最佳平衡

更關鍵的是推演策略。

市面上有些世界模型遵循先預測后規劃的范式，就像一個人打麻將，必須先把所有人的出牌可能都推演完，再決定自己怎么出。這種單向滯后的方式，往往忽略了出牌本身就在實時改寫牌局。

DAWN架構不再將世界預測和動作生成視為兩個獨立任務，而是讓它們在推理過程中像辯論一樣互相修正。模型在隱空間中進行短時推演，動作降噪器與世界預測器通過多輪迭代交互，實現邊推演邊執行。

這種交互式推演，恰好處于不推演與全程推演后再執行兩個極端之間。不推演意味著盲動，全程推演再執行則意味著單向滯后。DAWN只推演2到3秒的短程未來，不賭長局。在nuScenes閉環規劃測試中，平均軌跡誤差降到0.33米，NAVSIM的PDMS得分89.1。

現實挑戰：從榜單領先到規模化落地

這種輕量化有代價。跟英偉達Cosmos那種千億級參數的閉源大模型比，酷哇的生態完善度和商業配套成熟度確實弱。世界模型賽道目前也還沒有統一標準，從榜單到真實場景，中間隔著規模化落地的鴻溝。

智元GE 2.0近期在WorldArena特定賽道登頂，星動紀元Ctrl-World拿下具身任務能力全球第一，北京人形Pelican-Unify成為雙冠王，但這些成績主要發生在榜單和實驗室環境。作為新發布的世界模型，它們的生態成熟度和真實場景驗證周期仍待觀察。對酷哇而言，雖然已在智慧環衛、出行等領域積累五十PB數據并實現萬臺級終端部署，但如何將這些數據優勢轉化為跨場景、跨本體的通用泛化能力，仍是行業共同面臨的難題。大多數世界模型公司仍處于高投入期，數據采集成本極高，系統復雜，真正實現大規模商業化盈利的企業仍是鳳毛麟角。

酷哇的DAWN架構已經全面開源。在Robotaxi、城市服務、特種作業等高價值場景中，這種具備交互式物理推演能力的模型或許有更大想象空間，但目前主要閉環仍在環衛與城配領域。世界模型賽道仍處于早期收斂期，技術路徑尚未完全統一。

智能的本質是交互，不是預測

酷哇科技技術負責人表示：“我們相信，世界模型的價值不在于被動描繪未來，而在于讓推演與行動在交互中共同演化。CooWAIM 2.0不僅是算法架構的升級，更是對‘智能源于交互’這一本質的回歸。”

隨著DAWN架構的全面開源，酷哇科技正推動具身智能從“單一任務執行”向“通用物理推理”演進。在Robotaxi、城市服務、特種作業等高價值場景中，這種具備“交互式物理推演”本能的機器人，或將重新定義人機共存的城市生態。

當機器人不再只是“執行者”，而是能像人一樣在動作與環境的互動中實時思考，我們離真正的通用具身智能確實更近了一步，但這一步的跨越，仍需要時間的沉淀與產業鏈的協同。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.