![]()
作者| 張志峰
編輯|周遠方
2026年5月,世界模型賽道至少有三件事值得記住。智元GE 2.0在WorldArena登頂,星動紀元Ctrl-World拿了具身任務能力全球第一,北京人形Pelican-Unify成了雙冠王。
它們都在回答同一個問題。機器人到底該先建一座虛擬健身房,還是直接在真實世界里摔打。
同一個月,酷哇科技發布了CooWAIM 2.0。前三個在刷榜,酷哇在刷街。它的測試場是蕪湖某條輔路,主角是一臺正在貼邊作業的無人清掃車。
![]()
假如這時路口突然沖出一輛逆行電動車,它不會停下來把整條街的三維畫面在腦子里推演一遍,而是邊減速邊微調方向,在三百毫秒內完成避讓。
酷哇相關負責人把這個能力概括為一句話,CooWAIM 2.0在打麻將般的博弈和切菜式的精細操作中,比同類模型更快。他進一步解釋,就像人類打麻將時會預判他人反應、切菜時會感知食材觸感,真正的智能源于動作與環境的實時閉環。
這個閉環本身并非酷哇獨有。智元用GE 2.0建全功能世界模擬器,讓機器人在虛擬環境里試錯進化。星動紀元走VLA與世界模型融合路線,用分頻端到端打通感知與動作。北京人形則以國家隊身份推進大一統物理智能回路。它們代表了當前世界模型的三條主路。
但酷哇走了一條更輕的路。它不問機器人能不能在虛擬世界里推完一萬次杯子,只問下一秒別撞上那輛電動車。
![]()
三路分兵,一路刷街
目前,全球科技巨頭在世界模型賽道上呈現出不同的技術流派。
第一撥做視頻生成,谷歌Genie 3、阿里Happy Oyster、OpenAI Sora,核心能力是生成逼真的未來畫面,一幀一幀預測像素變化。圖靈獎得主楊立昆曾指出,預測像素變化不等于理解物理世界,生成一段杯子掉落的視頻,不代表模型懂得重力和材料力學。但在輿論場里,視頻生成和世界模型常被混為一談。Meta的V-JEPA 2走另一條路,不渲染畫面,只提煉物理規律的因果理解,像一位只看棋譜不摸棋子的理論派。
第二撥做自動駕駛仿真。Waymo、特斯拉、蔚來NWM,這撥人其實最老資格,早就在用閉環仿真器測試極端路況、跑安全corner case,只是以前叫仿真器或數字孿生,生成式AI能力提升后,虛擬場景真假難辨,順勢把名字升級成了世界模型。他們的核心任務是預測自車響應和交通流演化,動作空間被嚴格限制在方向盤、油門、剎車兩三個自由度里,目標是避免接觸,而非理解接觸。
第三撥做機器人與具身智能。智元、星動紀元、北京人形都在這個陣營,他們強調世界模型必須是動作條件化的,即預測的不是下一幀畫面,而是我做了這個動作以后世界怎么變。這撥人要處理的是手指、手腕、肩膀幾十甚至上百個自由度的協調,要理解推杯子會不會倒、擰瓶蓋用多大力、疊毛巾時布料如何形變。道路有車道線和交通燈,規律性強,家庭與工廠里的物體材質、擺放方式、任務目標變化巨大,沒有天然的幾何約束,數據形態和計算復雜度與自動駕駛不在一個量級。
自動駕駛的世界模型,核心是避免接觸,動作空間就兩三個維度。人形機器人的世界模型,核心是怎么接觸物體,手指、手腕、肩膀幾十處關節配合,還得處理軟體形變和摩擦力。從車到機器人,不是同一個模型放大,而是換了一個考場。
![]()
![]()
技術取舍:效率與精度的平衡
酷哇的特殊之處,在于它從第二撥往第三撥跳。
它從另一條路走過來,和中聯環境成立合資公司,在十七個城市跑智慧環衛,2021年營收就過了五億元。創始人何弢早年提出先難后易,把最難的城市場景先啃下來,再降維做環衛和城配。五十PB非結構化真實世界數據和萬臺終端,意味著它的模型是在真實的雨雪、逆行、擁堵里喂出來的。這份履歷讓它有資格做減法。
這種減法不是等技術成熟后拿來即用,而是基于自己的場景和數據,在世界模型的路線上做務實取舍。城市開放道路的數據和運營網絡,對同場景的移動智能有復用價值,但向人形精細操作遷移,鴻溝仍在,目前未見公開驗證。
CooWAIM 2.0的核心是DAWN架構,其底層為WAIM交互式世界動作模型。它不渲染高分辨率未來畫面,而是通過Auto-Encoder Resampler模塊,將繁雜的視覺特征壓縮成16個核心語義Token。
這個取舍很像切菜時剔除筋膜,只保留最精華的部分。路網幾何、障礙物拓撲、本體狀態,這些被精準保留,冗余信息被剔除。
推理延遲因此壓到331.3毫秒,效率提升近3倍。在NAVSIM基準測試中,其PDMS得分達89.1;在nuScenes閉環規劃中,平均軌跡誤差降至0.33米。
![]()
WAIM交互式世界動作模型通過在隱式空間中進行短程推演,與不推演(Fast-WAM)和全程推演后再執行動作預測的兩個極端相比,取得了效果和效率上的最佳平衡
更關鍵的是推演策略。
市面上有些世界模型遵循先預測后規劃的范式,就像一個人打麻將,必須先把所有人的出牌可能都推演完,再決定自己怎么出。這種單向滯后的方式,往往忽略了出牌本身就在實時改寫牌局。
DAWN架構不再將世界預測和動作生成視為兩個獨立任務,而是讓它們在推理過程中像辯論一樣互相修正。模型在隱空間中進行短時推演,動作降噪器與世界預測器通過多輪迭代交互,實現邊推演邊執行。
這種交互式推演,恰好處于不推演與全程推演后再執行兩個極端之間。不推演意味著盲動,全程推演再執行則意味著單向滯后。DAWN只推演2到3秒的短程未來,不賭長局。在nuScenes閉環規劃測試中,平均軌跡誤差降到0.33米,NAVSIM的PDMS得分89.1。
![]()
現實挑戰:從榜單領先到規模化落地
這種輕量化有代價。跟英偉達Cosmos那種千億級參數的閉源大模型比,酷哇的生態完善度和商業配套成熟度確實弱。世界模型賽道目前也還沒有統一標準,從榜單到真實場景,中間隔著規模化落地的鴻溝。
智元GE 2.0近期在WorldArena特定賽道登頂,星動紀元Ctrl-World拿下具身任務能力全球第一,北京人形Pelican-Unify成為雙冠王,但這些成績主要發生在榜單和實驗室環境。作為新發布的世界模型,它們的生態成熟度和真實場景驗證周期仍待觀察。對酷哇而言,雖然已在智慧環衛、出行等領域積累五十PB數據并實現萬臺級終端部署,但如何將這些數據優勢轉化為跨場景、跨本體的通用泛化能力,仍是行業共同面臨的難題。大多數世界模型公司仍處于高投入期,數據采集成本極高,系統復雜,真正實現大規模商業化盈利的企業仍是鳳毛麟角。
酷哇的DAWN架構已經全面開源。在Robotaxi、城市服務、特種作業等高價值場景中,這種具備交互式物理推演能力的模型或許有更大想象空間,但目前主要閉環仍在環衛與城配領域。世界模型賽道仍處于早期收斂期,技術路徑尚未完全統一。
![]()
![]()
智能的本質是交互,不是預測
酷哇科技技術負責人表示:“我們相信,世界模型的價值不在于被動描繪未來,而在于讓推演與行動在交互中共同演化。CooWAIM 2.0不僅是算法架構的升級,更是對‘智能源于交互’這一本質的回歸。”
隨著DAWN架構的全面開源,酷哇科技正推動具身智能從“單一任務執行”向“通用物理推理”演進。在Robotaxi、城市服務、特種作業等高價值場景中,這種具備“交互式物理推演”本能的機器人,或將重新定義人機共存的城市生態。
當機器人不再只是“執行者”,而是能像人一樣在動作與環境的互動中實時思考,我們離真正的通用具身智能確實更近了一步,但這一步的跨越,仍需要時間的沉淀與產業鏈的協同。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.