網易首頁 > 網易號 > 正文申請入駐

頭號玩家照進現實！NTU發布世界模型交互新范式，攻克主動操作難題

2026-04-14 12:32:45　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】南洋理工大學MMLab團隊推出Hand2World，讓AI世界模型真正「伸手」互動。只需在空中比劃手勢，模型就能生成逼真第一人稱交互視頻，實時響應調整。它摒棄舊有遮擋誤導，用3D手部結構與射線編碼解耦手與頭運動，首次實現閉環持續交互。基于單目視頻全自動標注，為AR、機器人交互鋪路。世界模型不再只是「看」，而是能「觸」。

Sora能生成逼真的視覺世界，Genie 3能讓你在3D場景中自由探索——但你始終只能「看」，沒法伸手進去抓一下桌上的杯子。

當下的世界模型已經擁有了「眼睛」和「腿」——能感知環境、能移動視角，卻始終缺少一雙「手」。

能看能動但不能交互，是世界模型從被動觀察邁向主動操控的最后一道坎。而人類與物理世界交互的最原生接口，就是手勢。

南洋理工大學MMLab團隊提出了Hand2World[1]——給一張場景照片，用戶只需在空中做出手勢動作，AI 就能生成手伸進場景里抓杯子、翻書、開盒子的逼真第一人稱視頻。而且這不是一次性生成：用戶可以邊看生成結果邊調整手勢，模型實時跟進——形成真正的閉環交互。

論文地址：https://arxiv.org/abs/2602.09600

項目主頁：https://hand2world.github.io

為什么現有方法搞不定？

想象你訓練了一個 AI，讓它看了上萬段人手抓杯子的視頻。現在給它一只在空氣中揮舞的手——它就無所適從了。因為訓練數據里手永遠被杯子、書本擋著一半，AI 從沒見過「完整的手」長什么樣。結果面對完整手形，它反而憑空生出了不存在的遮擋物。

這就是所有基于 2D 手部 mask 方法的致命傷——訓練時看到的是殘缺的手，推理時卻收到完整的手，分布直接錯配。下圖清楚地展示了這一點：上排訓練場景中 mask 被物體截斷，下排憑空手勢中 mask 完整，現有方法（如 CosHand）因此產生嚴重偽影。

mask分布錯配 vs Hand2World的遮擋不變條件信號

雪上加霜的是，第一人稱視頻中手部運動和佩戴者的頭部轉動在畫面上完全糾纏——模型分不清「是手在動還是頭在動」，背景就會跟著手一起漂移。

近期也有工作嘗試推進第一人稱世界模型——如PlayerOne[2]通過第一人稱與第三人稱相機同步配對來建模自我運動，取得了重要進展。

但這一路線既限制了數據的可擴展性，也使實際應用受限。能否僅從單目視頻出發，同時解決上述所有問題？這正是Hand2World的研究出發點。

Hand2World怎么做到的？

方法流程圖

讓模型「看見」完整的手

Hand2World徹底拋棄了2D mask。它從單目視頻中恢復完整的 3D 手部 mesh（MANO 模型），投影到圖像平面，渲染為「填充輪廓 + 線框疊層」的復合信號。無論手是否被物體遮擋，這個控制信號的格式始終一致。

關鍵 insight：遮擋關系不是硬編碼在輸入信號里的，而是交給生成模型根據場景上下文自行推斷。線框疊層還能在手掌朝向相機、手指相互遮擋時提供額外的關節結構信息——這是純輪廓做不到的。

分清「手在動」還是「頭在動」

移除相機建模模塊后，FVD從218直接飆到815——背景開始跟著手一起漂移。

Hand2World 用逐像素的 Plücker 射線嵌入顯式編碼相機運動，通過一個輕量級adapter以加法方式注入擴散模型。這一招將手部關節運動和頭部自運動徹底解耦。

相機控制消融對比。無相機條件時（上排）背景嚴重漂移，加入Plücker射線后（中排）與真實視頻（下排）高度一致。

閉環交互，無限續寫

Hand2World將雙向擴散教師模型蒸餾為因果自回歸生成器，通過 KV cache 維持時序連貫，支持流式輸出。這使得整個系統形成閉環——用戶邊看邊調整手勢，模型持續響應，交互可以無限進行下去。

實驗結果

三個數據集全面領先

在ARCTIC、HOT3D、HOI4D三個第一人稱交互數據集上均取得最優結果。以 ARCTIC 為例：

FVD：908 →218（降幅76%）
相機軌跡誤差：0.13 →0.07（降幅42%）
DINO 語義相似度：0.80 →0.88
深度一致性：Depth-ERR 從 22.51 降至16.14

蒸餾后的Hand2World-AR性能接近教師模型（FVD 232），單卡A100達8.9FPS。

具身智能的數據飛輪：全自動單目標注

Hand2World 的訓練數據從哪來？與 PlayerOne等依賴多目同步采集的方案不同，團隊開發了一套全自動的單目標注流水線——不需要多目相機陣列，不需要人工標注，直接從普通的第一人稱視頻中自動提取手部 mesh、相機軌跡和訓練數據對。這意味著任何一段現成的 egocentric 視頻都可以被轉化為訓練信號——為具身智能的大規模數據收集提供了真正可擴展的方案。

從「看見世界」到「觸碰世界」

作為將手勢交互引入世界模型的一次初步嘗試，Hand2World 構建了一套從數據標注到閉環生成的完整系統。在視頻生成能力快速提升的當下，這套系統有望應用于 AR/MR 眼鏡手勢交互、機器人手-物交互數據合成、以及從單張照片構建可交互虛擬環境。

當世界模型不再只是被動地生成畫面，而是能響應用戶的每一個手勢并持續演化——從「看見世界」到「觸碰世界」的距離，或許比我們想象的更近。

參考資料：

[1] Wang et al., "Hand2World: Autoregressive Egocentric Interaction Generation via Free-Space Hand Gestures," arXiv:2602.09600, 2026.

[2] Tu et al., "PlayerOne: Egocentric World Simulator," Advances in Neural Information Processing Systems (NeurIPS), 2025.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.