機器之心發布
在南加州大學,王越的 PSI Lab(Physical Superintelligence Lab)是過去兩三年里具身智能方向上升最快的年輕團隊之一。
王越 2022 年從 MIT EECS 博士畢業,畢業前曾在 NVIDIA 自動駕駛研究組做研究科學家;2023 年入職 USC 計算機系任助理教授,并隨即創辦 PSI Lab。讀博期間,他曾獲得 2020 年 NVIDIA Graduate Fellowship;任教之后,又陸續獲得 Toyota Young Faculty Researcher、Powell Faculty Fellowship 等榮譽。
他的早期代表作包括點云理解經典工作DGCNN、DCP,以及自動駕駛3D 感知方法 DETR3D。其中,DGCNN 是點云深度學習里繞不開的一篇論文,也長期位列 ACM Transactions on Graphics 高引用論文前列。
PSI Lab 成立時間不長,但學生團隊的產出密度很高。過去兩三年,組內學生已經拿到 NVIDIA Fellowship、Qualcomm Fellowship、Capital One、Annenberg、Amazon 等多項獎學金和研究資助,本科生也獲得過 CRA 杰出本科研究者相關榮譽。對一個年輕實驗室來說,這樣的獲獎和產出密度并不常見
這條路徑也解釋了 PSI Lab 的位置:它不是從純 CV 突然轉向機器人,也不是只做控制,而是站在 3D 世界理解、物理世界感知和真實機器人任務的交叉點上。實驗室現在的方向覆蓋人形機器人、靈巧操作、從人類視頻學習機器人策略,以及面向真實部署的數據和學習系統
![]()
PSI Lab 主頁
在今年 CVPR 2026 的具身智能 Workshop 上,王越帶領的 PSI Lab 和合作者一口氣拿下三項獎。
Psi-0 拿了 3D-LLM/VLA Workshop 的 Best Paper,PhysWorld 則是同一個 Workshop 的 Best Paper Runner-up,Humanoid Everyday 也拿到 Embodied AI Workshop (EAI) 的 Best Paper。三篇之后也都進了各自方向的主會:Psi-0 被 RSS 2026 錄用,PhysWorld 和 Humanoid Everyday 均被 ICRA 2026 錄用。
它們正好落在人形機器人當前最缺的三個環節。Humanoid Everyday 解決的是數據 —— 開放世界里人形機器人的日常操作數據,以及配套的評測基準;Psi-0 往上一層,要訓練一個能遷移到人形身體上的基礎動作模型;PhysWorld 再往前一步,讓模型不止” 看懂” 眼前的世界,還能預測一個動作做下去之后、世界會變成什么樣。
如果把人形機器人當成一個需要長期搭建的系統,而不是一次性的 demo,這三件事其實串成了一條相對完整的路徑:先拿到足夠真實、足夠多樣的數據,再用這些數據訓出能落到機器人身體上的基礎模型,最后讓模型具備對動作后果的預測能力。
![]()
王越老師
Psi-0:人形機器人的基礎模型框架
Psi-0 的全稱是Ψ?:An Open Foundation Model Towards Universal Humanoid Loco-Manipulation
Loco-manipulation,指的是移動和操作結合在一起的任務。比如推車、遞送、倒水、清潔、開水龍頭、拉椅子。機器人不是固定在桌前抓取一個物體,而是要移動身體、協調雙臂和手部動作,并在長程任務中持續處理場景狀態變化。
![]()
這類任務更接近人形機器人未來要面對的真實應用,也比桌面操作更復雜。
一個直接的問題是:人形機器人基礎模型應該用什么數據訓練。
過去一種思路,是把人類視頻、機器人軌跡和其他多模態數據放在一起訓練。但人和機器人并不是同一個 embodiment。人的手臂長度、關節范圍、手指靈活性、運動方式,都和人形機器人不同。人類視頻中包含豐富的操作經驗和物體交互過程,但它們不能直接等同于機器人可執行動作。
Psi-0 采用的是分階段訓練。
第一步,用約829 小時 EgoDex 第一人稱人類視頻做預訓練。第一人稱視頻更接近操作發生時的視角,能夠提供手如何接近物體、物體如何被移動、視野如何隨動作變化等人類操作先驗。這里學習是寬泛的視覺、交互和任務過程先驗。
而且這類數據天然易于規模化:不靠遙操作、也不需要專門采集設備,一部頭戴相機甚至一部手機就能錄,量級遠大于真機示教數據。
第二步,用約31 小時 Humanoid Everyday 人形機器人軌跡做后訓練。這個階段的作用,是把預訓練階段學到的操作和交互先驗,進一步對齊到人形機器人的身體結構、動作空間和真實控制約束上。
第三步,再用少量目標任務數據做適配。模型不是為每個任務從零開始學習,而是在已有的人類視頻先驗和人形機器人動作能力基礎上,繼續調整到具體任務。
因此,Psi-0 關心的不是簡單擴大機器人數據規模,而是如何組織不同來源的數據。人類第一視角視頻提供規模化的操作先驗,真實人形機器人軌跡提供 embodiment 對齊,少量目標任務數據完成具體適配
這篇工作的意義在于,它把人形機器人 foundation model 的訓練問題,拆成了更清楚的階段:先從人類數據中學習可遷移的交互先驗,再通過機器人數據把這些先驗落到可執行動作上。
不是把所有數據直接混在一起,而是讓人類視頻和機器人軌跡在不同階段承擔不同角色。
PhysWorld:世界模型開始負責物理
PhysWorld 的論文名是Robot Learning from a Physical World Model
在機器人語境里,世界模型關心的是:給定當前狀態和可能的動作,世界接下來會怎么變化。
過去一年,很多世界模型工作主要以視頻預測或視頻生成的形式出現。給定一張圖、一個任務指令,模型生成一段未來視頻。視頻越穩定、越真實,往往越像是在 “理解世界”。
但對機器人來說,視覺上合理還不夠。
一個視頻模型可以生成 “手把杯子推走” 的畫面,但這不等于它已經掌握了機器人真正需要的物理信息:杯子的位姿如何變化,接觸點是否成立,摩擦和支撐關系是否合理,生成的運動能不能由機器人自己的身體執行。
PhysWorld 處理的正是這個中間環節。它不是把世界模型停在未來視頻生成上,而是嘗試把視頻生成、物理世界重建和機器人策略學習連接起來。
![]()
流程可以拆成三步:先給定圖像和任務指令,生成任務相關視頻;再從視頻中重建背后的物理世界,形成以物體為中心的場景表示;最后通過object-centric residual reinforcement learning,把視覺預測進一步轉化為機器人可執行的軌跡。
這里的object-centric,指的是圍繞物體來組織場景和動作信息。機器人操作里,真正重要的通常不是整張圖,而是目標物體的位置、姿態、運動,以及它和機器人、桌面、其他物體之間的接觸關系。
Residual RL可以理解成在已有視覺指導的基礎上,再通過強化學習做物理層面的修正,讓動作更符合機器人動力學和環境約束。
所以,PhysWorld 真正關心的不是視頻質量本身,而是physical actionability:世界模型預測出來的未來,能不能進一步轉成機器人可執行的軌跡。
如果一個世界模型只能生成視覺上合理的未來,它主要還是一個生成模型;只有當這些預測能夠進入機器人訓練和控制鏈路,它才開始接近機器人真正需要的世界模型。
Humanoid Everyday:開放世界人形操作的數據與評測底座
Humanoid Everyday 是一個面向開放世界人形操作的數據集和評測平臺,全稱是A Comprehensive Robotic Dataset for Open-World Humanoid Manipulation
![]()
它關注的是人形機器人學習里一個基礎問題:如何構建覆蓋真實場景、復雜任務和多模態感知的數據基礎設施。
相比固定機械臂和桌面操作任務,人形機器人面對的是更開放的任務設置。它不僅要感知物體,還要協調身體、雙臂和移動能力,在家庭、辦公、工業等日常環境中完成長程、接觸豐富的操作任務。移動后操作、搬運、工具使用、柔性物體操作、鉸鏈物體操作、人機交互和高精度操作,都屬于這類問題。
Humanoid Everyday 在這個背景下提出。數據集覆蓋260 個任務、7 類任務、1.03 萬條軌跡、超過 300 萬幀數據,模態包括 RGB、深度、LiDAR、觸覺和自然語言標注。它不僅提供訓練數據,也提供云端評測平臺,讓不同方法可以在統一控制環境中部署和評估。
云端評測平臺是這項工作的一個重要部分。
機器人學習長期面臨一個評測難題:不同論文往往使用不同機器人、不同環境、不同物體和不同任務定義,方法之間很難直接比較。對于開放世界人形操作,這個問題會更明顯,因為任務本身包含移動、接觸、雙臂協同和長程執行,任何環境差異都可能影響結果。
標準化評測的意義,是為模型能力提供一個更穩定的比較坐標。它讓研究者不只是展示某個策略在特定場景中的表現,而是能夠在統一任務和控制設置下,比較不同方法的泛化能力、魯棒性和執行效果。
因此,Humanoid Everyday 的價值不只是數據規模,而是把開放世界人形操作放進一個可訓練、可評測、可復現的研究框架里。
它是人形機器人基礎模型訓練中很關鍵的一層:面向真實日常任務的多模態數據集,以及可以持續比較模型能力的評測基礎設施。
數據、模型、世界預測,被放進同一條鏈路
Humanoid Everyday 更接近數據基礎設施。它關心的是:如果要訓練開放世界中的人形機器人操作能力,真實、可復現、可評測的數據從哪里來。
Psi-0 更接近基礎模型框架。它關心的是:人形機器人能否先從大規模人類第一視角視頻中學習操作先驗,再通過真實人形機器人數據完成后訓練,從而獲得更可遷移的移動操作能力。
PhysWorld 則把問題推進到世界模型。它關心的是:世界模型生成的未來,能否進一步轉化為機器人可執行的軌跡,而不只是停留在視覺上合理的視頻預測。
這三篇工作的對象不同,但可以放進同一個問題鏈條里理解:
數據如何構建。能力如何學習。動作后果如何被預測和利用
這也是人形機器人相比一般 VLA 任務更復雜的地方。機器人不是只在圖像和語言之間建立對應關系,也不是簡單輸出一個動作 token。它要在真實物理環境中移動、接觸、調整姿態,處理物體、地形、身體約束和長程任務中的誤差累積。
因此,對人形機器人來說,單純擴大端到端模型規模,未必能覆蓋全部問題。更重要的是,數據、模型訓練和物理世界預測之間能否形成有效配合。
從這個角度看,Humanoid Everyday、Psi-0 和 PhysWorld 分別落在這條鏈路的不同位置。它們沒有給出一個單一答案,而是共同指向一個更系統的問題:人形機器人基礎能力的形成,可能需要數據底座、機器人原生模型和物理世界預測一起推進。
兩個判斷
第一個判斷:人形機器人需要一套為它重新設計的基礎模型框架 —— 這里包括預訓練、后訓練、部署等環節。
機器人要解決的問題,和 VLM、世界模型本質上并不是一回事。后者的落點是理解和生成,機器人最終要的,是在物理世界里把一個動作做對、做完。把語言或視覺模型那套范式直接搬過來,大概率不合身,更值得做的是一套 robotics-native 的基礎模型,每個環節都按機器人自己的需求來設計
Psi-0 的路線,就是先從人類視頻里學先驗,再用機器人數據落地。這個判斷不會只出現在 Psi-0 里。EgoScale、DreamDojo 這些方向也都在指向同一件事:機器人必須先向人類數據借力,再想辦法跨過 embodiment gap。
第二個判斷:世界模型最重要的問題不是視頻質量,而是物理可執行性。
如果世界模型只是在比誰生成的視頻更清晰、更長、更穩定,那它離機器人還差一步。機器人需要的不是漂亮視頻,而是可執行的未來:杯子會不會滑,接觸點對不對,物體會不會翻倒,動作能不能由機器人自己的身體完成,這些才是真正決定任務成敗的問題。
PhysWorld 指向的正是這個懸而未決的問題:世界模型生成的未來,能不能進入控制閉環。換句話說,世界模型對機器人真正有用的時刻,不是它生成了一段好看的視頻,而是它能幫助機器人判斷下一步怎么做。
這也是王越團隊這組三篇工作的核心脈絡。Humanoid Everyday 解決數據從哪里來,Psi-0 解決人形機器人的基礎動作能力怎么學,PhysWorld 解決動作之后的物理后果怎么預測。三篇放在一起看,它們不是在講一個更大的端到端模型,而是在搭一條更完整的鏈路。
人形機器人的基礎能力,可能不會只來自模型規模的繼續放大。它更可能來自數據底座、機器人原生模型和物理世界預測之間的系統閉環。
- Psi-0 項目頁:https://psi-lab.ai/Psi0/
- PhysWorld 論文:https://arxiv.org/abs/2511.07416
- Humanoid Everyday 項目頁:https://humanoideveryday.github.io/
- PSI Lab 實驗室:https://psi-lab.ai/
文中視頻鏈接:https://mp.weixin.qq.com/s/yWKGcFKVgXbJGUSb77J9Yg
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.