機器人上春晚了,跑馬拉松了,在發布會上翻跟頭了。
但如果你讓它自己疊一件衣服,它大概率會把襯衫揉成一團——然后卡住不動。
讓機器人真正"自主行動",而不是照著寫好的劇本演戲,至今仍然是全球機器人實驗室最頭疼的事情之一。不過今這個月初,英偉達機器人領軍人Jim Fan(范麟熙),在演講中提到,現在讓機器人自主行動的終局之戰,已經來了。
![]()
他說,機器人正在經歷一個"Great Parallel"——也就是復刻大語言模型的進化路線。GPT從海量文本中學會語言,機器人也可以從海量視頻中學會動作。關鍵就在于一種叫做"Ego Data"的東西——人類第一視角數據。
![]()
過去幾年,教機器人干活的主流方法是遙操作:一個人遠程操控機器人做動作,機器人照著學。聽起來很直覺,但問題在于,即使一臺機器人24小時不停地采,一年也就產出幾千小時的數據。這還是理想情況下,事實上,一天能采集5個小時數據,已屬不易了。
![]()
Jim Fan在演講中甚至給遙操作"默哀了一分鐘",說這種方式,根本無法滿足訓練的需求。
而英偉達的EgoScale項目證明了另一條路:用超過2萬小時的Ego數據(人類第一視角)做預訓練,不需要任何機器人參與,就能讓機器人學會組裝模型車、分類撲克牌、折疊襯衫。更關鍵的是,研究團隊發現了一條清晰的Scaling Law——人類視頻數據越多,機器人的操作能力就越強。
![]()
只不過和GPT一樣,這條技術路徑需要的數據也非常龐大。2萬小時是做研究用的量級。而真正訓練一個通用具身大模型,行業測算至少需要1000萬小時的真實場景數據。目前全球高質量實操數據加起來不過幾十萬小時,缺口超過95%。
正因如此,目前全球科技巨頭都在瘋搶這種數據。Meta在發布了3670小時的Ego4D數據集,今年4月Build AI更是一口氣放出了100萬小時的Egocentric-1M,Georgia Tech、斯坦福、MIT和Meta聯合推出的EgoVerse,甚至已經開始用iPhone做標準化采集。一場圍繞人類第一視角數據的軍備競賽,已經全面打響。
而在國內,在Ego數據采集這條賽道上,跑得最快的是京東。
![]()
2026年4月16日,京東在具身智能生態發布會上宣布,全球首推覆蓋"采、存、標、訓、評、仿、測"全鏈路的具身智能數據基礎設施,并放出了一個驚人的目標:不僅將建成全球最大的具身智能數據采集中心,然后兩年內采集1000萬小時人類真實場景數據,外加100萬小時機器人本體數據。
Ego數據到底如何采集?
前兩天,我們去到了坐落在宿遷的京東機器人數據采集中心,看看要完成1000萬小時的數據采集,京東到底在怎么干這件事。
![]()
走進基地,第一個看到的就是京東自研的JoyEgoCam采集終端。
![]()
這是一個頭戴式設備,雙目4K/60fps,重投影誤差小于0.2個像素,整機只有220克,大概就是一部手機的重量。并且還內置了IMU和推理單元,在各種環境下都能做到毫米級精準采集。
我自己也上手戴了一下。說實話,比想象中要輕,戴上之后幾乎沒有什么負擔感,正常做動作完全不受影響。
![]()
基地里面搭建了各種各樣的場景,走一圈下來像逛了一個微縮版的真實世界。商超的貨架區,采集員在反復碼放貨品;藥店區域還原了真實的藥房柜臺,采集員在做藥品分揀和上架的動作。
![]()
家政區域更是細致,擦桌子、疊衣服、整理收納、地面清潔,每一個動作都有人反復在做。到處都能看到戴著JoyEgoCam工作人員的忙碌身影。
![]()
不只是Ego數據。基地里也有專門的遙操作數據采集區域,工作人員通過遠程操控機器人完成特定任務,兩種數據路線并行推進。
![]()
正因為JoyEgoCam夠輕、夠便攜,它可以基地搭建的場景,直接進入到真實的生活的場景里。
比如京東和宿遷政府合作,把采集直接鋪進了社區——全職媽媽、退休人員、大學生,戴上設備在自己家里就可以采集。
![]()
擦桌子、疊衣服、打掃衛生,設備自動記錄上肢軌跡、人與環境的交互關系。時間完全自由,一天2到6個小時,一周五天,多勞多得。說白了:你在家把家務干了,順便就把錢賺了。
![]()
相較于家政,進入到的養老院的采集更值得關注。
以宿遷老年醫院為例,在職護工數量不夠,并且基本上都是50歲左右的中年人。對于年輕人來講,護工這份工作認可度低,又苦又累,沒人愿意來。醫院曾經向20多個持證年輕人發出實習邀請,最終只有1個人愿意來。
而現在,護工戴著JoyEgoCam工作,協助老人起身、喂藥、康復訓練的動作被完整記錄,這些數據將成為養老機器人的訓練數據。
![]()
將來,機器人能在攙扶、搬運這些場景上部分鋪開,把最辛苦的體力活分擔掉,對養老行業就是巨大的幫助。這對日益加速的老齡化社會是剛需。
從社區到養老院,看得出來,京東正逐漸把Ego數據采集擴展到各行各業的實際場景中去,構建起一套覆蓋全場景的數據集。
![]()
不只是采集
采集只是第一步,在基地,采集過后的數據依次經歷存儲、標注、訓練、評測、仿真、測試等一系列處理,才能進入到可訓練的高質量數據集。
![]()
京東云的AI數據湖和JoyBuilder平臺承擔了這部分工作——作為行業首家支持千卡級LeRobot開源訓練框架的AI開發平臺,訓練效率比開源社區版本提升3.5倍,千卡訓練時間從15小時縮短到22分鐘,提速40倍。
![]()
京東還有自己的具身大模型JoyAI-RA,以自采數據為核心進行訓練,在真機實驗中成功率達到了73.5%,超過了pi0.5等此前的SOTA模型。
模型反過來又指導數據采集策略的優化,形成了"數據喂模型、模型優化數據"的飛輪——采的數據越多,模型越強;模型越強,對數據質量的把控越精準,采集效率也跟著提高。
![]()
在全鏈路上,京東不僅打造數據采集全鏈路技術棧,還上線了數據交易平臺。
首批2000小時高精標注數據集已定向開放,幾十家企業和高校在對接。數據流向三個方向:京東自用訓練模型、通過交易平臺賦能產業界、定向開放給高校和科研機構推動前沿研究。合規方面,入家采集需簽授權協議,數據傳輸全程加密,權限管控在云平臺上執行,交易環節與監管機構做了溝通和備案。
![]()
所以京東做的不是一個單點的采集項目,而是一整套從數據采集到模型訓練再到數據交易的基礎設施。它給整個具身智能行業提供最底層的"燃料"。
具身智能的下半場,正在到來
回過頭來看整個具身智能行業,有一個很形象的說法:機器人的"小腦"已經逐漸發育完全了——走、跑、跳、翻跟頭,但想進入人類生活,靠的是"大腦"。
現在的機器人擅長基礎運動,卻無法完成疊衣服、擦桌子、分揀藥品這些對人類來說再簡單不過的日常操作,整個產業還停留在"炫技"階段。要讓機器人從"會動"進化到"會干活",關鍵不在硬件,而在數據。
![]()
機器人"小腦發達、大腦不足",擅長跑跳等基礎動作,卻無法完成家務、精細操作等實用任務。整個產業還停留在"炫技"階段。
大腦的發育靠什么?靠數據。這就是京東做這件事的底層邏輯。他們的目標很明確:兩年內積累1000萬小時人類真實場景視頻數據,外加100萬小時機器人本體數據。
為此,京東計劃發動多達60萬人參與采集——內部10萬員工,加上外部50萬各行業人員,僅在宿遷一地就要動員超過10萬市民。京東自身3600多個倉庫、20萬家合作藥房、1萬多家線下門店、5萬多名保潔師,每年服務近千萬個家庭,覆蓋3000多個業務場景——這些真實場景本身就是天然的數據富礦。
![]()
過去幾年,AI的主戰場在數字世界——寫文章、畫圖、寫代碼,一切都發生在屏幕里。而未來,AI的主戰場將轉移到物理世界。或許正是基于這樣的判斷,5月18日的京東618啟動會上,京東集團技術委員會主席曹鵬明確提出,京東將打造全球最大物理世界運營中心,推動AI從千行百業走進千家萬戶。
![]()
說白了,AI要從屏幕里走出來,光會寫文章畫圖不夠,它得學會在真實世界里干活。而干活這件事,沒有捷徑,就是得看夠足夠多的人類操作——怎么擦桌子,怎么扶老人,怎么摘果子。這些數據不可能在實驗室里編出來,只能從真實的生活里一幀一幀地采。
機器人的Scaling Law找到了,方向明確了,剩下就是一個字:喂。誰能最快喂夠數據,誰的機器人就先聰明起來。京東的做法簡單直接——發動60萬人,在真實生活里給機器人當老師。
當60萬人的生活經驗都變成了數據,Jim Fan說的那場終局之戰,才算真正開始。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.