網易首頁 > 網易號 > 正文申請入駐

全球大廠不僅搶芯片，也開始搶你疊衣服的視頻了

2026-05-26 10:47:43　來源: 酷玩實驗室

北京舉報

分享至

機器人上春晚了，跑馬拉松了，在發布會上翻跟頭了。

但如果你讓它自己疊一件衣服，它大概率會把襯衫揉成一團——然后卡住不動。

讓機器人真正"自主行動"，而不是照著寫好的劇本演戲，至今仍然是全球機器人實驗室最頭疼的事情之一。不過今這個月初，英偉達機器人領軍人Jim Fan（范麟熙），在演講中提到，現在讓機器人自主行動的終局之戰，已經來了。

他說，機器人正在經歷一個"Great Parallel"——也就是復刻大語言模型的進化路線。GPT從海量文本中學會語言，機器人也可以從海量視頻中學會動作。關鍵就在于一種叫做"Ego Data"的東西——人類第一視角數據。

過去幾年，教機器人干活的主流方法是遙操作：一個人遠程操控機器人做動作，機器人照著學。聽起來很直覺，但問題在于，即使一臺機器人24小時不停地采，一年也就產出幾千小時的數據。這還是理想情況下，事實上，一天能采集5個小時數據，已屬不易了。

Jim Fan在演講中甚至給遙操作"默哀了一分鐘"，說這種方式，根本無法滿足訓練的需求。

而英偉達的EgoScale項目證明了另一條路：用超過2萬小時的Ego數據（人類第一視角）做預訓練，不需要任何機器人參與，就能讓機器人學會組裝模型車、分類撲克牌、折疊襯衫。更關鍵的是，研究團隊發現了一條清晰的Scaling Law——人類視頻數據越多，機器人的操作能力就越強。

只不過和GPT一樣，這條技術路徑需要的數據也非常龐大。2萬小時是做研究用的量級。而真正訓練一個通用具身大模型，行業測算至少需要1000萬小時的真實場景數據。目前全球高質量實操數據加起來不過幾十萬小時，缺口超過95%。

正因如此，目前全球科技巨頭都在瘋搶這種數據。Meta在發布了3670小時的Ego4D數據集，今年4月Build AI更是一口氣放出了100萬小時的Egocentric-1M，Georgia Tech、斯坦福、MIT和Meta聯合推出的EgoVerse，甚至已經開始用iPhone做標準化采集。一場圍繞人類第一視角數據的軍備競賽，已經全面打響。

而在國內，在Ego數據采集這條賽道上，跑得最快的是京東。

2026年4月16日，京東在具身智能生態發布會上宣布，全球首推覆蓋"采、存、標、訓、評、仿、測"全鏈路的具身智能數據基礎設施，并放出了一個驚人的目標：不僅將建成全球最大的具身智能數據采集中心，然后兩年內采集1000萬小時人類真實場景數據，外加100萬小時機器人本體數據。

Ego數據到底如何采集？

前兩天，我們去到了坐落在宿遷的京東機器人數據采集中心，看看要完成1000萬小時的數據采集，京東到底在怎么干這件事。

走進基地，第一個看到的就是京東自研的JoyEgoCam采集終端。

這是一個頭戴式設備，雙目4K/60fps，重投影誤差小于0.2個像素，整機只有220克，大概就是一部手機的重量。并且還內置了IMU和推理單元，在各種環境下都能做到毫米級精準采集。

我自己也上手戴了一下。說實話，比想象中要輕，戴上之后幾乎沒有什么負擔感，正常做動作完全不受影響。

基地里面搭建了各種各樣的場景，走一圈下來像逛了一個微縮版的真實世界。商超的貨架區，采集員在反復碼放貨品；藥店區域還原了真實的藥房柜臺，采集員在做藥品分揀和上架的動作。

家政區域更是細致，擦桌子、疊衣服、整理收納、地面清潔，每一個動作都有人反復在做。到處都能看到戴著JoyEgoCam工作人員的忙碌身影。

不只是Ego數據。基地里也有專門的遙操作數據采集區域，工作人員通過遠程操控機器人完成特定任務，兩種數據路線并行推進。

正因為JoyEgoCam夠輕、夠便攜，它可以基地搭建的場景，直接進入到真實的生活的場景里。

比如京東和宿遷政府合作，把采集直接鋪進了社區——全職媽媽、退休人員、大學生，戴上設備在自己家里就可以采集。

擦桌子、疊衣服、打掃衛生，設備自動記錄上肢軌跡、人與環境的交互關系。時間完全自由，一天2到6個小時，一周五天，多勞多得。說白了：你在家把家務干了，順便就把錢賺了。

相較于家政，進入到的養老院的采集更值得關注。

以宿遷老年醫院為例，在職護工數量不夠，并且基本上都是50歲左右的中年人。對于年輕人來講，護工這份工作認可度低，又苦又累，沒人愿意來。醫院曾經向20多個持證年輕人發出實習邀請，最終只有1個人愿意來。

而現在，護工戴著JoyEgoCam工作，協助老人起身、喂藥、康復訓練的動作被完整記錄，這些數據將成為養老機器人的訓練數據。

將來，機器人能在攙扶、搬運這些場景上部分鋪開，把最辛苦的體力活分擔掉，對養老行業就是巨大的幫助。這對日益加速的老齡化社會是剛需。

從社區到養老院，看得出來，京東正逐漸把Ego數據采集擴展到各行各業的實際場景中去，構建起一套覆蓋全場景的數據集。

不只是采集

采集只是第一步，在基地，采集過后的數據依次經歷存儲、標注、訓練、評測、仿真、測試等一系列處理，才能進入到可訓練的高質量數據集。

京東云的AI數據湖和JoyBuilder平臺承擔了這部分工作——作為行業首家支持千卡級LeRobot開源訓練框架的AI開發平臺，訓練效率比開源社區版本提升3.5倍，千卡訓練時間從15小時縮短到22分鐘，提速40倍。

京東還有自己的具身大模型JoyAI-RA，以自采數據為核心進行訓練，在真機實驗中成功率達到了73.5%，超過了pi0.5等此前的SOTA模型。

模型反過來又指導數據采集策略的優化，形成了"數據喂模型、模型優化數據"的飛輪——采的數據越多，模型越強；模型越強，對數據質量的把控越精準，采集效率也跟著提高。

在全鏈路上，京東不僅打造數據采集全鏈路技術棧，還上線了數據交易平臺。

首批2000小時高精標注數據集已定向開放，幾十家企業和高校在對接。數據流向三個方向：京東自用訓練模型、通過交易平臺賦能產業界、定向開放給高校和科研機構推動前沿研究。合規方面，入家采集需簽授權協議，數據傳輸全程加密，權限管控在云平臺上執行，交易環節與監管機構做了溝通和備案。

所以京東做的不是一個單點的采集項目，而是一整套從數據采集到模型訓練再到數據交易的基礎設施。它給整個具身智能行業提供最底層的"燃料"。

具身智能的下半場，正在到來

回過頭來看整個具身智能行業，有一個很形象的說法：機器人的"小腦"已經逐漸發育完全了——走、跑、跳、翻跟頭，但想進入人類生活，靠的是"大腦"。

現在的機器人擅長基礎運動，卻無法完成疊衣服、擦桌子、分揀藥品這些對人類來說再簡單不過的日常操作，整個產業還停留在"炫技"階段。要讓機器人從"會動"進化到"會干活"，關鍵不在硬件，而在數據。

機器人"小腦發達、大腦不足"，擅長跑跳等基礎動作，卻無法完成家務、精細操作等實用任務。整個產業還停留在"炫技"階段。

大腦的發育靠什么？靠數據。這就是京東做這件事的底層邏輯。他們的目標很明確：兩年內積累1000萬小時人類真實場景視頻數據，外加100萬小時機器人本體數據。

為此，京東計劃發動多達60萬人參與采集——內部10萬員工，加上外部50萬各行業人員，僅在宿遷一地就要動員超過10萬市民。京東自身3600多個倉庫、20萬家合作藥房、1萬多家線下門店、5萬多名保潔師，每年服務近千萬個家庭，覆蓋3000多個業務場景——這些真實場景本身就是天然的數據富礦。

過去幾年，AI的主戰場在數字世界——寫文章、畫圖、寫代碼，一切都發生在屏幕里。而未來，AI的主戰場將轉移到物理世界。或許正是基于這樣的判斷，5月18日的京東618啟動會上，京東集團技術委員會主席曹鵬明確提出，京東將打造全球最大物理世界運營中心，推動AI從千行百業走進千家萬戶。

說白了，AI要從屏幕里走出來，光會寫文章畫圖不夠，它得學會在真實世界里干活。而干活這件事，沒有捷徑，就是得看夠足夠多的人類操作——怎么擦桌子，怎么扶老人，怎么摘果子。這些數據不可能在實驗室里編出來，只能從真實的生活里一幀一幀地采。

機器人的Scaling Law找到了，方向明確了，剩下就是一個字：喂。誰能最快喂夠數據，誰的機器人就先聰明起來。京東的做法簡單直接——發動60萬人，在真實生活里給機器人當老師。

當60萬人的生活經驗都變成了數據，Jim Fan說的那場終局之戰，才算真正開始。

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.