網易首頁 > 網易號 > 正文申請入駐

在宿遷，窺見世界模型爭奪戰的數據采集前線

2026-05-29 19:45:55　來源: 科工力量

上海舉報

分享至

宿遷湖濱新區居民區，一間90平的普通住宅內，一位寶媽戴著京東自研的JoyEgoCam數據采集終端，正在整理收納。

JoyEgoCam重220克，內置推理單元，比一部智能手機還輕。她的動作比正常人類稍慢，對折、撫平、放入。每天兩到四小時的采集，每周工作五天，為她帶來四千多元的收入。

這些畫面以第一人稱視角被記錄，即將成為訓練具身智能模型的數據燃料。2026年，全球AI的下一座山頭，是讓機器理解物理因果的世界模型。圖靈獎得主楊立昆拿超過10億美元押注的JEPA架構，核心判斷正是如此——大語言模型只懂文字，不懂物理世界，真正的AI需要理解杯子是硬的、裝了水會重、松手會掉。而要教機器理解這些，唯一的途徑是喂給它海量的、真實的物理世界數據。

世界模型的數據缺口有多大？

大語言模型能迎來GPT時刻，靠的是互聯網幾十年積累的文本存量——論文、網頁、書籍，這些語料早已存在，算法天才們只是找到了挖掘它們的方法。世界模型沒有這樣的歷史遺產。物理世界的交互數據不會自動上網，不會自己變成訓練語料。無論硅谷還是北京的實驗室，面對的都是同一個空倉庫：要讓機器理解重力、摩擦力和物體恒存性，需要數千萬小時的真實場景數據。

覓蜂科技董事長兼CEO（首席執行官）、智元機器人合伙人姚卯青此前公開表示，訓練類似ChatGPT-5級別的系統所需語料達百億小時量級，而具身智能可用數據僅在50萬小時量級，規模差距懸殊，還存在標準缺失、質量不一、供需錯配等問題。

這不是巧婦難為無米之炊，而是連判斷誰是巧婦、什么是好米、下鍋之后該煮成什么飯的標準，都還沒有建立。因為沒有人知道，什么樣的數據才能讓機器真正長出物理常識。

在這樣的數據荒中，京東宣布，計劃兩年內采集突破1000萬小時的真實場景視頻數據。

采什么，怎么采，難在哪？

我們來到宿遷，實地看看這場模型大戰的糧草先行。

宿遷現場，糧草先行

在京東已經建成的機器人數據采集中心，現場搭建了物流倉儲、工業制造、健康醫療、家庭服務、城市運維等場景，我們了解，這里的工作人員本地居民居多，經過專業人員的培訓后就能上崗。

舞蹈老師臧老師在練習室里完成了三小時采集，工作內容是把貨品重復上架。他說，舞蹈老師的工作時間相對自由，能夠體驗另一種完全不同的工作，并獲得收入，是一件有趣有益的事情。

在另一家服裝廠的車間里，一位戴著頭環的中年媽媽在踩縫紉機。與前兩位特意放慢動作或刻意重復動作不同，她只是以正常狀態和速率進行工作，頭環沒有帶來任何影響。兼做數據采集，為她帶來一些額外的補貼。

采訪中，她說，不愿意自己的女兒繼續進廠打工，如果能夠由機器人來干這么枯燥的活，她覺得是一件好事。同時，她也非常驕傲自己能夠為訓練研發機器人貢獻自己的力量。

在宿遷郊外的果園里，采集員記錄著果蔬采摘的軌跡和不規則地形下的行走數據。果園負責人對來訪者給出了最樸素的回答，之所以對AI接受度高，不是因為技術有多先進，而是因為剛畢業的大學生、20出頭的小伙子不愿意干這個活。機器人填補的，是人力市場自然流失的崗位，是原本無人愿意承接的空白地帶。

京東云相關負責人在媒體探訪中介紹，京東在宿遷的采集模式是一個中心加若干社區網點，面向宿遷市民開放靈活用工渠道，覆蓋全職媽媽、退休人員、大學生等多類人群，分層培養靈活用工，形成專業采集加眾包采集協同機制。這種社區網格采集模式，將縣城里的寶媽、退休人員和舞蹈老師，在社區這個單位下，快速組織成一支數據采集部隊。

人，才是那具通用的本體

為什么訓練機器人的數據，要從人類身上采？

要回答這個問題，需要先理清三個經常被混用的概念。人形機器人是物理本體，具身智能是讓人形機器人擁有智能的技術體系，世界模型則是大腦的核心，它讓機器人在采取行動前在內部模擬后果，理解重力、摩擦力、物體恒存性。三者是層層遞進的關系，沒有世界模型的具身智能，本質上還是高級遙控玩具。

目前行業有四條數據采集路線在同時跑。真機遙操，工程師坐在電腦前遙控一具20萬的機器人本體，讓它重復抓取動作，數據最保真，但只能蹲守單一倉庫，且A型號的數據無法用于B型號，本體一迭代，之前的數據就作廢了，形成數據煙囪。UMI，采集員手持一個約400美元的3D打印夾爪，上面夾著GoPro相機，在真實環境里開合夾取，打破了必須買機器人才能采數據的困局，但視角只盯著夾爪附近。Ego頭環，像戴眼鏡一樣記錄的是人眼看到的世界，全身環境信息完整。仿真，在虛擬引擎里搭建環境，讓數字機器人試錯，但虛擬世界里的摩擦力和光照與真實世界不同，存在仿真到現實的鴻溝。

在這四條路線中，Ego頭環正成為產業界最新的風向。因為它把人類變成了通用數據采集器，打破了必須先買機器人才能采數據的成本門檻。

自動駕駛之所以能用真車采集，是因為汽車的形態是唯一的，四個輪子一個方向盤。但具身智能領域，尤其是機器人形態尚未收斂的階段，A型號機器人的遙操數據無法喂給B型號，機械臂長度變了、關節扭矩變了、攝像頭位置變了，之前采的數據就全部作廢。

數據采集的時機，不能因行業早期無法統一標準而白白流失掉，人們突然發現，人類才是那具通用的“本體”，而且成本更低。人有兩只手、十根手指、立體視覺、平衡感。這些結構是穩定、標準化的。所以人戴著頭環去整理收納、擦桌子、擰螺絲、協助老人翻身，采出來的Ego數據可以喂給任何形態的機器人。

犬牙交錯：書齋與田野

當前，中美在具身智能上的競爭，不是一條直線上的你追我趕，而是兩套系統的對抗，態勢犬牙交錯。一邊是書齋里的精巧推演，一邊是田野上的粗糲生長。

硬件本體和供應鏈，中國已經并跑甚至領跑。

特斯拉Optimus Gen 3計劃2026年7到8月在弗里蒙特工廠啟動生產，遠期目標年產100萬臺。但截至2025年底，特斯拉實際產量僅有幾百臺，遠低于5000臺的年度目標，且未達工廠實操標準。馬斯克在2026年1月承認，這些機器人主要是用來學習，還不能承擔生產性任務，自主運行仍依賴遠程操控。其機器人部門還經歷了負責人離職，Gen 3涉及約10000個獨特零部件，均未經過大規模量產驗證，初期產量將相當緩慢，手部和前臂設計的技術難題導致大量無手機體積壓。

在中國，智元機器人2026年3月宣布第10000臺遠征A3下線，已規模化外供至龍旗、立訊等3C產線，實現8小時直播無故障實裝。宇樹科技同期啟動科創板IPO，2026年目標量產1到2萬臺，2025年度扣非凈利潤已達6億元。中國機器人的成本普遍只有美國同類的十分之一，供應鏈迭代速度以周計算。

小腦和運動控制，雙方基本持平。中國勝在高密度場景的打磨，美國強在高動態控制的理論積累。

大腦和具身大模型，美國仍占架構設計優勢。特斯拉的FSD視覺棧、Dojo超算，xAI的Grok與Optimus深度集成，這些設計在算法層面確有深厚積累。算法其實依賴足量真實物理數據來喂養，具身智能領域存在一個效率定律，當數據生成速率低于臨界閾值時，增加模型容量不會轉化為性能提升。美國的數據采集受限于高成本、嚴格隱私合規和本體供應鏈短板，數據生成速率極低，算法優勢目前無法被證實也無法被證偽，始終停留在紙面和仿真里。

數據與系統耦合，中國則鋪開了產線。當美國把資源押注在單一本體的深度打磨上時，中國選擇了智元、宇樹、優必選等等更多企業齊頭并進，各自迭代不同形態的本體，分散試錯。Ego數據的通用性恰好適配了這種多本體并行的生態。

共享的數據底座，加上分散的本體試錯，再加上每周迭代的供應鏈，三者咬合在一起，構成了中國量產效率的底層密碼。

功夫不在技術，在組織能力

在2026年4月紅杉資本AI Ascent演講中，英偉達科學家Jim Fan樂觀預測，（全球）第一視角人類視頻數據若接入類似特斯拉FSD的后臺飛輪，"未來一年內達到1000萬小時"。

為什么美國只敢想1000萬小時？不是美國缺人。硅谷不缺工程師，也不缺外包到印度、菲律賓的渠道。甚至印度的人口規模和相對低廉的用工成本，理論上比宿遷更適合做這件事。

但真實的原因是，硅谷的組織結構，無法穿透非標準化的數據采集任務。硅谷公司發一件采集任務，起碼要走三層代理，總部到本地管理公司，再到現場數采團隊。每一層都在吞噬溝通成本和響應速度。美國不是不想采更多，而是遠程管理的多層代理結構根本做不到。

京東在宿遷的做法，本質上是用組織能力擊穿這個天花板。這種長期扎根積累的不是一張通訊錄，而是把人嵌入流程、快速響應、層層穿透的組織動員能力。

這種動員能力在宿遷并非沒有先例。淮海戰役期間，這里是華東野戰軍的后勤走廊，民工用小推車完成支前補給。從推車到頭環，跨越七十年，組織人力的底層邏輯一脈相承——都不是精確計算后的行動，而是先把東西送上去再說。

國先中心，即國際先進技術應用推進中心深圳，在其2026年3月發布的具身智能數據行業研究白皮書中指出，行業普遍認為要實現具身智能涌現至少需要百萬小時來自真實世界的物理互動數據，目前積累的數量尚不足5%。現階段實際可用數據量遠未滿足需求，且數據采集和使用方法尚未形成共識，領域內缺乏統一的能力評估基準。

而高質量數據的定義權，在當下這個階段，恰恰是由這種組織能力來生成的。一位業內人士半開玩笑地說，數據采集這件事，最后要經得住居委會大媽的吊打。這種無法被SOP化的、嵌入日常生活的追問，是目前最接近真實世界的質檢標準——不是要定義高質量，而是要不斷逼近高質量。

在本地一家養老院里，采集員戴著頭環，記錄著協助老人起身、翻身、擦身的全過程。需要被記錄的人類雙手動作，極易被身體、被褥或護理器械遮擋。雙目頭環拍到的常常是一個半截胳膊，或一個肩膀的背影。對于追求精準軌跡的數據采集來說，這幾乎等于廢片。

事后向業內人士求證，這種被遮擋的、不完整的動作數據，有價值嗎。對方回答，沒關系，只要數據量足夠大就行。

如果數據太少，會連”什么是廢片”的標準都無法建立。所以先全采全收，讓模型自己來當裁判。面對一個極難采集、充滿遮擋的真實場景，正確的選擇不是先確保百分百高質量再采，而是先采下來再說。讓模型自己在海量數據中去學習，去判斷一個被遮住一半的動作是否依然有價值。

先采了再說，這五個字就是京東在宿遷的方法論。雖然沒有人知道哪一部分數據最終會被證明有用，但我們可以篤定，硅谷更不知道。

希望與焦慮的交匯點

未知也不等于沒有辦法，市場機制正在試圖扮演那個在未知中尋找秩序的角色。

2026年4月，京東推出具身數據交易平臺，首批高精數據集已定向開放，與幾十家頭部企業及高校科研機構建立戰略合作。數據被拆分為預訓練集和后訓練集，按不同規格定價，企業可以按需采購，高校也可以通過定向合作獲取。

這個平臺的邏輯很簡單，既然沒人知道什么是高質量數據，那就讓市場來投票。一個數據集好不好，不需要專家委員會來定義，看看有多少家企業愿意花錢買就知道了。供需雙方在交易中自然形成價格信號，價格信號反過來指導采集方向。

市場會倒逼出一套篩選機制。那些真正能提升模型泛化能力的數據，最終會被復用和溢價；那些只是堆砌無效幀的數據，則會被交易市場用腳投票淘汰。這不是解決未知質量的終極方案，但它是目前最務實的方向——用交易的紀律，代替理論的爭吵。

按市場一般水平，數據在交易流通環節的價格約為200元每小時。但方老師每月三四千元的到手收入，按每天2到6小時、每月約20天折算，實際時薪約30到50元，但這些數字對宿遷的工廠主和采集員來說，依然是真實的生計計算。生計計算的另一面是，沒有人知道這些數據最終值不值這個價。

這恰恰體現了中國在具身智能賽道上的獨特優勢。不是我們已經找到了正確答案，而是我們擁有快速將試驗變成商品、將模糊需求變成市場報價的產業組織能力。

先上再說

晚上九點，宿遷的采集工作陸續收工。

這些白天里被鏡頭記錄的面孔，此刻散落在縣城的不同角落。練習室里的標準動作，工廠里的樸實愿望，流水線里的粗糲真實，田間地頭的無人接替，哪一種更接近世界模型需要的因果。沒有人知道答案。但系統會把它們都標記為有效數據，上傳，清洗，喂給模型。

在2026年春節，行業迎來了一個高光時刻。宇樹科技的人形機器人在春晚舞臺上表演武術節目《武BOT》，彈射空翻、醉拳、雙節棍，動作凌厲。社交媒體上相關視頻累計播放量過億，具身智能這個詞第一次以正面、出圈的方式進入公眾視野。無數人在那一刻相信，機器人時代真的來了。

那個瞬間，是行業給所有從業者的一個獎勵——讓你們在大眾面前看看自己造的東西有多酷。

但春晚舞臺燈光熄滅之后，回到宿遷的廠房里，回到真實的量產報表前，故事的另一面開始浮現。2026年6月1日，宇樹科技科創板IPO將上會審議。作為具身智能領域最耀眼的明星企業，宇樹的財務數據呈現出一個矛盾的圖景，2026年第一季度營收增速從335%驟降至68%，現金流下降85%。

更現實的焦慮在于，隨著宇樹上市，早期投資人將進入退出通道。當資本退潮時，那些寄希望于政策補貼和企業投入的各地訓練場，能否在失去資本關注后繼續運營，能否堅持到下一個周期，沒有人能給出肯定的答案。

春晚的光環與資本市場的算盤，同時落在這條賽道上。高光與陰影本來就是并存的，這才是領先者的真實處境——資源錯配是常態，不是意外，大家都是在迷霧中全速奔跑，付出論證方向的代價，或許是跑出生天，或許是跑進一鍋夾生飯。

整理房間、踩縫紉機、上架商品和協助老人翻身的動作還在繼續，誰也不知道這些數據最終會被哪個模型消化，不知道自己記錄的是否屬于那十分之一有用的部分。

七十年前，這片土地上的人們用小推車推出了一場戰役的勝利，當年的老鄉不知道哪一車糧草最終改變了戰局，今天的寶媽也不知道哪一幀數據會被模型消化。工具變了，粗糲的邏輯沒有變，都是先把東西送上去，再讓歷史來篩選。

試驗田之所以是試驗田，就在于它注定要同時承載探索的勇氣與失敗的風險，而真正贏過的人知道，有些勝利，本來沒那么確定。

時機到了，只有先上再說。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.